Python Pandas ile CSV Dosyalarını Okuma Rehberi

CSV Nedir ve Neden Kullanılır?

CSV (Comma-Separated Values), metin tabanlı bir dosya formatıdır ve özellikle verilerin düz bir şekilde depolanması ve paylaşılması için kullanılır. Bu format, her bir veriyi birbirinden virgül (veya diğer ayrım işaretleri) ile ayırarak düzenler; dolayısıyla insan tarafından okunabilir olması en büyük avantajlarındandır. CSV dosyaları, veri aktarımında ve analize yönelik işlemlerde yaygın bir biçimde kullanılır. Birçok veri analizi aracı ve programlama dili, bu dosya formatını destekler; bu da CSV’yi veri doldurma ve taşıma süreçlerinde popüler hale getirir.

Pandas, Python’ın güçlü veri analizi kütüphanesidir ve veri manipülasyonu için oldukça etkili bir araçtır. Özellikle büyük veri setleri ile çalışmak isteyen geliştiriciler ve veri bilimcileri, Pandas’ı tercih ederek veri ile etkileşim ve analiz süreçlerini kolaylaştırabilirler. CSV dosyalarını okumak, veri setlerini analiz etmeye başlamak için önemli bir adımdır. Bu yazıda, Pandas kütüphanesi kullanarak nasıl CSV dosyası okunacağını detaylarıyla öğreneceğiz.

CSV dosyaları genellikle veri bilimi, makine öğrenimi ve birçok uygulama geliştirme süreçlerinde ilk adım olarak kullanılır. Bu nedenle, Python’da Pandas ile CSV okuma yeteneği, veri ile çalışan herkes için hayati bir beceridir.

Pandas Kütüphanesi ile Başlarken

Pandas kütüphanesini kullanmaya başlamadan önce, öncelikle terminal veya komut istemciniz üzerinden kütüphaneyi yüklemeniz gerekmektedir. Aşağıdaki komut ile Pandas’ı yükleyebilirsiniz:

pip install pandas

Kurulum tamamlandıktan sonra, Python dosyanızda Pandas’ı import etmeyi unutmayın. İşte bunun örneği:

import pandas as pd

Pandas, verileri DataFrame adı verilen yapı içinde tutar. DataFrame, satır ve sütunlardan oluşan bir tablolar bütünüdür ve bu yapı sayesinde verileri kolayca manipüle edip analiz edebilirsiniz. Şimdi, Pandas ile bir CSV dosyasını nasıl okuyacağımıza geçelim.

CSV Dosyasını Okuma

Pandas, CSV dosyalarını okumak için read_csv() fonksiyonunu sağlamaktadır. Bu fonksiyon, dosya yolu veya URL gibi bir kaynak ile çağrılarak CSV dosyasını açıp bir DataFrame elde etmenizi sağlar. Temel kullanım şu şekildedir:

df = pd.read_csv('veriler.csv')

Burada veriler.csv, okuma işlemi yapılacak dosyanın adıdır. Eğer CSV dosyanız farklı bir dizinde veya bir URL üzerinden erişilebiliyorsa, dosya yolunu mutlak ya da göreceli olarak belirtmeniz gerekecektir. Örneğin:

df = pd.read_csv('/path/to/your/file/veriler.csv')

Bu satırı çalıştırdıktan sonra, df değişkeni, CSV dosyasındaki verileri içeren bir DataFrame olacaktır. Okunan verilerin yapısını daha iyi anlamak için, aşağıdaki gibi birkaç komut kullanabilirsiniz:

print(df.head())  # İlk 5 satırı gösterir
print(df.info())  # DataFrame'in genel bilgilerini verir

CSV Okuma Ayarları ve Seçenekleri

Pandas, CSV dosyalarını okurken kullanabileceğiniz birçok seçenek sunar. Örneğin, sütun ayırıcıyı belirtmek veya verilerin hangi karakter kodlaması ile okunacağını seçmek gibi. Varsayılan ayırıcı virgül (‘,’)dir, ancak eğer dosyanızda farklı bir ayırıcı varsa, bunu sep parametresiyle belirtebilirsiniz:

df = pd.read_csv('veriler.tsv', sep='\t')

Yukarıdaki örnekte, bir tab ayrıcı ile oluşturulmuş veriler.tsv dosyası okunmaktadır. Aynı şekilde, bir CSV dosyasının hangi karakter kodlamasıyla okunacağı da encoding parametresi ile ayarlanabilir. Eğer dosyanız UTF-8 dışında bir kodlamaya sahipse, bunu belirlemeniz gerekebilir:

df = pd.read_csv('veriler.csv', encoding='latin1')

Ayrıca, bazı sütunları sadece belirli sütunları okuyarak veya belirli satırları atlayarak okuma işlemleri yapmak da mümkün. usecols parametresi ile okunan dosyadan yalnızca bazı sütunları seçmek için bir liste verebilirsiniz:

df = pd.read_csv('veriler.csv', usecols=['sütun1', 'sütun3'])

Veri Kontrolü ve Ön İşleme

Veri dosyanızı okuduktan sonra, bu verilerin temizliği ve formatlanması genellikle önemlidir. Pandas, bu süreçte birçok araç ve fonksiyon sunar. Örneğin, eksik verileri kontrol etmek için isnull() ve sum() fonksiyonlarını bir arada kullanarak sütunlardaki null değerlerin kontrolünü gerçekleştirebilirsiniz:

print(df.isnull().sum())

Bu komut, her sütundaki eksik değerlerin sayısını döndürür. Eğer eksik veriler varsa, bu durumlarla nasıl başa çıkacağınızı belirlemeniz gerekmektedir. Pandas, eksik verileri silmek (dropna()) veya doldurmak (fillna()) için çeşitli yöntemler sunar:

# Eksik değerleri silme
cleaned_df = df.dropna()

# Eksik değerleri sıfır ile doldurma
filled_df = df.fillna(0)

Bu tip veri kontrolü ve ön işleme, verilerinizi analiz etmeden önce sağlam bir temel oluşturacaktır. DataFrame’in genel yapısını incelemek ve daha fazla bilgi elde etmek için farklı Pandas fonksiyonlarını kullanmalısınız. Örneğin:

print(df.describe())

Sonuç

Pandas ile CSV dosyalarını okumak, Python’da veri analizi yapmaya başlamak için en önemli adımlardan biridir. Bu yazıda, Pandas’ın sunduğu kolaylıklar ve esneklikle birlikte, CSV dosyalarını okumanın temel yöntemlerini incelemiş olduk. read_csv() fonksiyonu sayesinde CSV dosyanızı hızlı ve etkili bir şekilde DataFrame yapısına aktarabilirsiniz.

CSV’lerin önemli özelliklerine ek olarak, verilerinizi kontrol etmek, temizlemek ve analiz etmek için birçok teknik ve yöntem geliştirebilirsiniz. Pandas sizin için büyük bir avantaj sağlar ve çeşitli projelerinizde veriyle daha derinlemesine etkileşim kurmanızı sağlar. Kendi projelerinizde Pandas ile CSV dosyası okuma yeteneğinizi geliştirdikçe, veri analizi becerilerinizin de genişlediğini göreceksiniz.

Unutmayın, her zaman verilerinizle denemeler yapabilir ve farklı yöntemler denemekten çekinmemelisiniz. Bu, hem öğrenim sürecinizi hızlandıracak hem de veri analizi alanındaki yeteneklerinizi pekiştirecektir.

Scroll to Top