Pandas Nedir?
Pandas, Python programlama dilinde veri analizi ve manipulasyonu için en popüler kütüphanelerden biridir. Yüksek seviyeli bir veri yapısı ve analiz araçları sunarak, kullanıcıların veri üzerinde işlemler yapmasını kolaylaştırır. Pandas, özellikle çeşitli veri kaynaklarından gelen verileri işlemek ve analiz etmek isteyen veri bilimcileri ve analistler için vazgeçilmez bir araçtır. Kütüphane, iki ana yapı olan Series ve DataFrame üzerinden veri yönetir. Series, tek boyutlu bir diziyi temsil ederken, DataFrame çok boyutlu, tablodaki verileri temsil eden bir yapıdır.
Pandas, veri tabloları üzerinde çalışırken birçok faydalı özellik sunar. Bu özellikler arasında veri okuma ve yazma, eksik veri yönetimi, veri filtreleme, gruplama, birleştirme ve yeniden şekillendirme yer alır. Bu yüzden veri setleri ile çalışırken çoğu Python geliştiricisi, Pandas kütüphanesini kullanmayı tercih eder. Çeşitli veri formatlarını desteklemesi ve performansı ile veri bilimi projelerinde yaygın olarak kullanılır.
Pandas ile çalışmaya başlamak oldukça kolaydır. Kütüphaneyi kullanabilmek için öncelikle sisteminize Pandas’ı kurmanız gerekmektedir. Bunun için terminalde aşağıdaki komutu çalıştırabilirsiniz:
pip install pandas
Pandas İle Veri Tabloları Oluşturma
Pandas ile veri tabloları oluşturmanın birkaç yolu vardır, ancak en yaygın yöntemler bir Python sözlüğü kullanarak veya mevcut bir veri dosyasından (örneğin, CSV dosyası) yararlanarak DataFrame oluşturmaktır. Aşağıda her iki yöntemi de ayrıntılı olarak inceleyeceğiz.
İlk olarak, bir Python sözlüğü ile nasıl DataFrame oluşturabileceğinizi görelim. Aşağıdaki örnekte, bir öğrencilerin isimlerini, yaşlarını ve notlarını içeren bir sözlük tanımlıyoruz:
import pandas as pd
veri = { 'İsim': ['Ali', 'Ayşe', 'Mehmet'], 'Yaş': [18, 20, 19], 'Not': [85, 90, 82] }
df = pd.DataFrame(veri)
Yukarıdaki kod, bir veri tablosu oluşturmanızı sağlar. ‘df’ değişkeni artık ‘İsim’, ‘Yaş’ ve ‘Not’ sütunlarına sahip bir DataFrame içermektedir. Veri tablolarında veri işlemleri gerçekleştirirken, Pandas ile birçok avantaj elde edersiniz.
Diğer bir yöntem ise mevcut bir CSV dosyasından DataFrame oluşturmaktır. Örneğin, aşağıdaki gibi bir CSV dosyanız olduğunu varsayalım:
İsim,Yaş,Not
Ali,18,85
Ayşe,20,90
Mehmet,19,82
Bu dosyayı Pandas kullanarak okumak için şu kodu kullanabilirsiniz:
df = pd.read_csv('dosya_adi.csv')
Bu komut ile CSV dosyasındaki verileri doğrudan bir DataFrame içerisine aktarabilirsiniz. Pandas, birçok farklı veri biçiminde dosya okumayı kolaylaştırır ve böylece projelerinizde veri analizi için gerekli olan araçları sağlamış olursunuz.
Pandas ile Veri Tablolarında Filtreleme ve Sorgulama
Pandas ile DataFrame’ler üzerinde filtreleme yaparak ihtiyacınıza göre verileri ayıklayabilirsiniz. Belirli koşullara göre alt kümesel analizler yapmak, veri görselleştirme ve temizleme işlemleri açısından büyük yarar sağlar. Aşağıdaki örnekte, bir DataFrame üzerinde nasıl filtreleme yapabileceğinizi gösterelim:
yuksek_notlar = df[df['Not'] > 85]
Yukarıdaki örnekte, ‘Not’ sütununda 85’ten yüksek olan tüm kayıtları filtreleyerek yeni bir DataFrame elde ediyoruz. Bu sayede sadece yüksek not alan öğrencileri görebiliriz. Pandas, çok çeşitli koşulları kullanarak veri filtrelemenizi mümkün kılar.
Filtreleme işlemi yaparken, aynı zamanda birden fazla koşul da belirleyebilirsiniz. Örneğin, hem ‘Yaş’ değeri 18’den büyük hem de ‘Not’ değeri 85’ten büyük olan verileri seçmek için:
sonuc = df[(df['Yaş'] > 18) & (df['Not'] > 85)]
Ayrıca Pandas ile veri sorgulamak için ‘query’ işlevini de kullanabilirsiniz. Bu işlev, SQL benzeri bir sözdizimiyle DataFrame üzerinde sorgular oluşturmanıza imkan tanır:
sonuc = df.query('Yaş > 18 and Not > 85')
Bu özellikler, veri setini derinlemesine incelemenize ve gerektiğinde daha fazla içerik elde etmenize yardımcı olur.
Pandas İle Veri Manipülasyonu ve Dönüşümleri
Pandas, veri manipülasyonu ve dönüşümleri konusunda güçlü araçlar sunar. DataFrame üzerinde satır ve sütun ekleyebilir, silebilir ya da güncelleyebilirsiniz. Örneğin, yeni bir sütun eklemek için:
df['Yeni Not'] = [90, 95, 88]
Bu komut ile ‘Yeni Not’ adında yeni bir sütun eklemiş olduk. Sütun değerleri için bir liste tedarik ettik. Eğer var olan bir sütundaki değerleri güncellemek isterseniz, yine benzer bir yaklaşım kullanabilirsiniz:
df.loc[df['İsim'] == 'Ali', 'Not'] = 95
Burada, ‘İsim’ değeri ‘Ali’ olan öğrencinin ‘Not’ değerini güncelledik. Pandas, bu tür işlemleri hızlı ve etkili bir şekilde gerçekleştirmenize olanak tanır.
Veri setini yeniden şekillendirmek için pivot tablosu oluşturarak veri analizlerinizi daha anlamlı hale getirebilirsiniz. Örneğin, aşağıdaki gibi bir pivot tablo oluşturabilirsiniz:
pivot_df = df.pivot_table(values='Not', index='İsim', aggfunc='mean')
Pivot tablolar, özellikle büyük ve karmaşık veri setlerinde veri analizi açısından çok faydalıdır. Bu sayede verilerinizi daha düzenli bir biçimde inceleyebilirsiniz.
Pandas ile Eksik Verileri Yönetme
Gerçek dünyadaki veriler genellikle eksik bilgiler içerir. Pandas, eksik verilerle baş etme noktasında birçok araç sunar. Veri setlerindeki eksik verileri tespit etmek ve yönetmek oldukça önemlidir. Bir DataFrame üzerindeki eksik verileri kontrol etmek için şu komutu kullanabilirsiniz:
df.isnull().sum()
Bu komut, her bir sütundaki eksik verilerin sayısını gösterecektir. Eksik verilerle başa çıkmanın birkaç farklı yolu vardır. Dilimleme yöntemi ile eksik satırları düşürebiliriz:
df_clean = df.dropna()
Ayrıca, eksik değerleri belirli bir değeri atayarak da doldurabilirsiniz:
df.fillna(value=0, inplace=True)
Burada, tüm eksik değerleri 0 ile doldurmuş olduk. Pandas, eksik veriler üzerinde bu tür yönetim yöntemlerini uygulamanıza olanak tanır.
Pandas ile Veri Analizi ve Görselleştirme
Pandas ile veri analizi gerçekleştirmek, çeşitli istatistiksel hesaplamalar yapmayı mümkün kılar. Örneğin, temel istatistikleri incelemek için:
df.describe()
Bu işlem, sayısal verilerin temel istatistiklerine (ortalama, medyan, standart sapma vb.) erişmenizi sağlar. Ayrıca, veri görselleştirmesi için Pandas ile Matplotlib veya Seaborn kütüphanelerini de entegre edebilirsiniz.
Bir örnek vermek gerekirse, şu şekilde basit bir grafik oluşturabilirsiniz:
import matplotlib.pyplot as plt
df['Not'].plot(kind='bar')
plt.title('Öğrenci Notları')
plt.xlabel('Öğrenciler')
plt.ylabel('Notlar')
plt.show()
Bu kod ile öğrencilerin notlerini gösteren bir çubuk grafik elde edebilirsiniz. Veri setinizi görsel olarak analiz etmek, verilerinizin anlamını daha iyi kavramanızı sağlar.
Sonuç olarak, Pandas ile veri analizi ve görselleştirme süreçlerini birleştirerek daha derinlemesine içgörüler elde edebilirsiniz. Bu, karar verme süreçlerini kolaylaştırır ve veri bazlı kararlar almanıza olanak tanır.
Sonuç
Pandas ile veri tabloları oluşturmak, yönetmek ve analiz etmek oldukça kolay ve etkilidir. Veri bilimi ve analiz projelerinde sıkça kullanılan bu kütüphane, güçlü araçları sayesinde Python geliştiricilerine büyük avantaj sağlamaktadır. Bu yazıda, Pandas ile veri tablosu oluşturma, filtreleme, veri manipülasyonu, eksik verilerle başa çıkma ve veri görselleştirme gibi birçok temel konuya değindik.
Pandas, veri bilimcileri için vazgeçilmez bir araçtır. Makine öğrenmesi ve veri bilimi projelerinde verilerinizi etkili bir şekilde hazırlamak, analiz etmek ve modellemek için gerekli olan tüm araçları sağlamaktadır. Bu yazıyı okuyarak, Pandas kütüphanesinin gücünü keşfetmeye başlamış olduğunuzu umuyoruz!
Artık kendi projelerinizde Pandas kullanarak veri tablolarıyla çalışabilir ve analizlerinizi gerçekleştirebilirsiniz. Başarılar dileriz!