Giriş: DataFrame Nedir ve Neden Filtreleme Önemlidir?
Python, veri bilimi ve analizine olanak tanıyan güçlü kütüphaneler sunar. Bunlar arasında en popüler olanı, veri analizi için kullanılan Pandas kütüphanesidir. Pandas, veri kümesi ile çalışırken kolay kullanım ve verimlilik sağlar. Bir DataFrame, iki boyutlu ve etiketlenmiş verilere sahip bir veri yapısını temsil eder; satır ve sütunlardan oluşur. DataFrame’ler üzerinde yapılan işlemler, veri analizi sürecini hızlandırır ve kolaylaştırır.
Veri analizi sürecinin önemli bir parçası, verileri belirli kriterlere göre filtrelemektir. Filtreleme, büyük verisetlerinden sadece ilgi alanınıza giren verileri seçerek analiz sürecini daha anlamlı hale getirir. Bu yazıda, Pandas DataFrame’lerinde nasıl filtreleme yapabileceğinizi adım adım öğreneceksiniz.
Filtreleme işlemi, veri setinin görünümünü netleştirirken, aynı zamanda gereksiz verileri ayıklamaya ve odaklanmamız gereken metrikleri daha belirgin hale getirmeye yardımcı olur. Böylece, analizinizi daha doğru ve etkili bir şekilde gerçekleştirebilirsiniz.
Pandas ile DataFrame Oluşturma
Pandas kütüphanesi ile DataFrame oluşturmak oldukça basittir. Aşağıdaki Python kodu örneğinde, rastgele veriler kullanarak bir DataFrame oluşturacağız:
import pandas as pd
# Örnek veri
veri = {
'İsim': ['Ali', 'Ayşe', 'Mehmet', 'Fatma', 'Ahmet'],
'Yaş': [25, 30, 35, 28, 40],
'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'İstanbul', 'Ankara']
}
# DataFrame oluşturma
df = pd.DataFrame(veri)
print(df)
Yukarıdaki kod parçasında, ‘İsim’, ‘Yaş’ ve ‘Şehir’ sütunlarına sahip bir DataFrame oluşturduk. Bu DataFrame’i oluşturarak, filtreleme işlemleri için üzerinde çalışma yapabileceğimiz bir veriye sahip olduk.
DataFrame’in tasarımındaki etiketli veriler, veri ile ilgili daha fazla bilgi edinmeyi ve kolayca filtreleme yapmayı mümkün kılar. Oluşturduğumuz örnek veri setinde, farklı yaş gruplarına ve şehir bilgilerine sahip kullanıcıları görebiliyoruz.
DataFrame Filtreleme Teknikleri
Pandas kütüphanesi, DataFrame’lerde verileri filtrelemek için birkaç farklı teknik sunar. En çok kullanılan yöntemler arasında koşul ifadeleri, loc ve iloc yöntemleri bulunur.
Koşul ifadeleri ile filtreleme, DataFrame içindeki belirli bir koşulu sağlayan satırları seçmek için kullanılır. Örneğin, yaş değeri 30’dan büyük olan kullanıcıları bulmak istersek:
filtre = df[df['Yaş'] > 30]
print(filtre)
Bu kod,