Giriş
Python, veri bilimi ve veri analizi konusunda yaygın olarak kullanılan bir dildir. Bu alandaki en popüler kütüphanelerden biri ise Pandas kütüphanesidir. Pandas, özellikle DataFrame yapısı ile veri setlerini etkili bir şekilde yönetmemizi sağlar. Bu yazıda, bir DataFrame’den sütun değerlerini nasıl alabileceğimizi detaylı bir biçimde keşfedeceğiz.
Veri analizi için, büyük veri setlerindeki belirli bilgilere ulaşabilmek oldukça önemlidir. Bir DataFrame’den tüm sütun değerlerini veya belirli bir sütundaki değerleri almak, veri ile etkileşimde bulunmamız gerektiğinde sıkça başvurduğumuz bir yöntemdir. Bu yazıda, bu işlemleri gerçekleştirirken kullanabileceğimiz çeşitli yöntemleri ele alacağız ve uygulamalı örnekler sunacağız.
Python’da veri çerçevelerine erişim sağlamak, veri işleme süreçlerimizde bize büyük kolaylıklar sunar. Bu beceri, veri analizi yaparken ihtiyaç duyacağınız temel yeteneklerden biridir. Hadi şimdi, Pandas kütüphanesini kullanarak DataFrame’den sütun değerlerini nasıl alabileceğimize bakalım.
Pandas Kütüphanesinin Kurulumu
Pandas kütüphanesini kullanmaya başlamadan önce, bu kütüphanenin sisteminizde kurulu olduğundan emin olmalısınız. Eğer henüz kurmadıysanız, aşağıdaki pip komutunu kullanarak pandas kütüphanesini kolayca kurabilirsiniz:
pip install pandas
Kurulumdan sonra, Pandas kütüphanesini projemize dahil etmek için aşağıdaki gibi bir import işlemi yapmamız gerekecek:
import pandas as pd
Artık Pandas kütüphanesini kullanarak DataFrame ile işlem yapmaya hazırız. Bir DataFrame oluşturmak için çeşitli yöntemler bulunmaktadır. Örneğin, bir sözlük (dictionary) kullanarak bir DataFrame oluşturabiliriz:
data = {'İsim': ['Ali', 'Ayşe', 'Mehmet'], 'Yaş': [25, 30, 22]}
df = pd.DataFrame(data)
Yukarıdaki örnekte, İsim ve Yaş sütunları olan basit bir DataFrame oluşturduk. Şimdi bu DataFrame üzerinden sütun değerlerini alma işlemlerine geçelim.
DataFrame’den Sütun Değerlerini Alma Yöntemleri
1. Sütun İsimleri ile Erişim
DataFrame’den sütun değerlerine erişmenin en basit yolu, sütunun ismini kullanmaktır. Oluşturduğumuz örnek DataFrame üzerinden sütun değerlerini almak için aşağıdaki kodu kullanabiliriz:
isimler = df['İsim']
Yukarıdaki kodda, ‘İsim’ sütunundaki tüm değerleri almak için df[‘İsim’] ifadesini kullandık. Bu ifade, ‘İsim’ sütununun tüm değerlerini içeren bir Pandas Series nesnesi döndürür.
Bunu bir adım daha ileri götürerek, tüm isimleri liste şeklinde elde edebiliriz:
isim_listesi = df['İsim'].tolist()
Bu kod, ‘İsim’ sütunundaki değerleri bir Python listesine dönüştürerek, daha fazla işlem yapmak istediğimizde daha pratik bir yapı sunar.
2. Noktalar ile Erişim (Dot Notation)
Pandas, DataFrame sütunlarına erişmek için dot notation (nokta gösterimi) yöntemini de destekler. Bu yöntem, daha okunabilir bir kod yazmamızı sağlar, ancak yalnızca sütun isimleri geçerli Python değişken isimleri ile uyumluysa kullanılabilir. Örneğimizde bunu kullanarak ‘Yaş’ sütunu üzerinde işlem yapabiliriz:
yaslar = df.Yaş
Dot notation ile erişim, özellikle basit ve kısa sütun isimleri için oldukça kullanıcı dostudur. Ancak, unutmamız gereken bir nokta, sütun isimlerinin Python’da değişken ismi olabilmesi gerektiğidir. Eğer sütun isimlerimiz boşluk ya da özel karakter içeriyorsa, bu yöntemi kullanamamış oluruz.
3. Seçim-Kriterleri ile Erişim
Eğer bir sütundaki değerlerden belirli bir kritere göre seçim yapmak istiyorsak, boolean indexing yönteminden faydalanabiliriz. Örneğin, 25 yaşından büyük olan kişilerin isimlerini almak istiyorsak aşağıdaki gibi bir kod yazabiliriz:
büyükler = df[df['Yaş'] > 25]['İsim']
Bu kod, yaş değeri 25’ten büyük olan tüm kişilerin isimlerini içeren yeni bir Series oluşturur. Böylece, belirli bir kritere göre filtrelenmiş verileri kolayca elde edebiliriz.
Benzer şekilde, belirli bir koşula uyan tüm ‘Yaş’ değerlerini alma işlemini şu şekilde gerçekleştirebiliriz:
yas_degerleri = df[df['Yaş'] > 25]['Yaş']
Bu yöntem, veri setimizi analiz ederken oldukça işlevsel hale gelir. Verilerimiz üzerinde sıkça filtreleme yapmamız gerekebilir ve bu tür seçim kriterleri kullanmak bize büyük kolaylık sağlar.
DataFrame’in Diğer İşlevleri ile Sütun Değerlerini Alma
1. iloc ile Indeks Temelli Erişim
Pandas kütüphanesi, sütunlara ve satırlara erişmek için iloc yöntemi ile indeks temelli erişim imkanı sunar. Eğer belirli bir konumda bulunan hücre değerine erişmek istiyorsak bu metodu kullanabiliriz. Örneğin, 2. satırdaki 1. sütundaki değeri almak için şu şekilde bir kod yazabiliriz:
deger = df.iloc[1, 0]
Bu örnekte, DataFrame’deki 2. satır ve 1. sütunda bulunan değeri döndürür. iloc kullanarak yalnızca sayısal indeksleme yapacağız, bu nedenle indeksin sıfırdan başladığını unutmamalıyız.
Aynı zamanda, iloc ile belirli bir sütunda birkaç aralık belirterek değerleri çekmek de mümkündür:
yas_araligi = df.iloc[0:2, 1]
Bu kod, 0 ile 2. satırlar arasındaki (0’ıncı ve 1’inci satırlar dahil) ‘Yaş’ sütunundaki değerleri döndürür. Yani burada 25 ve 30 yaşındaki kişilerin yaşlarını almış olduk.
2. loc ile İsim Temelli Erişim
Bir diğer erişim yöntemi de loc’dur. loc, satır ve sütun isimleri ile erişim sağlar. Örneğin, belirli bir satırdaki sütun değerlerini almak için aşağıdaki gibi bir kullanım yapabiliriz:
degerler = df.loc[1] # 1. satır
Burada df.loc[1] ifadesi, 1. satındaki tüm sütun değerlerini içeren bir Series nesnesi döndürecektir. loc ile çalışmanın avantajı, satır ve sütun isimlerini kullanarak daha okunabilir bir kod yazmamızı sağlamasıdır.
loc ile belirli bir satır ve sütun kombinasyonunu almak isterseniz, aşağıdaki gibi bir kullanım yapabilirsiniz:
deger = df.loc[1, 'Yaş']
Burada, 1. satırdaki ‘Yaş’ değeri döndürülecektir. loc, açıkça tanımlanmış sütun ve satır isimleri ile çalıştığı için oldukça kullanışlıdır.
Sonuç
Bu yazıda, Python’da Pandas kütüphanesini kullanarak DataFrame’den sütun değerlerini alma yöntemlerini detaylı bir şekilde ele aldık. Sütuna erişim için kullanabileceğimiz çeşitli yöntemler arasında, isim kullanarak erişim, dot notation, boolean indexing, iloc ve loc yöntemlerini inceledik.
Veri analizi yaparken, bu tekniklere hakim olmak veri setinize daha etkin bir şekilde ulaşmamızı sağlar. Python ve Pandas ile çalışma becerilerinizi geliştirmek, veri bilimi alanında kariyer yapma yolunda önemli bir adımdır.
Kendi projelerinizde bu yöntemleri denemeniz ve veri setleriniz üzerinde uygulamanız, yeteneklerinizi pekiştirecek ve veri analizi konusundaki bilginizi artıracaktır. Pandas’ı daha derinlemesine keşfetmek için çeşitli kaynaklardan faydalanmayı unutmayın!