Giriş: Pandas ile Veri Analizi ve DataFrame Yapısı
Pandas, Python programlama dili için hazırlanan en popüler veri analizi kütüphanelerinden biridir. Kullanıcıların veri setleriyle etkileşimde bulunmalarını kolaylaştırmak amacıyla tasarlanmıştır. Bu kütüphane, büyük veri setlerini işlemek ve analiz etmek için DataFrame adı verilen iki boyutlu bir yapıyı kullanır. DataFrame, tabular bir veri yapısı olup, verileri satırlar ve sütunlar şeklinde düzenler. Her bir sütun, farklı veri türlerine sahip olabilir. DataFrame, veri bilimi, makine öğrenimi ve genel veri analizi gibi alanlarda sıkça kullanılmaktadır.
Bugünkü yazımızda, mevcut bir DataFrame’e nasıl yeni bir sütun ekleyeceğimizi detaylı bir şekilde inceleyeceğiz. Yeni sütun eklemek, veri analizi süreçlerinde oldukça sık karşılaşılan bir durumdur. Örneğin, belirli hesaplamalar yapmak, veri setini zenginleştirmek veya analitik süreçleri kolaylaştırmak için yeni sütunlar ekleyebiliriz. Yazının devamında bu işlemin çeşitli yöntemlerine ve pratikte nasıl uygulanacağına odaklanacağız.
Pandas ile DataFrame Oluşturma
Yeni bir sütun eklemeden önce, üzerinde çalışacağımız bir DataFrame oluşturalım. Bunun için öncelikle Pandas kütüphanesini kurmamız ve ardından bir DataFrame oluşturması gerekiyor. Aşağıdaki kod parçasını kullanarak kolayca bir örnek DataFrame oluşturabiliriz:
import pandas as pd
data = {
'Ad': ['Ege', 'Merve', 'Ali'],
'Yaş': [28, 24, 30],
'Şehir': ['İstanbul', 'Ankara', 'Bursa']
}
df = pd.DataFrame(data)
print(df)
Yukarıdaki kod, ‘Ad’, ‘Yaş’ ve ‘Şehir’ sütunlarına sahip bir DataFrame oluşturur. Çıktı olarak aşağıdaki gibi bir tablo alıyoruz:
Ad Yaş Şehir
0 Ege 28 İstanbul
1 Merve 24 Ankara
2 Ali 30 Bursa
Bu DataFrame yapısını kullanarak yeni bir sütun ekleme işlemlerine geçebiliriz. Şimdi mevcut DataFrame’imizi nasıl genişletebileceğimize dair iki farklı yöntem üzerinde duracağız.
Yeni Sütun Eklemenin Yöntemleri
Pandas ile DataFrame’e yeni bir sütun eklemenin birkaç farklı yolu bulunmaktadır. En yaygın yöntemler arasında doğrudan atama yapmak, bir hesaplama sonucu yeni sütun oluşturmak veya mevcut sütunların bir kombinasyonunu kullanarak yeni bir sütun almak yer alır. Şimdi bu yöntemleri adım adım inceleyelim.
1. Doğrudan Atama ile Yeni Sütun Ekleme
En basit yöntemlerden biri, yeni bir sütunu doğrudan atama yaparak eklemektir. Örneğin, tüm kullanıcılara bir ‘Cinsiyet’ sütunu eklemek istiyorsak, aşağıdaki gibi bir kod yazabiliriz:
df['Cinsiyet'] = ['Erkek', 'Kadın', 'Erkek']
print(df)
Yukarıdaki kod ile, ‘Cinsiyet’ adında yeni bir sütun eklenmiştir. Çıktı olarak aşağıdaki veriyi elde ederiz:
Ad Yaş Şehir Cinsiyet
0 Ege 28 İstanbul Erkek
1 Merve 24 Ankara Kadın
2 Ali 30 Bursa Erkek
Bu yöntem oldukça hızlı ve etkilidir. Sadece belirtilen sütun adını yazarak o sütunun değerlerini de atayabiliriz.
2. Hesaplama Sonucu ile Yeni Sütun Ekleme
Bir başka yöntem, mevcut sütunlardan bir hesaplama sonucu yeni bir sütun oluşturmaktır. Örneğin, ‘Yaş’ sütununu baz alarak, her bireyin doğum yılını hesaplayabiliriz. Aşağıdaki gibi bir hesaplama yaparak yeni bir ‘Doğum Yılı’ sütunu ekleyebiliriz:
df['Doğum Yılı'] = 2023 - df['Yaş']
print(df)
Bu kod sonucunda DataFrame aşağıdaki gibi görünür:
Ad Yaş Şehir Cinsiyet Doğum Yılı
0 Ege 28 İstanbul Erkek 1995
1 Merve 24 Ankara Kadın 1999
2 Ali 30 Bursa Erkek 1993
Burada ‘Doğum Yılı’ sütunu, mevcut ‘Yaş’ sütununu kullanarak dinamik bir şekilde hesaplanmıştır. Bu yöntem, veri analizi gerçekleştirirken oldukça faydalıdır.
Filter Kullanarak Koşula Bağlı Yeni Sütun Eklemek
Pandas kütüphanesi, yeni sütun eklerken belirli koşullara dayalı filtreleme yapmanıza da imkan tanır. Örnek olarak, yaş bilgisi 25’ten büyük olan kullanıcılara bir ‘Yetişkin’ etiketi vermek istiyoruz. Bunu yapmanın en kolay yolu np.where()
fonksiyonunu kullanmaktır. Bunun için NumPy kütüphanesini de kullanacağız. İşte nasıl yapabileceğinizi gösteren bir örnek:
import numpy as np
df['Durum'] = np.where(df['Yaş'] > 25, 'Yetişkin', 'Genç')
print(df)
Sonuç olarak DataFrame aşağıdaki gibi güncellenir:
Ad Yaş Şehir Cinsiyet Doğum Yılı Durum
0 Ege 28 İstanbul Erkek 1995 Yetişkin
1 Merve 24 Ankara Kadın 1999 Genç
2 Ali 30 Bursa Erkek 1993 Yetişkin
Görüldüğü üzere, şartlı ekleme sayesinde ‘Durum’ sütunu, verilerimizi daha anlamlı hale getiriyor.
DataFrame’e Yeni Sütun Eklerken Dikkat Edilmesi Gerekenler
Yeni sütun eklerken bazı durumlarda dikkat edilmesi gereken noktalar vardır. Özellikle şu hususları göz önünde bulundurmalısınız:
- Veri Tipleri: Yeni eklediğiniz sütunun veri tiplerinin eski sütunlarla uyumlu olması önemlidir. Örneğin, sayısal bir sütun ekliyorsanız, verilerin sayısal olması gerekebilir.
- Boş Değerler: Yeni sütunu eklerken bazı gözlemler eksik kalabilir. Pandas bu durumları
NaN
(Not a Number) olarak gösterir. Eklediğiniz sütunun eksik değerler içerip içermediğini kontrol etmekte fayda vardır. - Index Eşleşmesi: DataFrame’deki sütunların uzunluğu ve sıralaması, her zaman uyumlu olmalıdır. Ekleyeceğiniz yeni sütunun uzunluğu mevcut satır sayısıyla eşleşmelidir.
Sonuç: Denemeler Yaparak Öğrenin
Bu yazıda, Pandas kütüphanesi kullanarak DataFrame’e yeni sütun eklemenin çeşitli yollarını inceledik. Doğrudan atama, hesaplama yöntemleri ve filtre ile koşul bazlı sütun ekleme gibi farklı teknikleri öğrendik. Pandas’ın sunduğu esneklik, veri analizi yaparken işlerimizi kolaylaştırır ve veri setlerimizi daha etkili hale getirir.
Veri analizi alanında yeniyseniz, yukarıda öğrendiğiniz yöntemleri kendi projelerinizde deneyerek pekiştirebilirsiniz. Örneğin, kendi veri setlerinizi oluşturarak veya var olan veri setlerini değiştirerek farklı senaryolar üzerinde çalışabilirsiniz.
Büyük veri ile çalışırken karşılaşabileceğiniz her durumda, doğru sütunları eklemek analizlerinizi derinleştirir. Unutmayın, pratik yaparak öğrenmek her zaman en iyi yoldur. İyi şanslar!