Giriş: Iris Veri Setine Genel Bakış
Iris veri seti, makine öğrenmesi ve veri analizi alanında sıklıkla kullanılan klasik bir örnek veri setidir. 1936 yılında ünlü botanikçi Edgar Anderson tarafından toplanmıştır. Bu veri seti, üç farklı iris çiçeği türünü sınıflandırmaya yarayan dört temel özellik içerir: Sepal uzunluğu, sepal genişliği, petal uzunluğu ve petal genişliği. Her bir tür, %50 oranında temsil edilmektedir: Iris-setosa, Iris-versicolor ve Iris-virginica. İşte bu özellikler ve türler, veri bilimi ve makine öğrenmesi üzerinde çalışırken, örnek bir sınıflandırma problemi için mükemmel bir başlangıç noktası sunar.
Bunun yanı sıra, Iris veri seti istatistiksel analiz ve görselleştirme konusunda da oldukça faydalıdır. Analizlerinizi yaparken, veri setinin içindeki ilişkileri ve eğilimleri anlamak, hem temelleri pekiştirir hem de gelişmiş veri analizi tekniklerini öğrenmenize yardımcı olur. Python ile bu veri setini kullanmak, size veri bilimi uygulamalarında temel beceriler kazandıracaktır.
Python ile Iris Veri Setini Yükleme
Python, veri bilimi için en popüler dillerden biridir ve Iris veri setini kullanarak çeşitli kütüphaneler aracılığıyla işlemler yapabilirsiniz. İlk adım, gerekli kütüphanelerin ve veri setinin yüklenmesidir. Genellikle, pandas, matplotlib, seaborn ve scikit-learn gibi kütüphaneler, veri analizi ve makine öğrenimi projelerinde sıkça kullanılır.
İlk olarak, sklearn kütüphanesinin iris veri setini nasıl yükleyeceğinizi görelim:
from sklearn.datasets import load_iris
import pandas as pd
# Iris veri setini yükle
iris = load_iris()
# DataFrame oluştur
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
# Target değişkenini ekleyin
iris_df['target'] = iris.target
Yukarıdaki kod, Iris veri setini yükler ve pandas DataFrame formatında düzenler. Artık veri setiniz üzerinde çeşitli analitik işlemler yapmaya hazırsınız. Bu aşamada, `iris_df` adlı DataFrame’in içeriğine bakarak veri setinin özelliklerini ve kayıtlarını inceleyebilirsiniz.
Veri Setini İnceleme ve Görselleştirme
Bir veri seti ile çalışmaya başladığınızda, öncelikle veriyi incelemek önemlidir. Temel istatistikleri ve veri dağılımlarını görselleştirmek, veri setinin yapısını kavramanızı sağlar. Bunun için seaborn veya matplotlib kütüphanelerini kullanabilirsiniz.
Aşağıda, Iris veri setinin ilk birkaç kaydını gösteren bir inceleme işlemi yapılmaktadır:
print(iris_df.head())
Bu yöntemle, veri setinin ilk beş kaydını görebilir ve temel veriler üzerinde bir ön analiz gerçekleştirebilirsiniz. Veri seti hakkında daha fazla bilgi edinmek için aşağıdaki gibi istatistiksel özetler oluşturabilirsiniz:
print(iris_df.describe())
Daha sonra, verilerinizi görselleştirmek için scatter plot veya box plot gibi grafikler kullanabilirsiniz. Örneğin, seaborn kütüphanesi ile iris çiçeği türlerini petal uzunluğu ve genişliği üzerinden görselleştirebilirsiniz:
import seaborn as sns
import matplotlib.pyplot as plt
# Iris veri setini çiz
sns.scatterplot(x='petal length (cm)', y='petal width (cm)', hue='target', data=iris_df)
plt.title('Iris Çiçek Türleri')
plt.xlabel('Petal Uzunluğu (cm)')
plt.ylabel('Petal Genişliği (cm)')
plt.show()
Veri Ön İşleme ve Modelleme
Veri setinizi inceledikten sonra, makine öğrenimi algoritmalarını uygulamak için verinizi ön işleme tabi tutmanız gerekebilir. Normalizasyon, eksik değerlerin işlenmesi ve veri ayırma gibi işlemler, model eğitimi sürecinizin önemli parçalarıdır. Örneğin, veriyi eğitim ve test setlerine ayırarak bir model eğitmeye başlayabilirsiniz.
Aşağıdaki örnekte, iris veri setini eğitim ve test seti olarak ayırıyoruz:
from sklearn.model_selection import train_test_split
# Özellikleri ve target değerini ayır
X = iris_df.drop('target', axis=1)
y = iris_df['target']
# Eğitim ve test setlerine ayır
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Şimdi, bir sınıflandırma algoritması seçerek modelinizi eğitebilirsiniz. Örneğin, basit bir K-En Yakın Komşu (KNN) algoritması kullanabilirsiniz:
from sklearn.neighbors import KNeighborsClassifier
# KNN modeli oluştur
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
Modelin Test Edilmesi ve Sonuçların Değerlendirilmesi
Model eğitildikten sonra, test verileri üzerinde tahminler yaparak modelinizin performansını değerlendirebilirsiniz. Aşağıdaki kod, test verisi üzerinde modelin tahminlerini gerçekleştirmektedir:
y_pred = model.predict(X_test)
Model performansını değerlendirmek için doğruluk, precision, recall ve F1 skoru gibi metrikleri kullanabilirsiniz. Bunun için sklearn kütüphanesinden metrics modülünü kullanarak sonuçları alabilirsiniz:
from sklearn.metrics import accuracy_score, classification_report
# Doğruluğu hesapla
accuracy = accuracy_score(y_test, y_pred)
print(f'Modelin doğruluğu: {accuracy:.2f}')
# Sınıflandırma raporu
print(classification_report(y_test, y_pred))
Sonuç ve İleri Adımlar
Iris veri seti, hem yeni başlayanlar hem de deneyimli veri bilimciler için faydalı bir kaynaktır. Python kullanarak veri seti ile çalışma aşamalarını tamamladığınızda, veri analizi ve makine öğreniminde önemli adımlar atmış olursunuz. Yukarıda bahsedilen adımlar, veri setinin nasıl yükleneceği, inceleneceği, modelleme ve sonuçların nasıl değerlendirileceği konusunda size genel bir rehberlik sağlamaktadır. Ancak bu temel bilgilerin ötesine geçmek isterseniz, daha karmaşık modeller ve teknikler denemeniz faydalı olacaktır.
Iris veri setiyle uygulamalarınızı geliştirmek, istatistiksel analiz ve makine öğrenimi projelerinizi daha ileri bir seviyeye taşıyan beceriler kazanmanızı sağlar. Örneğin, farklı sınıflandırma algoritmaları deneyebilir, hiperparametre optimizasyonu yapabilir veya derin öğrenme tekniklerini araştırabilirsiniz. Bu tür çalışmalar, veri bilimi alanına olan merakınızı ve bilginizi artıracaktır.
Umarım bu rehber, Python ile Iris veri seti kullanma konusunda size yardımcı olmuştur. Kendi projelerinizde bu bilgi ve teknikleri denemeye başlayarak öğrenmeye devam edin!