Giriş: Iris Dataset Nedir?
Iris dataset, makine öğrenmesi ve veri biliminde sıklıkla kullanılan klasik bir veri kümesidir. 1936 yılında ünlü botanikçi Ronald A. Fisher tarafından yayımlanan bu veri seti, farklı iris çiçeği türlerini ayırt etmek için kullanılan özellikleri içerir. Bu dataset, üç farklı iris türü olan Iris setosa, Iris versicolor ve Iris virginica’ya ait çeşitli ölçümlerden oluşur. Her bir iris çiçeği için dört önemli özellik ölçümü yer almaktadır: sepal uzunluğu, sepal genişliği, petal uzunluğu ve petal genişliği. Iris dataset, yeni başlayanlar için harika bir uygulama alanıdır çünkü basit yapısı ve görselleştirme imkanı, kullanıcıların makine öğrenmesi algoritmalarını öğrenmelerini ve uygulamalarını kolaylaştırır.
Teknik yazar ve yazılım geliştirici olarak, Iris datasetin Python ile nasıl indirileceği ve kullanılacağı konusunu ele alacağım. Bu yazıda adım adım rehber olarak okuyuculara, veri setini indirip analiz etmeleri için gereken tüm bilgileri sunacağım. Bu süreç, aynı zamanda Python kütüphaneleri olan Pandas ve Matplotlib gibi araçların nasıl kullanılacağını da göstermektedir, böylece verilerinizi görebileceğiniz ve analiz edebileceğiniz bir platform oluşturabileceksiniz.
İlerleyen bölümlerde, Iris dataset’i nasıl indireceğimizi, veri setinin yapısını anlamayı ve ardından basit bir analiz ve görselleştirme örneği gerçekleştireceğiz. Bu sayede, veri biliminde ilk adımlarınızı atmış olacaksınız. Şimdi hemen başlayalım!
Iris Dataset Nasıl İndirilir?
Iris dataset’ini Python ile indirmek oldukça kolaydır. Bu veri seti genellikle açık veri kaynaklarında bulunur; ancak, en basit ve en yaygın yol, Scikit-learn kütüphanesini kullanmaktır. Scikit-learn, makine öğrenmesi ve veri madenciliği için popüler bir Python kütüphanesidir ve iris datasetini doğrudan içermektedir.
İlk olarak, Scikit-learn kütüphanesini sisteminizde kurmanız gerekmektedir. Aşağıdaki pip komutunu kullanarak kurulum yapabilirsiniz:
pip install scikit-learn
Kurulum başarılı olduktan sonra, iris dataset’ini indirip yüklemek için aşağıdaki Python kodunu kullanabilirsiniz:
from sklearn import datasets
iris = datasets.load_iris()
Yukarıdaki kodda, ‘datasets’ modülünden ‘load_iris’ fonksiyonunu çağırarak iris veri setini indirmiş olduk. ‘iris’ değişkeni artık iris datasetini içeren bir nesne olarak tanımlanır. Bu nesne, hem veriyi (features) hem de hedef etiketlerini (target) içerir.
Iris Dataset İçeriğine Göz Atma
Iris datasetini indirdikten sonra, veri yapısını anlama aşamasına geçebiliriz. Veri seti, her türden toplam 150 örnek içermektedir. Her örnek dört özellik ile tanımlanır. Özellikler, sepal uzunluğu, sepal genişliği, petal uzunluğu ve petal genişliği olarak adlandırılır.
İlk adım olarak, veri setinin içindeki verileri ve hedef etiketlerini inceleyelim:
X = iris.data
y = iris.target
Burada, ‘X’ değişkeni iris datasetinin özelliklerini, ‘y’ değişkeni ise ait oldukları tür etiketlerini içermektedir. Aşağıda, verilerin nasıl görüntüleneceğini gösteren bir örnek kod bulunmaktadır:
import pandas as pd
import numpy as np
data = pd.DataFrame(data=X, columns=iris.feature_names)
data['target'] = y
display(data.head())
Bu kod ile, verileri pandas DataFrame formatına dönüştürerek ilk birkaç satırı görüntülemek için ‘head()’ fonksiyonunu kullandık. Bu işlemler ardından, veri setinin nasıl göründüğünü anlamış olacaksınız.
İris Dataset Analysis
Iris datasetini indirdikten ve inceledikten sonra, bu veriler üzerinde bazı analizler yapabiliriz. Örneğin, verilerimizin özelliklerini görüntülemek, dağılımlarını incelemek veya farklı türlerin karşılaştırmalarını yapmak oldukça faydalı olacaktır.
İlk olarak, her iris türü için sepal ve petal uzunlukları ile genişliklerini görselleştirelim. Bu, farklı türler arasındaki farklılıkları anlamamıza yardımcı olacaktır. Matplotlib kütüphanesini kullanarak veri görselleştirmeleri yapabiliriz:
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.scatter(data['sepal length (cm)'], data['sepal width (cm)'], c=data['target'], cmap='viridis')
plt.title('Sepal Length vs Sepal Width')
plt.xlabel('Sepal Length (cm)')
plt.ylabel('Sepal Width (cm)')
plt.subplot(1, 2, 2)
plt.scatter(data['petal length (cm)'], data['petal width (cm)'], c=data['target'], cmap='viridis')
plt.title('Petal Length vs Petal Width')
plt.xlabel('Petal Length (cm)')
plt.ylabel('Petal Width (cm)')
plt.show()
Yukarıdaki kod parçası, iki farklı grafik oluşturarak verileri daha iyi anlamamıza yardımcı olur. Her iki grafikte de, iris türleri arasındaki ilişkileri ve desenleri görebilirsiniz. Bu görselleştirme ile veriler üzerinde çalışmaya devam edebilirsiniz; örneğin, çeşitli istatistiksel yöntemler, sınıflandırma modelleri veya daha fazla görselleştirme teknikleri kullanarak analizlerinizi derinleştirebilirsiniz.
Bazı İleri Seviye Analizler
Iris dataset’i ile yapılan en sık kullanılan analizlerden biri, sınıflandırma işlemleridir. Bu veri kümesi, farklı sınıflandırma algoritmalarını uygulamak için ideale bir alandır. Örneğin, K-Nearest Neighbors (KNN) algoritması ile veri kümesinde sınıflandırma yapabilirsiniz. Scikit-learn kütüphanesindeki KNN sınıflandırıcısını kullanarak basit bir model oluşturabilirsiniz:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
accuracy = knn.score(X_test, y_test)
print('Accuracy:', accuracy)
Yukarıdaki kodda, iris datasetimizi eğitim ve test veri setlerine ayırdık (test_size=0.2 ile %20 büyüklüğünde bir test seti). Ardından, K-Nearest Neighbors sınıflandırıcısını oluşturup, eğitim verileri ile modelimizi eğittik. En son olarak da, modelin doğruluk oranını (accuracy) hesapladık ve ekrana yazdırdık. Bu tür uygulamalarla, farklı sınıflandırma algoritmaları kullanarak veri setini daha derinlemesine inceleyebilirsiniz.
Özet
Bu yazıda, Python ile iris dataset’ini indirme, analiz etme ve görselleştirme konusunda temel bir rehber sunduk. Iris dataset’i, veri biliminde başlangıç seviyesi için harika bir örnek olup, çeşitli makine öğrenmesi algoritmalarını öğrenmek ve uygulamak için idealdir. Scikit-learn, Pandas ve Matplotlib gibi kütüphaneler, bu tür veri setlerini çok daha anlamlı hale getirir. İlerleyen zamanlarda, bu özgün datasetle daha karmaşık projeler geliştirebilir ve veri bilimi alanında kendinizi daha da geliştirebilirsiniz.
Özetlemek gerekirse, iris dataset’ini indirip analiz etmek için gereken temel adımları paylaştım. Şimdi kendi projelerinizde bu verileri kullanarak yeni denemeler yapabilir ve farklı analizler gerçekleştirebilirsiniz. Veri bilimi yolculuğunuzda başarılar dilerim!