Giriş: Scatter Plot Nedir ve Neden Kullanılır?
Scatter plot (dağılım grafiği), iki veya daha fazla değişken arasındaki ilişkiyi görselleştirmek için sıklıkla kullanılan bir grafik türüdür. X ve Y eksenlerinde her bir veri noktası, ilgili değişkenlerin kombinasyonunu temsil eder. Özellikle veri analizi ve istatistiksel çalışma yaptığı sırada, verilerin ilişkisel yapısını anlamak için scatter plot’lar oldukça etkili bir yöntemdir. Örneğin, bir ürünün fiyatı ile satışı arasında bir ilişki var mı? Ya da bir öğrencinin çalışma saatleri ile not başarı durumu arasında nasıl bir bağ var? Scatter plot’lar bu tür soruları yanıtlamak ve verinin altında yatan desenleri ortaya çıkarmak için mükemmeldir.
Python, veri biliminde yaygın kullanılan bir programlama dili olup, scatter plot’ları oluşturmak için güçlü kütüphaneler sunar. Bu kütüphaneler arasında en popüler olanları arasında Matplotlib ve Seaborn yer almakta. Matplotlib, temel grafik çizimleri için idealken, Seaborn ise daha karmaşık görselleştirmeler için kullanıcı dostu bir doküman sağlar. Bu makalede, scatter plot’ların nasıl oluşturulacağını adım adım öğreneceksiniz.
Görselleştirmelerin önemi günümüzde veri analizi için inkar edilemez bir gerçek. Çoğu zaman, veriyi anlamanın en iyi yolu onu görsel bir biçime dönüştürmektir. Scatter plot kullanarak bir dizi veri noktasınını grafik üzerinde incelemek, veri setinizdeki olası hataları veya farklılıkları hızlıca tespit etmenize yardımcı olabilir. Şimdi, Python kullanarak scatter plot oluşturmayı öğrenelim.
Scatter Plot Oluşturmak için Gereken Araçlar
Python kullanarak scatter plot oluşturmak için gereken birkaç kütüphane bulunmaktadır. Bu kütüphanelerden en yaygın olanları şunlardır:
- Matplotlib: Python’da veri görselleştirme için en popüler kütüphanelerden biridir. Matplotlib ile temel grafiklerin yanı sıra karmaşık görseller de oluşturabilirsiniz.
- Seaborn: Matplotlib üzerine inşa edilmiş bir kütüphanedir. Özellikle istatistiksel verilerin görselleştirilmesi için sıklıkla kullanılır ve kullanıcı dostu görünümü ifade eder.
- Pandas: Veri manipülasyonu ve analizi için kullanılan bir kütüphanedir. Veri çerçevelerini kullanarak scatter plot verilerinizi daha rahat yönetebilirsiniz.
Bu kütüphaneleri kullanarak scatter plot oluşturmak oldukça basittir. Kütüphaneleri yüklemek için aşağıdaki komutu terminal veya komut istemcinizde çalıştırabilirsiniz:
pip install matplotlib seaborn pandas
Yukarıdaki adımları takip ettikten sonra scatter plot oluşturmak için gerekli kütüphaneleri bilgisayarınıza yüklemiş olacaksınız. Şimdi, örnek bir veri kümesi üzerinde scatter plot oluşturmaya geçelim.
Uygulamalı Örnek: Basit Bir Scatter Plot Oluşturma
İlk olarak, gerekli kütüphaneleri içe aktarıp örnek verimizi hazırlayalım:
import matplotlib.pyplot as plt
import pandas as pd
# Örnek veri kümesi hazırlama
veri = {
'Çalışma Süresi (saat)': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'Not Ortalaması': [55, 58, 60, 65, 70, 75, 80, 85, 90, 95]
}
veri_df = pd.DataFrame(veri)
Yukarıda, öğrencilerin çalışma süreleri ile not ortalamalarını içeren basit bir veri kümesi oluşturduk. Şimdi, bu verileri scatter plot üzerinde görselleştirelim. Scatter plot için Matplotlib kütüphanesinin scatter
fonksiyonunu kullanacağız:
# Scatter plot oluşturma
plt.scatter(veri_df['Çalışma Süresi (saat)'], veri_df['Not Ortalaması'])
plt.title('Çalışma Süresi vs Not Ortalaması')
plt.xlabel('Çalışma Süresi (saat)')
plt.ylabel('Not Ortalaması')
plt.grid(True)
plt.show()
Yukarıdaki kod, iki değişken arasındaki ilişkiyi görselleştiren bir scatter plot oluşturur. plt.title
, plt.xlabel
ve plt.ylabel
fonksiyonları ile grafiğinizin başlığını ve eksen etiketlerini belirleyebilirsiniz. plt.grid(True)
ile ise arka plan ızgarasını açmış oluyoruz. Örneği çalıştırdıktan sonra aşağıdaki gibi bir grafik elde edeceksiniz:
Scatter Plot’a Renk ve Boyut Eklemek
Veri noktalarını renk ve boyut ile daha anlamlı hale getirebilirsiniz. Örneğin, not ortalamasının bir kategorisine göre farklı renklerde veri noktaları çizebilirsiniz. Aşağıda, not ortalamasını belirli aralıklara ayırarak farklı renklerde noktalar oluşturalım:
# Renk ve boyut için ek veri oluşturma
veri_df['Renk'] = veri_df['Not Ortalaması'].apply(lambda x: 'mavi' if x < 75 else 'yeşil')
veri_df['Boyut'] = veri_df['Not Ortalaması'] * 2
# Scatter plot oluşturma
plt.scatter(veri_df['Çalışma Süresi (saat)'], veri_df['Not Ortalaması'],
c = veri_df['Renk'], s = veri_df['Boyut'])
plt.title('Çalışma Süresi vs Not Ortalaması')
plt.xlabel('Çalışma Süresi (saat)')
plt.ylabel('Not Ortalaması')
plt.grid(True)
plt.show()
Yukarıdaki kodda, not ortalamasının 75'ten düşük olduğu durumlar için mavi renk, 75 ve üzeri için yeşil renk seçtik. Ayrıca, grafik üzerindeki noktaların boyutunu not ortalaması değerine göre iki katına çıkardık. Bu şekilde, grafik hem daha estetik hale gelecek hem de verilerin daha iyi analiz edilmesini sağlayacaktır.
Scatter Plot'da Hatalar ve Çözümleri
Scatter plot oluştururken zaman zaman karşılaşabileceğiniz bazı hatalar ve bunların çözüm yolları şunlardır:
- Veri Noktalarının Üst Üste Gelmesi: Eğer verileriniz aynı konumda birçok nokta içeriyorsa, veri noktaları üst üste binebilir. Bu durumu çözmek için jitter (rastgele kaydırma) uygulayabilir veya nokta boyutunu değiştirebilirsiniz.
- Eksen Aralıkları Sorunu: Eksen aralıkları çok geniş veya dar belirlenirse, veriler tam olarak görünmeyebilir. Eksen aralıklarını
plt.xlim()
veplt.ylim()
fonksiyonlarını kullanarak ayarlayabilirsiniz. - Yanlış Kütüphane Kullanımı: Matplotlib ve Seaborn gibi kütüphaneler benzer olmakla birlikte, bazı fonksiyonlar farklılık gösterebilir. İlgili kütüphanenin dokümantasyonuna başvurmak işinizi kolaylaştıracaktır.
Sık karşılaşılan bu hataların çözüm yollarını uygulayarak scatter plot'larınızın kalitesini artırabilirsiniz. Ayrıca, verilerinizi daha iyi analiz edebilmek için çeşitli türde grafikler oluşturmaya özen gösterin. Bu, verilerinizle ilgili daha iyi içgörüler elde etmenize yardımcı olacaktır.
Sonuç: Scatter Plot İle Veri Analizinin Gücü
Scatter plot'lar, veri analizi ve istatistiksel çalışmaların vazgeçilmez bir parçasıdır. Python ile bu tür grafiklerin oluşturulması oldukça kolaydır ve karmaşık verileri görselleştirmenin etkili bir yolunu sunar. Oluşturduğunuz scatter plot'lar sayesinde analiz süreçlerinizi hızlandırabilir ve bulgularınızı daha etkili bir biçimde sunabilirsiniz.
Bu makalede scatter plot'ların nasıl oluşturulacağını, renk ve boyut eklemeyi, karşılaşılabilecek hataları ve çözüm yollarını öğrendik. Şimdi sıra sizde! Kendi veri setlerinizle farklı scatter plot'lar oluşturarak bu bilgileri uygulamaya geçirmenizi öneriyoruz. Veri analizi dünyası keşfedilmeyi bekliyor, fakat scatter plot ile bu yolculuğa başlayabilirsiniz!
Umarım bu rehber, Python kullanarak scatter plot oluşturma konusunda size yardımcı olmuştur. Sormak istediğiniz sorular veya paylaşmak istediğiniz deneyimler varsa, lütfen yorumlarda belirtin. Python ve veri analizi konularında daha fazla bilgi ve güncellemeler için bültenime abone olmayı unutmayın!