Giriş: Pearson Korelasyonu Nedir?
Pearson korelasyonu, iki değişken arasındaki lineer ilişkiyi ölçen istatistiksel bir yöntemdir. Bu korelasyon, -1 ile +1 arasında değer alır; burada -1, tam ters yönde bir ilişkiyi, +1 ise tam aynı yönde bir ilişkiyi belirtir. 0 değeri, değişkenler arasında hiçbir ilişki olmadığı anlamına gelir. Özellikle veri analitiği ve istatistiksel analizlerde, iki veri seti arasındaki ilişkiyi anlamak için yaygın olarak kullanılır.
Python, veri analizi için oldukça güçlü kütüphanelere sahip olduğu için, Pearson korelasyonunu hesaplamak oldukça kolaydır. NumPy, SciPy ve pandas gibi kütüphaneler, veri setleri üzerinde çeşitli matematiksel işlemler yapmamıza olanak tanır. Bu yazıda, Pearson korelasyonunu Python’da nasıl hesaplayacağımıza dair adım adım bir rehber sunacağız.
Python’da Pearson Korelasyonunu Hesaplamak İçin Gerekli Kütüphaneler
Pearson korelasyonunu hesaplamak için en yaygın kullanılan kütüphaneler NumPy ve pandas’tır. NumPy, temel matematiksel işlemleri kolayca gerçekleştirmenize olanak tanırken, pandas veri çerçeveleriyle çalışmak için yapılandırılmış bir ortam sunar. Bu kütüphaneleri kullanarak veri setimizi hızlı bir şekilde analiz edebiliriz.
Ayrıca, SciPy kütüphanesi de istatistiksel testler yapmak için geniş bir fonksiyon yelpazesine sahiptir. Pearson korelasyonunu hesaplamak için SciPy’deki ‘pearsonr’ fonksiyonunu kullanabiliriz. Bu, korelasyon katsayısının yanı sıra p-değerini de sağlar.
Veri Seti Oluşturma ve Hazırlama
Pearson korelasyonunu hesaplamadan önce verilerimizi oluşturup hazırlamamız gerekiyor. Diyelim ki elimizde iki değişken var: ‘x’ ve ‘y’. Bu değişkenler üzerinde bir ilişki tespit etmeye çalışacağız. Örnek olarak, iki değişkenin rastgele oluşturulmuş değerlerini kullanabiliriz.
import numpy as np
import pandas as pd
np.random.seed(0) # Tekrar edilebilirlik için tohum belirliyoruz
x = np.random.rand(100) * 100 # 0-100 aralığında rastgele 100 değer üretiyoruz
y = 0.5 * x + np.random.normal(0, 10, 100) # x ile ilişkilendirilmiş y değişkeni
data = pd.DataFrame({'x': x, 'y': y}) # Verilerimizi bir DataFrame içine alıyoruz
Yukarıdaki kodda, NumPy kullanarak 0-100 aralığında rastgele 100 ‘x’ değeri oluşturduk. Daha sonra, ‘y’ değerini, ‘x’ değerine bağlı olarak oluşturduk ve gürültü ekledik. Böylece iki değişken arasındaki ilişkiyi gösteren bir veri setine sahip olduk.
Pearson Korelasyonunu Hesaplama
Artık veri setimizi hazırladığımıza göre, Pearson korelasyonunu hesaplayabiliriz. İşte seaborn ve matplotlib kütüphanelerini kullanarak hem korelasyonu hesaplayacak hem de iki değişken arasındaki ilişkiyi görselleştireceğiz.
import seaborn as sns
import matplotlib.pyplot as plt
# Veri çerçevesinin ilk birkaç satırını görüntüleyelim
print(data.head())
# Korelasyonu hesaplayalım
correlation = data.corr() # pandas ile korelasyonu hesaplıyoruz
sns.heatmap(correlation, annot=True, cmap='coolwarm') # Korelasyon matrisini görselleştiriyoruz
plt.title('Korelasyon Matrisi')
plt.show()
Burada data.corr()
fonksiyonu ile veri çerçevesi içerisindeki tüm değişkenlerin Pearson korelasyonunu hesapladık. Daha sonra seaborn ile korelasyon matrisini görselleştirdik. Bu matris, iki değişken arasındaki ilişkinin bir sıcaklık haritası olarak sunulmasını sağlar.
SciPy ile Pearson Korelasyonu Hesaplama
SciPy kütüphanesini kullanarak Pearson korelasyonu daha detaylı bir şekilde hesaplayabiliriz. Bu yöntemde, hem korelasyon katsayısını hem de p-değerini elde edebiliriz. İşte nasıl yapılacağına dair bir örnek:
from scipy.stats import pearsonr
# Pearson korelasyonunu SciPy ile hesaplayalım
corr_coefficient, p_value = pearsonr(data['x'], data['y'])
print(f'Pearson Korelasyon Katsayısı: {corr_coefficient}')
print(f'P-değeri: {p_value}')
if p_value < 0.05:
print('İlişki istatistiksel olarak anlamlıdır.')
else:
print('İlişki istatistiksel olarak anlamlı değildir.')
Bu örnekte, pearsonr()
fonksiyonu ile 'x' ve 'y' değerleri arasındaki Pearson korelasyon katsayısını ve p-değerini hesapladık. Sonuçlar, iki değişken arasındaki ilişkinin istatistiksel anlamını belirlemek için kullanılabilir.
Korelasyon ve Cihazın Anlamı
Pearson korelasyon katsayısı, iki değişken arasında lineer bir ilişki olduğunu gösterir. Ancak önemli bir nokta, korelasyonun nedensellik anlamına gelmediğidir. Yani, bir değişkenin diğerini etkilediği anlamına gelmez. Bunun sebebi, iki değişkenin de başka bir faktörden etkileniyor olma olasılığıdır. Bu yüzden sonuçları değerlendirirken dikkatli olmak önemlidir.
Sonuçlar, aynı zamanda veri setinizin temizliğine de bağlıdır. Eğer veri setinde aşırı uç değerler veya hatalı veriler mevcutsa, korelasyon hesaplamaları yanıltıcı sonuçlar verebilir. Bu yüzden verilerinizi analiz etmeden önce daima temizlediğinizden emin olun.
Sonuç
Pearson korelasyonu, veriler arasındaki ilişkiyi anlamak için son derece yararlı bir araçtır. Python ile kolaylıkla hesaplayabileceğimiz bu istatistiksel yöntem, veri analizi sürecinde önemli bir yere sahiptir. NumPy, pandas ve SciPy kütüphaneleri ile veri setinizi analiz edebilir, ilişkileri görselleştirebilir ve sonuçları istatistiksel olarak değerlendirebilirsiniz.
Bu yazıda öğrendiklerinizle, kendi veri setlerinizde Pearson korelasyonunu hesaplayabilir ve iki değişken arasındaki ilişkileri daha iyi anlayabilirsiniz. Unutmayın ki, her zaman sonuçlarınızı farklı bakış açılarıyla değerlendirip, elde ettiğiniz verilerle ne tür sonuçlar çıkardığınızı analiz etmelisiniz. Bu, veri analisti olarak gelişiminizi destekleyecektir.