Pearson'un ki-kare sınaması

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Pearson'un ki-kare sınaması istatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan sınama analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatıstikçı olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.[1]



Bağımsızlık sınaması[değiştir | kaynağı değiştir]

Pearson'un ki-kare testi yöntemi[değiştir | kaynağı değiştir]

Pearson'un ki kare sınaması yönteminin pratik bir problem çözülmesinde kullanılması şu basamaklar kullanılarak yapılir.

1. Araştırma konusu:
Pearson'un ki kare sınaması her biri iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken arasındaki bağımsızlık veya bağımlılık ilişkisinin incelenmesi için kullanılır. Bi iki isimsel ölçekle ölçülebilen rassal değişken

  • X "satır değişkeni" : r kategorili ve j (j = 1, \dotsc, r)
  • Y "sütun segiskeni" : c kategorili k (k = 1, \dotsc, c).

Araştırma konusu genellikle X ile Y değişkenlerinin birbirinden istatistiksel olarak bağımsız olduğudur. Buna başlıca neden Pearson'ın ki kare yeştinin "bağımlılık" konusunda çok zayıf sonuç vermesidir.

2. Hipotezler:
Pearson'un ki kare test için hipotezler şöyle ifade edilir:

  • H0</sub) "sıfır hipotez" : iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken birbirinden istatisktiksel olarak bağımsızdır.
  • H1 "alternatif hipotez": iki kategorili olan isimsel ölçekle ölçülen iki rassal değişken birbirinden istatistiksel olarak bağımsız değildir.

Bu hopotezlerden açıkça görükmektedir ki sınanma için kullanılan hipotez anakütle parametreler değerleri hakkında değildir ve bir istastiksel nitelik hakkındadır. Böylece Pearson'un ki-kare sınaması bir parametrik olmayan istatistik örneğidir. Bunun yanında, dikkat edilmelidir ki alternatif hipotezin bir "negatif" cümle olarak ifade edilmktedir. yani "istatistiksel olarak bağımsız değildir" ifadesi. Bu ifade pozitif vir cümle yani alternatif hipotezde "iki rassal değişken istatistiksel olarak bağımlıdır." dememektedir. Yapılan çıkarımsal sınama analizi sonuncu "sıfır hipotez" rededilirse iki değişkeninin ne kadar birbirine bağımlı olduğu bulunmaz; bağımlılık derecesi çok küçük olması mümkündür.

3. Veri toplanması, her hücresi için "gözümlenen değerler" bulunan kontenjans tablosu ve marjinal toplamlar:
Pearson'un ki kare sınaması "iki-değişirli" istatisiksel analize örnektir; yani her bir "vaka" için iki değişir hakkında veri elde edilir. Değişir için sadece X ve Y olan iki-isimsel ölçekli değişken hakkında cevap olabilir. Örneğin; bir ankete verilen tek kişi cevabı "tek vaka"dır ve araştırmada bu ankete bulunan iki soruya, yani 2 değişire, araştırmacı ilgisi çekilmektedir. Her iki değişir de isimsel ölçekli kategorik değerler alabilir. İki-değişir kategorili gözlem özetlenmesi bir "kontenjans tablosu" halinde olur ve Pearson'un ki-kare sınaması için pratikte kullanılan veriler bu karşılıklı olarak sınıflandırılmış iki değişirli "kontenjans tablosu" halindedir.

Kontenjans tablosu verileri şu tip tabloda özetler:

Y değişiri Satır Toplamı Σ
X değişiri 1 2 k c nj.
1 O11 O12 ... O1k ... O1r O1.
2 O21 O22 O2k O2c n2.
j Ojk nj.
r Or1 Or2 Ork Orc nc.
Sütun toplamı Σ n.1 n.2 n.k n.c n

Satır toplamları hepsininin toplamı ve sütün toplamları hepsininin toplamı toplam gözlem sayısınına, yani ornmeklem büyüklüğü olan n değerine eşittir.

4. Teorik "beklenen değerler":
Her bir hücre üçün bur "beklenen değer" yani Ejk l-1,...r ve k=1,...c bulunur. Bu "beklenen değer" olasılık teoeiasinde bulunan iki bağımsız rassal değişken olan A ve B için "çarpım savı"na dayanır. Bu "bağımsız iki rassal değişken için çarpım savı" şöyle ifade edilir:

 P(A\cap B)= P(A)\cdot P(B)

Bu savı kullanarak ve olasılığın asımtotik olarak "relatif çokluluk"'a eşit olduğu kabul edilip, eğer X ve Y değişirleri sıfir hipoteze uygun olarak bağımsızlarsa, her bir (jk) hücresi için olasılı şöyle ofade edilebilir:

 p_{jk}\approx p_{j\,\cdot}\cdot p_{\cdot\, k},

Bu olasılık ifadesinin her iki tarafını da n ile çarpılırsa her bir hücre için "beklenen değer" şöyle bulunur:

 E_{jk}\approx \frac{n_{j\,\cdot}\cdot n_{\cdot\,k}}{n}

5: Hesaplanan ki-kare değeri. Serbestlik derecesi
Hesaplanan ki-kare değeri

 \chi ^2= \sum_{j=1}^m\sum_{k=1}^r \frac{(O_{jk}- E_{jk})^2}{E_{jk}}.

Pearson ki-kare testi kritiği[değiştir | kaynağı değiştir]

Homojenlik sınaması[değiştir | kaynağı değiştir]

Uygunluk iyiliği sınaması[değiştir | kaynağı değiştir]

Ayrık tekdüze dağılımına uygunluk sınaması[değiştir | kaynağı değiştir]

Bu tip problemde N n tane sayısal olarak belirtilmiş kategorisi bulunan isimsel ölçekli bir değişken bulunur. Elde edilen N sayıda örneklem de bu kategorilerin frekansları çokluluğudur yani Veriler nx1 tipli (yani n satırlı ve 1 sütünlü) bir özel "kontenjans tablosu" halindedir ve bu tabloda n tane hücre bulunup her hücrede o hücrenin kategorisinde olan tam sayı ile ifade edilen "çokluluk (frekans)", O_i ı=1..n) vardır. Her bir hücre çokluluğu o kategoriye isabet eden "gözümlenen değer" olarak alınır.

"Sıfır hipotez" bu veri dağılımının teorik olarak ayrık tekdüze dağılım'ina uyacağıdır ve alternatif hipotez bu dağılıma uymayacağıdır. Bu çok basit sıfır hipotezderi ve teorik olarak her bir hücrenin birbirine eşit sayıda "beklenen değer" alacağını önerir. Tekrar dikkat edilmelidir ki "ki-kare dağılım iyiliği" sınaması da (diğer Pearson'un ki-kare sınaması" gibi) eğer sıfır hipotez redelirse "zayıf" sonuç verir; yani eldeki veriler "ayrık tekdüze dağılım"'a uymaz ama hangi dağılım uyduğu bu test ile açığa çıkmaz.

Teorik "ayrık tekdüze dağılımı"'na göre rassal değişkende her bir veri kategorisi aynı olasılık gösterir. Bu nedenle N tane veri için her bir i kategorisi için aynı değer taşıyan "beklenen değer", E, yani

E=\frac{N}{n}\, ,

olarak hesaplanır.

"Hesaplanan ki-kare değeri" her hücre için "gözümlenen değer" eksi "beklenen değer" farkının karesinin "beklenen değer"'e bölünmesinin tüm hücreler için toplanmasıdır: Yani

 \Chi^2 = \sum_{i=1}^{n} \frac{(O_i - E)^2}{E}


Diger dagilimlar[değiştir | kaynağı değiştir]

Test istatistiginin hesaplanmasi[değiştir | kaynağı değiştir]

Uygunluk iyiligi sinamasi icin test istatistigi su formule gore hesaplanmir:

 \Chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}

Bu formulde

 \Chi^2 = Pearson'un kumulatif test istatistigi olup, bu "hesaplanmis \chi^2" degeri asimtotik olarak bir ki-kare dagilimi'na yakinlasmaktadir.
O_i = gozumlenen cokluluk degeri;
E_i = sifir hipotez onerisinin gercek oldugu kavul edilerek bir teorik beklenmekte olan cokluluk degerdir ;
n = tabloda bulunan hucre sayisi
Ki-kare dagilimi, yatay x-ekseni "hesaplanmis \chi^2" degerlerini dikey Y-ekseni ise P-degerleridir.


Ayrıca bakınız[değiştir | kaynağı değiştir]


Notlar[değiştir | kaynağı değiştir]

  1. ^ Karl Pearson (1900). "On the criterion that a given system of deviations from the probable ın the case of a correlated system of variables is such that it can be reasonably supposed to have arısen from random sampling". Philosophical Magazine, Series 5 50 (302): 157–175. doi:10.1080/14786440009463897. 

Dış bağlantılar[değiştir | kaynağı değiştir]