Kruskal-Wallis sıralamalı tek-yönlü varyans analizi

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek-yönlü varyans analizi gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur.[1]. Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

Kruskal-Wallis sıralamalı tek-yönlü varyans analizinin amacı içinde g tane grup bulunan bir anakütlenin grup medyanlarının eşit olup olmadığını araştırmaktır. Parametrik olmayan istatistik oladuğu için Kruskal-Wallis sınaması anakütlenin normal dağılım gösterdiğini varsaymamaktadır ve bu nedenle şeklen benzeri olan tek yönlü varyans analizinden değişiktir.

Ama bu sınama için yapılan ana varsayım incelenen her anakütle grubunun, grup medyan değerlerindeki farklılık dışında, ayni dağılım gösterdiğidir.

Sıfır ve karşıt hipotezler[değiştir | kaynağı değiştir]

Problem için sıfır hipotezi

H0 : g grup medyanları birbirine eşittir.

Bu sıfır hipotezi kullanılan sonuç çıkartıcı istatistik analizi yani hipotez sınama kuralları kullanılarak kabul veya red edilecektir. Kruskal-Walis sınaması bir tek-yönlü varyans analizinin analogu olduğu için, karşıt hipotez biraz karmaşıktır. Karşıt hipotez '

H1: Bazı grup medyanları birbirine eşit değildir

şeklinde ifade edilir. Bu demektir ki sıfır hipotez red edilince kesin anlamlı bir sonuç ortaya çıkmamaktadır. Ya bütün grup medyanları birbirine eşit değildir yahutta bazı grup medyanları eşit değildir yani bazıları birbirine eşittir. Hangilerinin birbirlerine eşit olduğunu bulmak için varyanslar analizinde çoklu karşılaştırmalar analizi adı altında bir sıra istatistiksel yöntem geliştirilmiştir.

Örneklem verileri ve sıralama düzeni[değiştir | kaynağı değiştir]

Örneklem ham verileri şunlardır:

  • N bütün grupları kapsayan toplam gözlem sayısı;
  • g sayıda grup bulunur ve veriler gruplara göre belirtilmiştir;
  • n_i her bir grup i için toplam gözlem sayısı i=1,...g.
  • X_(ij) i=1...n_i j=1,...,g,. Her grup için ayrılmış toplam N tane veri.

Bu ham örneklem verilerinin dönüştürülüp genel sıralama düzeni verileri haline getirilmesi gereklidir. Grup üyeliğini bir kenara bırakarak tüm grupları birlikte alarak bütün veri değerlerini, yani 1 ile N sayıda veri değeri, sıralama düzenine konulur. Burada beraberlik gösteren veri değerlerine uygulanan en uygun strateji beraberlik gösterenlerin ortalama sıra numarasının kullanılmasıdır ve bu bazan kesirli sıralama numarası ortaya çıkartabilir. Her bir grup verileri için bu genel sıralama numaraları ayrılır ve bunlar analize veri olur.

r_{ij} tüm gruplari birlikte alarak (tüm gözlemler) için verilen sıralama numaraları olup her bir i grup için j sayılı sıralama numarasıdır.

Kruskal-Wallis sınama istatistiği için hesaplar[değiştir | kaynağı değiştir]

Önce tüm sıralama düzeni sıralama numaraları (yani tüm r_{ij}) için tüm sıralama numaraları ortalaması \bar{r} alınır. Formül şu olur:

\bar{r} =(N+1)/2.

Sonra her bir grup (i=1,..g) için sıralama numaraları ayrı ayrı alınarak grup sıralama numaraları ortalamaları (yani \bar{r}_{i\cdot} i=1,..g) bulunur. Her bir grup için formül şudur:

\bar{r}_{i\cdot} = \frac{\sum_{j=1}^{n_i}{r_{ij}}}{n_i}.

Genel Kruskal-Wallis sınama istatistiği (K) şöyle verilir:

K = (N-1)\frac{\sum_{i=1}^g n_i(\bar{r}_{i\cdot} - \bar{r})^2}{\sum_{i=1}^g\sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2}

Bu genel sınama formülü daha da geliştirilebilir:

Eğer, genel sıralama düzeni beraberlik halinde kullanılan strateji ortalama sıra numaralarını kullanma değilse, bu genel sınama formülü kullanılır. Bu halde beraberlik için bir düzeltme faktörü bulunup kullanılır. Bu beraberlik düzeltme faktörü (BDF) şudur:

BDF = 1 - \frac{\sum_{i=1}^G (t_{i}^3 - t_{i})}{N^3-N}.

Burada

  • G değişik beraberlikler sayısı;
  • ti her beraberlikte bulunan sıralama düzenli veri sayısıdır.

Bu halde beraberlikler için düzeltilmiş genel Kruskal-Wallis test istatistiği

K* = K / BDF

olur. Ancak pratikten bilinmektedir ki eğer beraberlikler sayısı ve her beraberlikte bulunan sıralama numara sayısı küçükse, bu beraberlik düzeltmesi sınama sonuçlarına çok az etkide bulunur.

Eğer sıralama düzeni kurulurken hiç beraberlik bulunmuyorsa veya beraberlik halinde kullanılan strateji beraberlik sıralamaların ortalaması ise, K genel formülü için paydayı basitleştirebilme imkânı vardır. Dikkat edilirse payda 1,..,N tamsayılarının toplamına eşit olur ve bu toplam için bir özel formüle göre bu toplam hesaplanabilir. Böylece formül paydası

{\sum_{i=1}^g\sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2} = (N-1)N(N+1)/12

olur. Bu, genel sınama formülüne konulursa Kruskal-Wallis genel sınama istatistiği şöyle ifade edilir:

K = \frac{12}{N(N+1)}\sum_{i=1}^g n_i(\bar{r}_{i\cdot} - \bar{r})^2.

Anlamlılık düzeyi, p-değeri ve sonuç[değiştir | kaynağı değiştir]

En son aşama olarak ya bir g-1 serbestlik değerli ki-kare dağılımı icin p-değeri bulmak veya yine g-1 serbestlik değerli ki-kare tablo değerlerini bulmak; bunları anlamlılik degeri ile karşılaştırıp sıfır hipotez hakkında sonuç çıkartamak ve bu sonucu açıklamak gerekir:

Küçük grup veri sayıları[değiştir | kaynağı değiştir]

Eğer bazı gruplar için veri sayısı ni küçükse, yani 5 veya 5in altında ise, kullanılacak anlamlılık değerleri Kruskal-Wallis tarafından özel bir tabloda verilmiştir.[2].

Büyük grup veri sayıları[değiştir | kaynağı değiştir]

Eğer grup veri sayıları büyük ise, yani hepsi 5den fazla ise, p-değeri yaklaşık olarak

\Pr(\chi^2_{g-1} \ge K)

dağılımı gösterir.

Kruskal-Wallis sınama istatistiği K (veya K*) kullanılarak (g-1) serbestlik derecesi için ki-kare dağılımı kullanılarak bir p-degeri bulunabilir. Genellikle p-degeri bulmak için özel bir kompüter ki-kare değer simulasyon programı veya özel bir istatistik paket programı kullanılmasi gerekir.

  • Bulunan p-değeri anlamlılık düzeyi yüzdeleri olan %5 veya %1 den daha büyük ise sıfır hipotez olan grup medyanlarinin birbirine eşit olması kabul edilir.
  • p-degeri %5den daha küçük fakat %1den büyükse, sonuç pek kesin olmayabilir, ama yine de %5 anlamlılık düzeyinde sıfır hipotez kabul edilir.
  • p-değeri %1den küçükse, sıfır hipotezi rededilir.

Diğer bir yaklaşım, p-değeri bulmadan her bir serbestlik derecesi için özel ki-kare dağılımı yukarı kuyruk alanları veren özel ki-kare tablosu kullanma ile ortaya çıkartılır. Bu halde (g-1) serbestlik değeri için %5 ve %1 tablo değerlerine bakılır. Bu tablo degerleri hesaplanmış K değeri ile karşılaştırılır:

  • Hesaplanmış K değeri tablo değerinden küçükse, sıfır hipotez kabul edilir.
  • Hesaplanmış K değeri tablo değerinden büyükse, sıfır hipotez red edilir.

Sonuç açıklaması[değiştir | kaynağı değiştir]

Eğer sıfır hipotez kabul edilirse problem için sonuçlar çok kesin ve anlamlı sayılır. Bu problem için ana varsayım

  • 'Anakütlede grup medyanlardan başka her türlü grup özelliği aynıdır.'

olduğu için sıfır hipotez kabul edilmesi daha pratik bir sonuç olarak

  • 'anakütledeki gruplar her bakımdan aynıdır veya görülen gruplar aralarında anakütlede hiç fark yoktur.'

sonucu çıkartılabilir.

Eğer sıfır hipotez rededilirse (yani karşıt hipotez kabul edilirse) sonuçlar çok kesin değildir. Aynı parametrik tek yönlü varyans analizi sonucu gibi, bu halde grup medyanlarının hepsi birbirine eşit olmamakla beraber, grup medyanlarının bazılarının birbirine eşit olmaları mümkündür. Bu halde varyanslar analizinde çoklu karşılaştırmalar analizi kullanılır.

Ayrıca bakınız[değiştir | kaynağı değiştir]

Referanslar[değiştir | kaynağı değiştir]

  1. ^ William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 583–621, [1]
  2. ^ William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 614–617, [2]

Dışsal kaynaklar[değiştir | kaynağı değiştir]

  • Sidney Siegel and N. John Castellan, Jr. (1988). Nonparametric Statistics for the Behavioral Sciences (second edition). New York: McGraw-Hill.