Cohen'in kappa katsayısı

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Cohen'in kappa katsayısı iki değerleyici arasındaki karşılaştırmalı uyuşmanın güvenirliğini ölçen bir istatistik yöntemidir.[1] Cohen'in kappa ölçüsü her biri N tane maddeyi C tane birbirinden karşılıklı hariç olan kategoriye ayıran iki değerleyicinin arasında bulunan uyuşmayı ölçer. Ortaya çıkan kategorik değişken olduğu için bir parametrik olmayan istatistik türüdür. Cohen'in kappa ölçüsü bu uyuşmanın bir şans eseri olabileceğini de ele aldığı için basit yüzde orantı olarak bulunan uyuşmadan daha güçlü bir sonuç verdiği kabul edilir.

Ancak Cohen'in kappa ölçüsü sadece iki tane değerleyiciyi ele alır. Eğer değerleyici sayısı ikiden çoksa Fleiss'in Kappa'ya benzer Fleiss'in kappa katsayısı kullanılmalıdır.[2]

Formül[değiştir | kaynağı değiştir]

Eğer Pr(a) iki değerleyici için gözümlenen uyuşmaların toplama orantısı ise ve Pr(e) ise bu uyuşmanin şans eseri ortaya çıkma olasılığı ise, Cohen'in kappa katsayısı bulunması için kullanılacak formül şu olur:

\kappa = \frac{\Pr(a) - \Pr(e)}{1 - \Pr(e)}, \!

Kappa için şu değerler hemen yorumlanır:

  • κ=1 : İki değerleyici tümüyle birbirine uyuşmaktadırlar.
  • κ=0 : İki değerleyici için uyuşma sadece şansa ile belirlenmiştir ve diğer hallerde hiçbir uyuşma yoktur.

Örnek problem[değiştir | kaynağı değiştir]

İşletmeler yatırım yapmak için proje kredisi almak için bir bankaya başvurdukları zaman işletme yetkilileri tarafından hazırlanan proje iki değerleyici tarafından incelenip değerlendirilmektedir. Her değerleyici bir proje için ya "Kabul" veya "Ret" olarak değerleme sağlamaktadır. 50 tane projenin bu iki değerleyici tarafından incelenmesi sonunda elde edilen sonuçlar değerleyici A için satırlarda ve değerleyici B için sütunlarda verilmiş olarak şu tabloda gösterilir:

Kabul Ret
Kabul 20 5
Ret 10 15

Veri olarak alinan 50 proje basvurusunun 20si hem A hem de B degerlendirici tarafindan "Kabul" edilmesi tavsiye edilmistir ve 15 proje basvurusu hem A hem de B tarafindan ret edilmesi tavsiye edilmistir. Boylece her iki dergerleyicinin uzerinde anlastiklari proje basvuru sayisi (20+15=)35 olur ve boylece gozlenen anlasma orantisi Pr(a)=(20+15)/50 = 0,70 olur.

Rastgele olarak anlasma olasiligini, yani Pr(e) degerini, bulmak icin sunlari lee aliriz:

  • Degerlendirici A 25 basvuru icin "Kabul" ve 25 basvuru icin "Ret" degerlendirmesi yapmistir. Boylece degerleyici A %50 defa "'Kabul degerlemesi yapmistir.
  • Degerlendirici B 30 basvuru icin "Kabul" ve 20 basvuru icin "Ret" degerlendirmesi yapmistir. Boylece degerleyici A %60 defa "'Kabul degerlemesi yapmistir.

Bundan dolayi her iki degerleyicinin rastgele olarak Kabul" degerlendirmesi yapma olasiligi 0,50 * 0,60 = 0,30 olur ve her iki degerleyicinin rastgele olarak Ret degerlendirmesi yapma olasiligi ise 0,50 * 0.40 = 0,20 olarak bulunur. Tumuyle rastgele anlasma olasiligi bu nedenle Pr("e") = 0,30 + 0,20 = 0,50 olur.

Bunlar Cohen'in Kappa katsayisi formulune konulursa su sonuc elde edilir:

\kappa = \frac{\Pr(a) - \Pr(e)}{1 - \Pr(e)} = \frac{0,70-0,50}{1-0,50} =0,40 \!

Celişkili sonuçlar[değiştir | kaynağı değiştir]

Cohen'in Kappa katsayısının en büyük tenkiti bazen sezi ile beklenenden değişik sonuçlar vermesidir.[3] Örneğin, aşağıda verilen iki örnek veriye göre değerleyici A ile değerleyici B arasında eşit anlaşma olması beklenmektedir (çünkü her iki örnekte de 100 başvurudan 60'ında anlaşma vardır.) Cohen'in Kappa katsayısının bunu yansıtması beklenir. Hâlbuki her iki örnek için Cohen'in Kappa katsayısı hesaplanırsa şu beklenmedik sonuçlar bulunur:

Kabul Ret
Kabul 45 15
Ret 25 15

\kappa = \frac{0,60-0,54}{1-0,54} = 0,1304

Kabul Ret
Kabul 25 35
Ret 5 35

\kappa = \frac{0.60-0.46}{1-0.46} = 0.2593

Cohen'in kappa katsayılarına göre, birinci örneğe nazaran, ikinci örnekte A ile B daha benzer birbirleriyle anlaşır şekilde değerlendirme yapmışlardır.

Sonuç yorumlaması[değiştir | kaynağı değiştir]

Landis ve Koch (1977) [4] elde edilen \kappa değerlerini yorumlamak için şu tabloyu sunmuşlardır.

\kappa Yorum
< 0 Hiç uyuşma olmamasi
0.0 — 0.20 Önemsiz uyuşma olması
0.21 — 0.40 Orta derecede uyuşma olması
0.41 — 0.60 Ekseriyetle uyuşma olması
0.61 — 0.80 Önemli derecede uyuşma olması
0.81 — 1.00 Neredeyse mükemmel uyuşma olması

Ancak bu tabloda verilen yorumlar ve hatta verilen aralıklar hakkında istatistikçiler arasında anlaşmazlık vardır. Landis ve Koch yazılarında verdikleri aralıklar ve yorumlar için teorik delil vermemişlerdir ve bu ifadeler ancak birer şahsi inanç olarak kabul edilebilir. Bazı istatistikçilere göre bu aralıklar ve yorumlar araştırmacılara zararlı olabilir.[5] [6]. Bu aralıklar ve yorumlar araştırıcılara Kappa değerinin değişken kategori sayısından da (yani Cden) etkilendiği gerçeğini unutturabilir. Bilinmektedir ki kategori sayısı ne kadar küçük olursa kappa değeri de büyük olamaktadır.

Ayrıca bakınız[değiştir | kaynağı değiştir]

Dipnotlar[değiştir | kaynağı değiştir]

  1. ^ Jacob Cohen (1960), A coefficient of agreement for nominal scales, Educational and Psychological Measurement Vol.20, No.1, pp.37-46
  2. ^ Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters." Psychological Bulletin, Vol. 76, No. 5 pp. 378--382
  3. ^ Gwet, K. (2010). Handbook of Inter-Rater Reliability (2.Ed.) ISBN 978-0-9708062-2-2 (İngilizce)
  4. ^ Landis, J. R. ve Koch, G. G. (1977) "The measurement of observer agreement for categorical data" , Biometrics. Cilt. 33, say. 159-174
  5. ^ Gwet, K. (2001) Statistical Tables for Inter-Rater Agreement. (Gaithersburg : StatAxis Publishing)
  6. ^ Sim, J. and Wright, C. C. (2005) "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements" in Physical Therapy. Cilt. 85, say. 257--268

Dış kaynaklar[değiştir | kaynağı değiştir]