Varyans analizi

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Varyans Analizi (veya ANOVA, İngilizce ANalysis Of VAriance sözcüklerinin kısaltması) istatistik bilim dalında, grup ortalamaları ve (gruplar içi ve gruplar arası varyasyon gibi) bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değikenin gözümlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle "Varyans Analizi" birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkartımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda (gruplar için veya değişkenler için) ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

Kisacası, ANOVA bir parametrik çıkarımsal metodu olup anakütle ortalamaları arasında farkın olup olmadığını sınamak için kullanılir. Örneğin, 'Opel ile Toyota marka araçların benzin tüketim ortalamaları aynıdır' H0 hipotezinin sınaması yapılır. Sonuç, "ortalamalar aynıdır" veya "ortalamalar ayni değildir" şeklinde çıkartılır. Bu analizdeki iki değişken arasında lineer bağlantı icin (regresyon analizinde yapıldığı gibi) herhangi bir eğim katsayısı bulunmadığı kabul edilir. ANOVA analizi yapılabilmesi için en temel şart, ortalamaları incelenecek olan anakütlelerin varyanslarının aynı olmasıdır.

Bu yöntem ilk defa İngiliz istatistikçi ve genetikçi Ronald Fisher tarafından 1920'lı ve 1930'lu yıllarda geliştirilmiştir. Genel olarak istatistiksel anlamlılık sınamaları içinde F-dağılımını kullanmaları ile karakterize edildikleri için bazan bu analize Fisher'in varyans analizi adı da verilmektedir.

Arka plan ve terminoloji[değiştir | kaynağı değiştir]

"Varyans Analizi" deneysel verilerin analiz edilmesi icin ozellikle pratikte cok defa kullanilan ozel bir istatistikel hipotez sinamasi seklidir. Istatistiksel hipotez snimasi bir veriler kullanarak karar vermek yontemidir. Bir orneklem ve sifir hipotezden hesaplanmis sinama sonucunun istatistiksel anlamsal oldugunu bildirmek bu sonucun (sifir hipotezin dogru oldugu kabul edilirse) sans eseri olarak ortaya cikmasinin pek olasi olmadigini bildirmek ve kabul etmektir. (Eger bir olasilik p-degeri bir anlamlilik seviyesi esik degerinden daha dusuk ise) bir istatistiksel anlamli sonuc sifir hipotez'in rededilmesini hakli cikartir.

"Varyans Analizi"'nin uygulandigi tipik bir problemde sifir hipotez basitce tum gruplarin ayni anakutleden ayri ayri basit olasilik orneklemleri ile elde edildigidir. Bu ise butun sağaltım işlemlerinin ayni etki (hatta hic bir etki) vermedigine isaret etmektedir. Boylece sifir hipotezin rededilmesi degisik sagaltim işlemlerinin degisme yaratan etkileri oldugunu kabul etmeyi ima etmektedir.

Fena olmayan bir uyma
Hic uyma olmamasi
Cok guzel uyma olmasi

Cikartimsal istatistik ana kurulma kuralalrina gore hipotez sinamasi I. Tip Hata yapma haddini (yani hatali bilimsel iddialara yol acan hatali poztifleri) bir anlamlilik seviyesi ile ksinirlamaktadir. Deneyciler ayni zamanda II. Tip hatalari (yani bilimsel bulgulari cikartma firsatinin kacirilmasina neden olan hatali negatifleri) sinirlamak istemektedirler. II. Tip Hata haddi cesitleri nedenlerin fonksiyonudur ve bunlar arasinda sunlar bulunur: (a) Orneklem buyuklugu (deneylem maliyetleri ile pozitif korelasyonlu olarak birlikte degisir). (b) Anlamlilik seviyesi (isbat icin gereken standardlar cok siki ise bir yapilabilecek bir bulgu gozden kacirma olasiliklari da yuksek olmaktadir). (c) Etki buyuklugu (etkiler harhangi bir alalade gozlemciye cok asikar gorunmekteyse II. Tip Hata hadleri dusuktur.)

"Varyans Analizi" icin kullanilan terminoloji istatistiksel cogunlukla deneysel tasarim isin kullanilan terimlerle aynidir. Deney yapan, bir "etki"yi tesbit etmek girisimi ile "faktorler"'i ayarlar ve "yanitlar"i olcer. Sonuclarin gecerliligini saglamak icin "faktorler"i deneyleme birimlerine "rassallaştırma" ve "bloklama" karisimi ile ulestirir. Deneysel "körleştirme" agirliklarin tarafsiz olmasini saglar. "Yanit"lar, kismen etki sonucu olarak kismen de rassal hata dolayisiyla, bir değişebilirlik gosterir.

"Varyans Analizi" cesitli dusunce tarzlarinin bir sentezidir ve cok degisin maksatlarla kullanilmaktadir. Bu nedenle bu analizi cok ozlu veya kesinlikle tanimlamak gayet zordur.

"Dengeli veriler icin klasik Varyans Analizi uc degisik seyi ayni anada yapmaktadir:

  1. "Veri aciklama analizi": Varyas Analizi toplamali verilerin ayrisimin organize edilmesidir. Bunun karesel toplami ayrisimin her bilesenin varyansini (yahut esit anlamali olarak bir lineer modelin terimlerini) gostermektedir.
  1. "Ortalama karelerin karsilastirilmasi; F-sinamalari ile... modellerin ic-icine gecmis ardasikli olark sinanmasini sagalama.
  1. Varyans Analizi ile cok yakin iliskili olarak bir lineer modelin katsayi kestirimleri ve standard hataklari ile verilere uygulanmasi." [1]

Kisaca ifade ile Varyans Analizi gozumlenen veriler icin bir aciklama gelistirme ve dogrulamasi icin birkac cesit analiz yolu oalarak kullanilan istatistiksel alettir.

Buna ek olaark

  1. Analiz icin hesaplamalarin "zarif" oldugu ve sonuclarinin varsayimlarinin ihlalleri hallerine karsi

nisbeten guclu oldugu bilinmektedir.

  1. Varyans Analizi (coklu orneklem karsilastirmalari ile) sanayi icin uygun gucleu analiz saglamaktadir.
  2. Cok cesitli deneylem taasariminin analizi icin hemen adapte edilebilmektedir.

Bu nedenle

  • Varyans Analizi " psikoloji bilimi arastirmalarinda en cok kullanilan (bazilrina gore en kotuye kullanilan) istatistik teknigi olma statusunde pek uzun zamandir kalmistir.".[2]
  • Varyans Analizi "mutlaka cikartimsal istatistik alaninda en cok kullanisli teknik oldugu " iddia edilebilir." [3]

Varyans Analizi'nin ozellikle karmasik deneysel taisrimlar icin ogretilmesi ve ogrenilmesi gayet zordur ve bu arada "sınırlandırılmış rassallaştırma" konusu gayet kotu sohret yapmistir.[4] Bazi hallerde yontemin tam uygunlukla kullanilabilmesi icin, once oruntulu tanima yontemi ile belirlenmesi gerekmete ve sonra da en iyi yetkili klasik testi uygulayarak bir "konsaltasyon" rejimi kullanmak gerekmektedir.[5]

Deneysel tasarim terimleri[değiştir | kaynağı değiştir]

Dengeli tasarim
Her bir hucresinde (yani her ikili saglatim bileskenleri icin) ayni sayida gozlem bulunan deneysel tasarim.
Bloklama


Model sınıfları[değiştir | kaynağı değiştir]

Varyans Analizi'nde üç değişik sınıf model kullanılmaktadır. Bunlar şöyle özetlenebilir:

Sabit etki modelleri[değiştir | kaynağı değiştir]

Verinin normal dağılım gösteren bir anakütleden geldiğini ve ancak farklı ortalamalar dolayısıyla ayrım yapılabileceğini varsaymaktadırlar.

Rasgele etki model]]leri[değiştir | kaynağı değiştir]

Verinin bir farklar hiyerarşisi ile sınırlanmış olan değişik hiyerarşi içeren anakütlelerden geldiğini varsayar.

Karışık etki modelleri[değiştir | kaynağı değiştir]

Içinde hem sabit etkiler hem de rastgele etkiler kapsayan durumları inceler.

Pratik problemlerde varyans analizi deneylemler için kullanılır ve deneylem elemanlarına uygulanan sağlatımların sayısına ve nasıl uygulandıklarına göre birkaç değişik tipe sınıflandırılmaktadırlar:

Tek-yönlü varyans analizi[değiştir | kaynağı değiştir]

Bu tür analiz iki veya daha çok sayıda bağımsız grup arasındaki farklılıkların sınanması istenildiği hallerde uygulanır. Tıpık olarak tek yönlü varyans analizi en aşağı üç değişik grup olduğu zaman uygulanmaktadır. İki-grup halinde daha kolay olarak t-sınaması aynı sonuçları vermektedir; çünkü bu halde t-sınaması ve F-sınaması birbirine çok yakından ilişkilidir. Bu yakın ilişki şöyle ifade edilir:

F = t^2.

Tekrarlanan ölçülerle tek-yönlü varyans analizi[değiştir | kaynağı değiştir]

Bu tür varyans analizinde aynı elamanlara her değişik sağlatım uygulanır, yani elamanlar tekrarlanan ölçülere tabi tutulurlar. Bu yöntem kullanılırken elemanlar kalıntı etkilerine maruz kalabilirler.

Faktōryel varyans analizi[değiştir | kaynağı değiştir]

Bu tür varyans analizi eğer deneyci iki veya daha çok sayıda sağlanım (bağımsız) değişkenin etkilerini incelemek isterse kullanılır. En çok kullanılan faktōryel varyans analizi iki bağımsız değişken ve her değişken için iki değişik değer veya seviye olduğu 2x2 (ikiye iki) tasarımdır. Faktōryel varyans analizi çoklu seviyeli, 3x3 (üçe üç) veya daha yüksek sıralı 2x2x2 (ikiye ikiye iki) v.b. deneylem tasarımlarında da kullanılabilirler. Ancak bu daha yüksek sayıda faktörler için analizler çok nadir olarak yapılmaktadır. Buna neden hesapların çok karmaşık ve uzun olması ve ortaya çıkartılan sonuçların açıklanmalarının çok zor olduğudur.

Karışık tasarım varyans analizi[değiştir | kaynağı değiştir]

Eğer iki veya daha çok sayıda bağımsız gruplar elemanlarına tekrar edilen ölçüler uygulayıp sınanmak istenirse, bir faktöryel karışık tasarım varyans analizi gerçekleştirilebilinir. Bunda bir faktör bağımsız olur ve diğer faktör tekrar edilebilir ölçülere bağlıdır. Bu, karışık etkiler modeline bir örnektir.

Çoklu değişirli varyans analizi[değiştir | kaynağı değiştir]

Birden çok bağımlı değişken bulunduğu zaman bu tür varyans analizi kullanılır.

Modeller[değiştir | kaynağı değiştir]

Sabit etkiler modelleri[değiştir | kaynağı değiştir]

Varyans analizi içinde sabit etkiler modeli, bir deneylem içinde deneycinin deney örneklem elemanlarına yanıt değişkeni değerlerinin birkaç değişik sağlanım uyguladığı zaman değişip değişmediğini incelemek istediği hallere tatbik edilir. Bu modeller deneyciye sağlanımın tüm anakütle içinde ortaya çıkarabileceği yanıt değişken değerlerinin açıklığını kestirim yapma imkâni sağlar.

Rastgele etkiler modelleri[değiştir | kaynağı değiştir]

Rastgele etkiler modelleri, sağlanımlar sabit olmadıkları hallerde kullanılırlar. Bu (faktör seviyeleri adı ile de bilinen) değişik sağlanımlar daha büyük bir anakütleden örneklem ile bulunmaları halidir. Sağlanımları kendileri rassal değişken olmaları nedeniyle, sabit etkiler modelinden daha değişik bazı varsayımların ve sağlanımların karşılaştırılmaları gerekmektedir.

Rastgele etkiler modelerinin veya karışık etki modellerinin çoğunda iyi belirenmiş örneklemi alınmış faktörleri ilgilendiren çıkarımsal istatistik analizlerle ilgili değildir. Bunu bir orneğinle açıklamak şöyle yapilabilir: Aynı mali üretmek için çok değişik makinaların kullanıldığı bir sanayi birimi ele alınsın. Bu işletmeyi inceleyen istatisikçi üç değişik makinenin birbirleri ile karşılaştırılması ile ilgilenmesi uygulanabilen pratik bir problem degildir. Buna karşılık tüm makinalar hakkında, tüm ortalama üretkenlik ve değişik makinelerde üretkenliğin yayılımı hakkında çıkarımsal istatistik analizi sınamalar arastirmaciyi ilgilendiren bir sorun olabilir.

Varsayımlar[değiştir | kaynağı değiştir]

  • İstatistiksel bağımsızlık: Bu varsayım deneylem tasarımı için gerekmekte ve sağlatım uygulanan elamanların bağımsız oldukları varsayılmaktadır.
  • Normallik: Her bir grup içindeki elamanların normal dağılım gösteren anakütlelerden geldikleri varsayılır. Verilerinin normallik özelliği olup olmadığı ya normallik sınamaları olan Kolmogorov-Şmirnov sınaması veya Shapiro-Wilk sınaması kullanılarak incelenebilir. Normallik varsayımını incelemek için parametrik olmayan istatistik sınaması olan Kruskal-Wallis sınaması da kullanılabilir.
  • Eşit varyanslar veya heteroskedastiklik: Homoskadastiklik halinde her bir grup elemanlarının geldikleri anakütlelerde varyansların aynı olduğu varsayılır. Verilerin eşit varyanslar varsayımına uyup uymadıklarını sınamak için tipik olarak Levene'in sınamasi kullanılır. Ama "Levene'in sinamasi" icin grup gözlem sayılarınin eşit olmasi gerekir. Daha degisik hallerde eger gruplarda sapan değer yoksa "Bartlet Sinamasi" veya gruplarda gözlem sayıları eşitse "Cochran Varyans Eşitliği Sinamasi" kullanılır.

Bazı istatistikçiler verilerin normallikten ayrılması halinde varyans analizinin esası olan F-sınaması'nın güvenilmez olacağını bildirmektedir [6]. Diğer istatistikçiler ise F-sınamasının "güçlü olduğunu", yani normal olmamakdan fazla etkilenmediğini savunmaktadırlar.[7]

Bu ortak varsayımlar yanında sabit etki modelleri için hataların bağımsız ve aynı şekilde normal dağılım gösterdikleri de, yani

\varepsilon \thicksim N(0, \sigma^2).\,

olduğu varsayılmaktadır. Varyans analizi için kullanılan rastgele etki modelleri ve karışık etki modelleri için hataların ortalama ve varyansi için daha karmaşık varsayımlar gerekmektedir çünkü faktörler kendilerine özel dağılımlardan ortaya çıkartılabilirler.

Varyans analizinin inceleme yaklaşımı[değiştir | kaynağı değiştir]

Varyans analizinde temel yöntem, toplam kareler toplamını modelde kullanılan etkilere uygun olan parçalara bölmektir. Bu yönteme aşağıda verilen örnek tek bir sağlatımın değişik seviyelere uygulanması halidir.

Kareler toplamının parçalara bölünmesi[değiştir | kaynağı değiştir]

Örnek olarak tek bir sağlatımın değişik seviyeler uygulanması sonucu ortaya çıkan toplam kareler toplamı şu parçalara bölünür:

SS_{\hbox{Toplam}} = SS_{\hbox{Hata}} + SS_{\hbox{Sağlanım}}\,\!

Serbestlik dereceleri de aynı şekilde parçalara bölünmektedir ve her ilgili parçanın bir ki-kare dağılımı gösterdiği belirlenmektedir.

F-sınaması[değiştir | kaynağı değiştir]

Ana madde: F-sınaması

Toplam sapmanın parçalarının karşılaştırılması için F-sınaması uygulanır. Tek yönlü veya tek faktörlü varyans analizi için istatistik anlamlılığın sınanması, F-sınama istatistiği olan şu

F=\dfrac{\mbox{grup ortalamaları varyansı}}{\mbox{grup-içindekiler varyansı ortalaması}}
F^* = \frac{\mbox{MSTR}}{\mbox{MSE}}
burada:
\mbox{MSTR} = \frac{\mbox{SSTR}}{I-1}, İ = sağlatımlar sayısı
ve
\mbox{MSE} = \frac{\mbox{SSE}}{n_T-I}, nT = toplam gözlem eleman sayısı

ifade ile I-1 ve nT serbestlik derecelerinde F-dağılımı ifadesini karşılaştırmak suretiyle gerçekleştirilir.

F-dağılımı kullanmak doğal bir uygulamadır, çünkü sınama istatistiği her biri ki-kare dağılımı gösteren iki kareler toplamları ortalamasının bir diğerine bölümüne eşittir.

Ayrıca bakınız[değiştir | kaynağı değiştir]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Gelman (2005, s 2)
  2. ^ Howell (2002, s.320)
  3. ^ Montgomery (2001, s.63)
  4. ^ Gelman (2005, s.1)
  5. ^ Gelman (2005, s.5)
  6. ^ Lindman,H.R. (1974), Analysis of variance ın complex experimental designs. San Francisco: W. H. Freeman & Co.
  7. ^ Ferguson,G.A. ve Takane,Y. (2005), Statistical Analysis in Psychology and Education 6.Ed.. Montréal, Quebec: McGraw-Hill Ryerson Ltd.

Dış kaynaklar[değiştir | kaynağı değiştir]