Basıklık

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık (İngilizce: kurtosis) kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır [1]. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Basıklık tanımlaması[değiştir | kaynağı değiştir]

Dördüncü standarize edilmiş moment şöyle tanımlanır;

 \frac{\mu_4}{\sigma^4},\!

Burada μ4 dördüncü ortalama etrafındaki moment ve σ standart sapmadır. Biraz eski istatistik kitaplarında bazan bu ifade basıklık tanımlaması olarak kullanılmaktaydı.

Daha alışılagelmiş bir şekilde basıklık, bir olasılık dağılımının "dördüncü kümülant değeri bölü varyans karesi" olarak şöyle tanımlanır:

\gamma_2 = \frac{\kappa_4}{\kappa_2^2} = \frac{\mu_4}{\sigma^4} - 3, \!

Bu bir ölçü olarak kullanılırsa basıklık fazlalığı olarak bilinir. Formulün son terimi olan eksi 3 çok kere basıklık tanımlama formulüne yapılan bir ayarlama olarak açıklanır. Bu ayarlama sayesinde, normal eğrisinin basıklık ölçüsü değeri sıfır olur.

Bu ayarlamanın yapılmasının diğer bir nedeni ise birkaç rassal değişken toplamı için basıklık ölçüsünü incelemekle açıklanır. Ölçü kümülant kullanılarak tanımlandığı için eğer Y rassal değişkeni n tane istatistiksel bağımsız ve her biri aynı dağılım gösteren Xlerin bir toplamı ise; o halde

Basıklık[Y] = Basıklık[X] / n,

olacaktır ve bu basit bir ortalama gibi görünüş verir. Bir genel ifade ile X1, ..., Xn rassal değişkenin hepsi aynı varyansa sahipler ve ayni dağılım gösterirlerse, toplam rassal değişken Y için basıklık şu olur:

\operatorname{Basik}\left(\sum_{i=1}^n X_i \right) = {1 \over n^2} \sum_{i=1}^n \operatorname{Basik}(X_i),

Eğer ayar yapılmasa ve hatta dördüncü moment ölçü formulü olarak kullanılırsa idi bu basit toplam formulü ele geçmezdi.

Dördüncü standardize edilmiş moment için en küçük değer 1dir; bu nedenle en küçük basıklık fazlalığı değeri -2 olur. Dördüncü moment ve kümülant değeri için üst bir sınırlama yoktur ve üst değer artı sonsuz kadar büyük olabilir. Bu nedenle basıklık ölçüsü değeri -2 ile artı sonsuzluk arasında bulunabilir.

Terminoloji ve örneğinler[değiştir | kaynağı değiştir]

Eğer bir olasılık dağılımının veya veri setinin basıklık ölçüsü 0 (sıfır) değerde ise, bu çeşit veri seti veya olasılık dağılımına meso-basık (İngilizcesi 'meso-kurtic') adı verilir. Sıfır (0) basıklık ölçülü, yani meso-basık, en iyi bilinen olasılık dağılımı (parametreleri ne değerlerde olursa olsun) normal dağılımdır. Parametre değerlerine göre birkaç diğer olasılık dağılımi da meso-basık, yani 0 basıkliık ölçü değeri gösterirler. Örneğin, eğer p = 1/2 \pm \sqrt{1/12} ise bir binom dağılım meso-basıktır.

'Basıklık' ölçüsü ve terminolojisi dağılım meso-basıklık karakteri göstermiyorsa bazan fikir karmaşıklığına yol açabilir.

Bir olasılık dağılımı veya bir veri seti için basıklık ölçüsü sıfırın üstünde pozitif (0 ile sonsuz arasında) olursa, bu türlü dağılıma lepto-basık adı verilir [2]. Eğer bir olasılık dağılımı veya veri seti lepto-basık karakterli (yani pozitif basıklık ölçülü) ise, olasılık dağılım yoğunluk grafiği veya veri seti çokluluk grafiği, ortalama değerinde (normal dağılıma nazaran) daha sivri ve kuyrukları daha "şişman" olma görüntüsü verirler. Bu tip olasılık dağılımlarına şişman kuyruklu dağılım ve bazan da yüksek-Gauss tipi dağılım adı verilir. Laplace dağılımı ve logistik dağılım lepto-basık dağılımlara örnektirler. Basitce bir ifade ile bir dağılımın ortası sivri, kuyrukları şişman ise, lepto-basık olur ve pozitif basıklık ölçüsü gösterir.[3]

Bir olasılık dağılmı veya bir veri seti için basıklık ölçüsü sıfırın altında, negatif 0 ile -2 arasında olursa, bu türlü dağılıma plati-basık adı verilebilir ref>İngilizce "plati-kurtic" ve plati- antik Yunanca'dan alınma. Ayrıca basıklık ölçüsünün en küçük değerinin -2 olmasına dikkat edilmelidir.</ref> En alt sınırda basıklık ölçüsü -2 olan bir olasılık dağılım örneği, parametre değeri p = ½ olan bir Bernoulli dağılımıdır. Bu çeşit negatif basıklık ölçüsü gösteren dağılımların grafikleri ortalama etrafında düşük ve yayvan ve kuyrukları kısa sıska görünümünde veya ortası basık yamaçları dik yokuş bir "masa dağı" görünüşünde olurlar. Ayrık veya sürekli tekdüze dağılım ve yükseltilmiş kosinus dağılımı plati-basıklık (yani negatik basıklık ölçüsü) gösteren dağılımlara örnektirler. Bu türlü dağılımlar bir normal dağılımın yoğunluk grafiğine nazaran hem ortasında ve hem de kuyruklarında daha alçak görünüşlü olduğu için, alçak-Gauss tipi adı da verilir.[4]

Eğer yukarıda verilen 'basıklık' ölçüsü yüksek pozitif değer gösteriyorsa dağılımın yoğunluk grafiğinde sivri bir doruk ve şişman kuyrukları bulunur; diğer taraftan basıklık ölçüsü negatif ve düşük ise (yani -2ye yakın), doruk daha yuvarlanamıştır ve genişce yüksek omuzları bulunan bir "masa dağ" görünüşü almaktadır.

Grafik örneğinler[değiştir | kaynağı değiştir]

Pearson VII. tip ailesi[değiştir | kaynağı değiştir]

VII tip Pearson dağılımında basıklık: sonsuz=kırmızı, 2=mavi ve 0=siyah

Basıklık özelliğinin etkileri bir parametrik dağılımlar ailesi olan VII tip Pearson ailesi ile gösterilebilir. Bu parametrik ailenin basıklık özelliği (düşük derecede momentler ve kumulantlar sabit kalirken) değiştirilebilmektedir. Bunlar için olasılık yoğunluk fonksiyonu şöyle verilmiştir:

f(x; a, m) = \frac{\Gamma(m)}{a\,\sqrt{\pi}\,\Gamma(m-1/2)} \left[1+\left(\frac{x}{a}\right)^2 \right]^{-m}, \!

Burada a bir olcek parametresi ve m bir sekil parametresi olurlar.

Bu aile için bütün olasılık yoğunluk fonksiyonları simetriktir. Eğer m>(k+1)/2 anlamlı ise, kinci moment de bulunur. 0dan değişik bir basıklık ölçüsü bulunması için m>5/2 olması gerekmektedir. O halde hem ortalama hem de çarpıklık aynen sıfıra eşit olurlar. a değeri a^2 = 2m-3 olacak şekilde seçilirse, varyans değeri 1e eşit olur. Bu koşullar altında tek serbestce değiştirilebilecek parametre m olur ve bu dördüncü moment (ve kumulant), yani basıklık özelliğini, kontrol eder. Bu dağılım fonksiyonu m = 5/2 + 3/\gamma_2, olarak parametrelenebilir ve burada \gamma_2 basıklık ölçüsü olur. Bunun sonucunda bir-parametreli lepto-basık aile elde edilir ve bunlar için ortalamalar hep 0, varyanslar hep 1, çarpıklık hep 0 ve basıklık yukarıda verilmiş şekilde değişken olur. Bu halde olasılık yoğunluk fonksiyonu şöyle verilir:

g(x; \gamma_2) = f(x;\; a=\sqrt{2+6/\gamma_2},\; m=5/2+3/\gamma_2). \!

Limitte \gamma_2 \to \infty yakınsalamsı ile olasılık yoğunluk fonksiyonu şu şekli alır:

g(x) = 3 \left(2 + x^2\right)^{-5/2}, \!

Bu gösterimde kırmızı eğridir.

Diğer tarafa yakınsalama, yani \gamma_2 \to 0, limitte daılım olarak standart normal dağılımı verir ve bu siyah eğri olarak gösterilmiştir.

Mavi eğri basıklığı 2'ye eşit x \mapsto g(x; 2) olasılık yoğunluk gösterir. Mavi eğri ile siyah eğri arasında olasılık yoğunluklari 2 = 1, 1/2, 1/4, 1/8, ve 1/16 olarak elde edilen eğriler verilir. Kırmızı eğri VII Tip Pearson dağılımları için \gamma_2 = \infty ile (yani dördüncü momenti bulunmayan) bir yukarı limit verir. Bu kırmızı eğri için eğri orijinden uzaklaştıkça en az düşüş gösterir ; yani "şişman kuyrukları" vardır.

Bu aile içinde en üstteki eğri, meso-basık normal dağılıma kıyasla, çok lepto-basıklık karakteri gösterir. VII. tip Pearson yoğunluklarının doğasal üstel logaritmalarinin grafik gösterimi olan ikinci grafik ise lepto-basık yoğunlukların şişman kuyruklarini açıkca göstermektedir. Bu grafikte siyah renkli egri ters bir parabolya benzeyen normal dağılım eğrisidir. Gorulmektedir ki, basıklık derecesi 2 lepta-basık karakterli VII.tip Pearson dağılımın gösteren mavi eğri olan mavi eğriye nazaran, siyah normal eğri yoğunluk ortalamadan uzak bölgelere çok daha az olasılık vermektedir (yani "daha siska kuyrukludur).

Bazı dağılımlar için basıklık[değiştir | kaynağı değiştir]

Standard symmetric pdfs.png
Standard symmetric pdfs logscale.png

Bu gösterimlerde değişik parametrik ailelere bağlı olan bazı iyi bilinen dağılımlar karşılaştırılmaktadır. Tümünün yoğunluğu tek-modlu ve simetriktir. Her birinin ortalaması bulunmaktadır. Parametre değerleri öyle seçilmiştir ki bütün örneğinler için varyans bire eşittir. Doğrusal ölçekte ve logaritmalı ölçekte şu yedi dağılım karşılaştırılmaktadır:

  • D: Laplace dağılımı - Bazan çift üstel dağılım denir. Kırmızı eğri (log-ölçekte grafikte iki doğru olarak görülmekte)- basıklık ölçümü = 3
  • N: normal dağılım - siyah eğri (log-ölçümünde tepesi aşağıda bir parabol) - basıklık ölçümü = 0

Örneklem için basıklık[değiştir | kaynağı değiştir]

n sayıda gözlem değeri bulunan bir rassal örneklem için örneklem basıklığı şöyle ölçülür:

 g_2 = \frac{m_4}{m_{2}^2} -3 = \frac{n\,\sum_{i=1}^n (x_i - \overline{x})^4}{\left(\sum_{i=1}^n (x_i - \overline{x})^2\right)^2} - 3

Burada m4 örneklem ortalaması etrafındaki örneklem dördüncu momenti, m2 ortalama etrafındaki ikinci moment (yahut örneklem varyansı, xi gözümlenen iinci değer, ve \overline{x} ise örneklem ortalamasıdır.

Şu formül de

 D = {1 \over n} \sum_{i=1}^n{ (x_i - \bar{x})^2} ,
 E = {1 \over n D^2} \sum_{i=1}^n{ (x_i - \bar{x})^4} - 3

kullanılmaktadır, Burada n - örneklem büyüklüğü, D - hesaptan önce bilinen varyans değeri, xi x'inci ölçüm değeri ve \bar{x} - hesaptan önce bilinen ortalama değeri olurlar.

Anakütle basıklık kestirimcileri[değiştir | kaynağı değiştir]

Bir anakütleden bir altset olan örneklem verilirse, yukarıda verilmiş olan örneklem basıklık ölçüsü anakütle basıklık ölçüsünün yanlı kestirimi olur. Bilgisayar için hazırlanmış istastistik paketleri (SAS, Minitab, SPSS ve Excel) anakütle basıklık kestirimci değeri G için şu formülü kullanmaktadır:|- | |= \frac{n^2\,((n+1)\,m_4 - 3\,(n-1)\,m_{2}^2)}{(n-1)\,(n-2)\,(n-3)} \; \frac{(n-1)^2}{n^2\,m_{2}^2}\! |- | |= \frac{n-1}{(n-2)\,(n-3)} \left( (n+1)\,\frac{m_4}{m_{2}^2} - 3\,(n-1) \right)\! |- | |= \frac{n-1}{(n-2) (n-3)} \left( (n+1)\,g_2 + 6 \right)\! |- | |= \frac{(n+1)\,n\,(n-1)}{(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{\left(\sum_{i=1}^n (x_i - \bar{x})^2\right)^2} - 3\,\frac{(n-1)^2}{(n-2)\,(n-3)}\! |- | |= \frac{(n+1)\,n}{(n-1)\,(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{k_{2}^2} - 3\,\frac{(n-1)^2}{(n-2) (n-3)} \! |} Burada k4 dördüncü kümülant değerinin tek simetrik yanlı olmayan kestirimidir; k2 anakütle varyansı için yanlı olmayan kestirim değeridir; m4 ortalama etrafında dördüncü örneklem momentidir; m2 örneklem varyansıdır; xi iinci değer, ve \bar{x} örneklem ortalamasıdır.

Sadece BDMP istatistik paketi bu formülü kullanmakatadır.

Ne yazıktır ki bu G_2 kendisi genellikle yanlı kestirimdir. Bu sadece bir normal dağılım için yanlı değildir çünkü o halde beklenen değeri sıfır olmaktadır.

Ayrıca bakınız[değiştir | kaynağı değiştir]

Dipnotlar[değiştir | kaynağı değiştir]

  1. ^ Karl Pearson (1905) in "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A Rejoinder," Biometrika, Cilt 4, say. 169-212 (Almanca)
  2. ^ İngilizce "lepta-kurtic" ve lepto- antik Yunanca'dan alınma
  3. ^ "Sivri", yani basık olmayan, görünüşlü dağılımların pozitif basıklık ölçüsü gösterme karakteri olması, fikir karışıklığına yol açabilir. Belki kavramın adına sivrilik demek veya kavramın adına kurtosis deyip bir fikir karışıklığından kaçınmak daha doğru olabilecektir. Ama sonunda bunun öğrenilerek kabul edilmesi gerekir.
  4. ^ Bu türlü tepesi geniş ve düz, basık bir "masa dağı" görünüşlü grafiği olan bir dağılımın basıklık ölçüsünün negatif olması bazan fikir karışıklığına yol açmaktadır. Bu nedenle bunun öğrenme için özellikle ele alınması uygundur.

Dış bağlantılar[değiştir | kaynağı değiştir]