Negatif binom dağılımı

Vikipedi, özgür ansiklopedi
Atla: kullan, ara
Negatif binom
Olasılık kütle fonksiyonu
Negative binomial.svgKırmızı çizgi ortalamayı gösterir ve yeşil çizgi için yaklaşık uzunluk 2σ olur.
Yığmalı dağılım fonksiyonu
Parametreler r > 0\! (rerl)
0<p<1\! (real)
Destek k \in \{0,1,2,\ldots\}\!
Olasılık kütle fonksiyonu (OYF) \frac{\Gamma(r+k)}{k!\,\Gamma(r)}\,p^r\,(1-p)^k \!
Yığmalı dağılım fonksiyonu (YDF) I_p(r,k+1)\text{ burada }I_p(x,y) tanzim edilmis tamam olmayan beta fonksiyonudur
Ortalama r\,\frac{1-p}{p}\!
Medyan
Mod \lfloor(r-1)\,(1-p)/p\rfloor\text{ if }r>1
0\text{ if }r\leq 1
Varyans r\,\frac{1-p}{p^2}\!
Çarpıklık \frac{2-p}{\sqrt{r\,(1-p)}}\!
Fazladan basıklık \frac{6}{r} + \frac{p^2}{r\,(1-p)}\!
Entropi
Moment üreten fonksiyon (mf) \left(\frac{p}{1-(1-p) e^t}\right)^r \!
Karakteristik fonksiyon \left(\frac{p}{1-(1-p) e^{i\,t}}\right)^r \!

Olasılık kuramı ve istatistik bilim dallarinda negatif binom dağılım bir ayrık olasılık dağılım tipi olup Pascal dağılımı ve Polya dağılımı bu dağılımın özel halleridir.

Negatif binom dağılımın tanımlanması[değiştir | kaynağı değiştir]

Olasılık kütle fonksiyonu[değiştir | kaynağı değiştir]

Negatif binom dağılımları iki parametre ile tam olarak tanımlanan bir dağılımlar ailesidir. Bu nedenle istatistik tanıtıcı yazınlarında değişik şekilde tanımlar ortaya atılmıştır. Popüler olarak kullanılan bir tanım açıklanacaktır: Bu tanıma göre negatif binom dairesi için iki reel-değerli parametre p, 0 < p < 1 ve r, r > 0 olur. Matematik notasyon ile negatif binom dağılım gösteren bir rassal değişken X şöyle gösterilir:

X ~ NegBin(r, p).
Bu halde olasılık kütle fonksiyonu şöyle verilir:
 f(k;r,p) = {k+r-1 \choose k}\cdot p^r \cdot (1-p)^k \!

burada k = 0,1,2,... ve

 {k+r-1 \choose k} = \frac{\Gamma(k+r)}{k!\cdot\Gamma(r)} = (-1)^k\cdot{-r \choose k}\! ve Γ(r) = (r - 1)! .

Sınırsal hal[değiştir | kaynağı değiştir]

Alternatif ikinci bir tanımda ise λ ve p parametreleri şöyle tanımlanır:

 \lambda = r\cdot(p^{-1}-1) \!
 p = \frac{r}{r+\lambda} \!

ve olasılık kütle fonksiyonu şöyle verilir:

 g(k) = \frac{\lambda^k}{k!} \cdot \frac{\Gamma(r+k)}{\Gamma(r)\;(r+\lambda)^k} \cdot \frac{1}{\left(1+\frac{\lambda}{r}\right)^{r}} \!

Burada λ ve r negatif olmayan reel parametrelerdir.

Bu tanıma göre şu eşitlik ifadesi ortaya çıkar:

 \lim_{r\to\infty} g(k) = \frac{\lambda^k}{k!} \cdot 1 \cdot \frac{1}{\exp(\lambda)} \!

Bu ifade ise bir Poisson dağılımı gösteren ve Poisson oranı λ olan bir Poisson dağılım için olasılık kütle fonksiyonudur. Böylece bu ikinci tanımla negatif binom dağılımının limitte Poisson dağılımına yaklaşan bir dağılım olduğu ve r parametresinin da bu yaklaşımı kontrol parametresi olduğu açıklaşır; r değeri büyüdükçe negatif binom Poissona daha çok yaklaşacaktır. Böylece negatif binom dağılımı Poisson dağılım yerine kullanılan daha sağlam bir dağılım olmaktadır. Büyük r değeri için Poisson'a yaklaşılır ve uygun değerler daha kolayca bulunur; ama büyük r değerlerinde varyanslar küçük r değerlerinden daha büyük olur.

Gamma-Poisson bileşiği[değiştir | kaynağı değiştir]

Üçüncü değişik bir tanım ise, nagatif binom dağılımının Poisson dağılımlarının sürekli bir bileşiğinden ortaya çıktığı ve bu bileşiği temin eden Poisson oranlı dağılımın bir gamma dağılımı olması gerçeğine dayanır. O zaman formel notasyon ile negatif binom için olasılık kütle fonksiyonu şöyle olur:

f(k)\!\!\!\! = \int_0^{\infty} \mathrm{Poisson}(k \,|\, \lambda) \cdot \mathrm{Gamma}(\lambda \,|\, r, (1-p)/p) \; \mathrm{d}\lambda \!
= \int_0^{\infty} \frac{\lambda^k}{k!} \exp(-\lambda) \cdot \frac{\lambda^{r-1} \exp(-\lambda p/(1-p))}{\Gamma(r)\;((1-p)/p)^r} \; \mathrm{d}\lambda \!
= \frac{1}{k!\;\Gamma(r)} \; p^r \; \frac{1}{(1-p)^r} \;
\int_0^{\infty} \lambda^{(r+k)-1} \, \exp(-\lambda/(1-p)) \;\mathrm{d}\lambda \!
= \frac{1}{k!\;\Gamma(r)} \; p^r \; \frac{1}{(1-p)^r} \; (1-p)^{r+k} \; \Gamma(r+k) \!
= \frac{\Gamma(r+k)}{k!\;\Gamma(r)} \; p^r \, (1-p)^k. \!

Bu nedenle negatif binom fonksiyonu aynı zamanda gamma-Poisson bileşiği dağılım olarak da bilinmektedir.

Yığmalı dağılım fonksiyonu[değiştir | kaynağı değiştir]

Yığmalı dağılım fonksiyonu bir tanzim edilmiş beta fonksiyonu terimleri ile şöyle verilir:

 F(k) = I_{p}(r, k+1). \!

Ortaya çıkma[değiştir | kaynağı değiştir]

Bir Bernoulli tipi süreçde bekleme zamanı[değiştir | kaynağı değiştir]

r değerinin bir tamsayı olduğu özel hal için negatif binom dağılımı Paskal dağılımı olarak bilinir. Paskal dağılımı bağımsız ve aynı şekilde dağılmış bir seri Bernoulli deneyi sonucunda başarı ve belli sayıda başarısızlık sonucu doğmasi icin gerekli olasılık dağılımıdır. k+r sayida p başarı olasılıklı Bernoulli deneyi k sayıda başarısızlık ve r sayıda başarı için, en son deney sonucu başarı ise, bir negatif binom dağılımi kullanmak uygun ve yeterlidir. Diğer bir ifade ile, nagatif binom dağılımı bir Bernoulli süreci için her denemede başarı olasılığı p olan ve r tane başarı elde etmek için gerekli başarısızlık sayısının olasığını açıklayan bir dağılımdır.

Örneğin olarak bir tekrar tekrar zar atıp en son olarak 3 defa 6 gelme denemesine bakılsın. Burada her bir zar atışı için 'başarı' (6 gelmesi) 1/6dir. 3 defa bu başarı elde edilmesi icin deneme sayısı (2,3,4,5,6,... ) değerde bir sonsuz seridir. Bu sayıda deneme yapma olasığı bir (kaydırılmış) negatif-binom dağılımı gösteren rassal değişkendir. 3 tane başarı (6) gelmeden önce gereken başarısızlık sayısi ise (0, 1, 2, 3, ...) yine bir sonsuz seridir. Böylece başarısızlık sayısı da bir negatif binom dağılım gösteren bir diğer rassal değişkendir.

Eğer r=1 ise ilk başarıyı elde etmeden başarısızlıklar sayısının (yani (k+1)inci denemede başarının} olasılık dağılımı elde edilir ve bu şu geometrik dağılımdır:

 f(k) = p \cdot (1-p)^k \!

Fazla sapmalı bir Poisson[değiştir | kaynağı değiştir]

Yukarıda açıklanan bir tanıma göre negatif binom dağılımı Poisson dağılımına yaklaşık olduğu zamanlar Poisson dağılımı yerine kullanılabilir. Eğer veriler aralıklı, bir yukarı limit olmadan pozitif iseler ve örnek varyansı örnek ortalama değerinden büyük ise özellikle bu yaklaşım kullanışlı olmaya başlar. Bu tip verilerde eğer ornek ortalaması ve varyansı birbirine eşitse, Poisson dağılımı kullanılması uygundur. Fakat varyans değeri artıp ortalama değerini geçince, yani fazla sapma olan bir Poisson süreç ortaya çıkarsa, negatif binom yaklaşımı kullanma uygunluğu daha da önem kazanır.

Diğer dağılımlara bağlantılar[değiştir | kaynağı değiştir]

  • Geometrik dağılım negatif binom dağılımının özel bir halidir; yani
\mathrm{Geometrik}(p) = \mathrm{Neg Bin}(1, p).\,
  • Şu anlamda negatif binom dağılımı Poisson dağılımına yaklaşır:
\mathrm{Poisson}(\lambda) = \lim_{r \to \infty} \mathrm{NegBin}(r, r/(\lambda+r)).\,
  • Negatif binom dağılımı aralıklı faz tipli dağılımın bir özel halidir.

Özellikler[değiştir | kaynağı değiştir]

p parametresi için örnekleme ve nokta tahmini[değiştir | kaynağı değiştir]

p parametresi bilinmediği farzedilsin ve bir deneme yapıp bu denemayi uygulamaya başlamadan örnek almanın ta r sayıda başarı elde edilmesine kadar devam edileceğine karar verilmiş olsun. Bu deney için yeterli istatistik k başarısızlık sayısı olur. Bu deneyle p tahmin yapmak için en küçük varyans ortaya çıkaracak yansız nokta kestirim

\hat{p}=\frac{r-1}{r+k-1}

olur. Bazı kişiler sağduyu ile

\tilde{p}=\frac{r}{r+k}

ifadesini uygun bir kestirim olarak ortaya atmışlardır; ancak bunu yanlı bir kestirim olduğu isbat edilmiştir. [1]

Örnekler[değiştir | kaynağı değiştir]

Bir sokak satıcısı 30 tane daire bulunan bir küçük sokağa gelmiştir. Bu sokakta 5 tane kavun satıncaya kadar sırayla herbir dairenin kapısını çalmaya karar vermiştir. Her bir dairede tek bir kavun satışı için olasılığın %40 olduğunu ve tek kavun için satış yapmama olasığının %60 olduğunu hayat deneyiminden bilmektedir.

Çok iyi duşünür ama pek iş bulamamış bir universite matematik mezunu kavun satıcısının şu soru aklını çeler:

"Son beşinci kavunu ninci daireye satmak için 'olasılık kütle fonksiyonu' ne olmalıdır?"

İleri istatistik bilgisine göre k + r sayıda Bernoulli denemesinde son denemede başarı kazanması için k sayıda başarısızlık ve r sayıda başarı kazanmanın olasığı bir negatif binom dağılımı olan NegBin(r, p) ile bulunur. 5 tane kavun satma 5 tane başarı kazanma olmakta ve bunu başarmak için kapısını çalmasi gereken daire sayısı k+5=n olmalıdır. İlgilendiği rassal değişken daire sayısıdır; bu nedenle k=n - 5 değerini bir NegBin(5,0.40) kütle fonksiyonuna koyması gerekir. Dairelerin dağılımı için, yani (n > 5) için, şu kütle fonksiyonu elde edilir:

 f(n) = {(n-5) + 5 - 1 \choose 5-1} \; 0.4^5 \; 0.6^{n-5} = {n-1 \choose 4} \; 2^5 \; \frac{3^{n-5}}{5^n}

Şimdi iyi matematik bilen kavuncu olasılık sorularını cevap verecek hale gelmiştir ve birkaç soruya kafasını yorar:

1. 10uncu dairenin kapısını çaldiktan sonra 5 kavun satma hedefine erişme olasığı nedir?

 f(10) = 0.1003290624 \,

2. 8inci dairenin kapısını çalmadan veya kapısını çaldıktan hemen sonra hedefine erişme olasılığı ne olur?

8inci dairede ve daha önce hedefine varmayı bulmak için, 5inci, 6inci, 7inci veya 8inci dairede hedefe varma olasılıkların bulunması ve birbirine toplanması gerekir:

 f(5) = 0.01024 \,
 f(6) = 0.03072 \,
 f(7) = 0.055296 \,
 f(8) = 0.0774144 \,
\sum_{j=5}^8 f(j) = 0.17367

3. Matematik mezunu kavuncunun 30 daire kapısını çalıp da hedefine varamaması olasılığı nedir?

1-\sum_{j=5}^{30} f(j) = 1 - I_{0.4}(5, 30-5+1) \approx 1 - 0.99849 = 0.00151

Kavunmu yiyenlere afiyet olsun diye düşünür matematikçi kavuncu!!

Ayrıca bakınız[değiştir | kaynağı değiştir]

Kaynak[değiştir | kaynağı değiştir]