Doğum günü problemi

Vikipedi, özgür ansiklopedi

Olasılık teorisinde, doğum günü problemi veya doğum günü paradoksu, n adet rastgele seçilmiş kişiden oluşan bir grup içindeki bazı çiftlerin doğum gününün aynı olma olasılığını inceler. Güvercin yuvası prensibine göre, kişi sayısı 367’ye ulaştığında (29 Şubat dahil, 366 adet olası doğum günü olduğu için) olasılık %100’e ulaşır fakat, %99,9 olasılığa sadece 70 kişi ile ve %50 olasılığa 23 kişi ile ulaşılır. Bu sonuçlar, yılın her gününün (29 Şubat hariç) eşit derecede olası bir doğum günü olduğu varsayımına dayanır.

Mevcut doğum kayıtları farklı günlerde farklı sayıda insanın doğduğunu gösterir. Bu durumda, %50 eşiğine ulaşmak için gereken insan sayısının 23 veya daha az olduğu söylenebilir.[1] Örneğin, insanların yarısı bir günde ve diğer yarısı başka bir günde doğmuş olsaydı, bu durumda herhangi iki kişinin doğum gününü paylaşma şansı %50 olurdu.

Gruptaki en az iki kişinin aynı doğum gününe sahip olma olasılığının %50’ye ulaşılması için sadece 23 kişilik bir grubun gerektiği şaşırtıcı görünebilir: bu sonuç, bir bireye sabitlenmenin ve onun doğum gününü diğerleriyle karşılaştırmanın aksine doğum günü karşılaştırmasının aslında, olası her bir çift arasında = 23 x 22/2 = 253 karşılaştırma -bir yıl içindeki gün sayısının yarısından (en fazla 183) daha çok- yapılmasıyla daha makul olabilir. Doğum günü problemi kendisiyle mantıksal çelişkili olma anlamda bir “paradoks” değildir, ancak ilk bakışta anlaşılamaz.

Doğum günü probleminin gerçek hayattaki uygulamaları arasında doğum günü saldırısı isimli bir kriptografik saldırı vardır; bu saldırı bu olasılık modelini kullanarak bir özet fonksiyonu için çarpışma bulma karmaşıklığını azaltır ve büyüklüğü belirli bir popülasyonun özetleri arasında bulunan bir özet çarpışmasının yaklaşık riskini hesaplar.

Problemin tarihi bilinmemektedir. W. W. Rouse Ball, bunun ilk olarak Harold Davenport[2] tarafından ele alındığını belirtmiştir (alıntı yok). Ancak, Richard von Mises, bugün doğum günü problemi olarak bilinen şeyin daha eski bir versiyonunu sunmuştur. [2]

En az iki kişinin doğum günü paylaşma olasılığına karşı kişi sayısı

Olasılığın hesaplanması[değiştir | kaynağı değiştir]

Problem, n kişiden oluşan bir grup içindeki en az iki kişinin doğum gününün aynı olma olasılığını yaklaşık olarak hesaplamaktır. Basitlik adına, artık yıllar, ikizler, sezonluk veya iş günü değişiklikleri gibi dağılımdaki değişimler göz ardı edilmiştir ve 365 olası doğum gününün hepsinin eşit derecede olası olduğu varsayılmıştır. (Gerçekte doğum günü dağılımları düzenli değildir çünkü tüm tarihler eşit derecede olası değildir, fakat bu düzensizliklerin analiz üzerinde çok az etkisi vardır[nb 1]. Aslında, doğum günlerinin düzenli dağılımı en kötü durumdur.[4])

Amaç, P(A) ile ifade edilen, odadaki en az iki kişinin doğum gününün aynı olma olasılığını hesaplamaktır. Ancak, P(A’) ile ifade edilen, odadaki hiç kimsenin doğum gününün aynı olmama olasılığını hesaplamak daha kolaydır. Bu durumda, sadece A ve A’ olasılık dahilinde ve ayrık olaylar olduğu için, P(A)=1-P(A’).

P(A)’nın %50’den fazla olması için gereken kişi sayısının en az 23 olduğunu belirten yaygın çözümleri dikkate alarak, aşağıdaki P(A) hesaplamasında örnek olarak 23 kişi kullanılacaktır. Eğer 23 kişi 1’den 23’e kadar numaralandırılırsa, 23 kişinin hepsinin farklı doğum günlerine sahip olması olayı, 2. kişinin 1. kişi ile aynı doğum gününe sahip olmama olayı ile, ve 3. kişinin 1. ve 2. kişiyle aynı doğum gününe sahip olmama olayı, vb.; ve son olarak 23. kişinin 1’den 22’ye kadar olan kişilerin hiçbiri ile aynı doğum gününe sahip olmama olayı ile aynıdır. Bu olaylar sırasıyla “Olay 2”, “Olay 3” vb. olarak isimlendirilsin. “Olay 1” olarak ise, 1. kişinin doğum gününe sahip olma olayı, ki bu olayın olasılığı 1’dir, eklenebilir. Bu olayların birleşimi koşullu olasılık kullanılarak hesaplanabilir: Olay 2’nin olasılığı 364/365’tir, çünkü 2. kişinin doğum günü, 1. kişinin doğum günü dışındaki herhangi bir günde olabilir. Benzer şekilde, Olay 2’nin gerçekleştiği göz önüne alındığında, Olay 3’ün olasılığı 363/365’tir, çünkü 3. kişinin doğum günü 1. ve 2. kişinin doğum günleri dışında her gün olabilir. Bu, önceki tüm olayların gerçekleştiği göz önüne alındığında, Olay 23’ün olasılığı 343/365 olana kadar devam eder. Son olarak, koşullu olasılık prensibi, P(A’)’nın bu ayrı olasılıkların çarpımına eşit olduğunu belirtir:

   

 

 

 

 

(1)

    Denklem ( 1 )’in terimleri tek tarafta toplanırsa:

   

 

 

 

 

(2)

    Denklem ( 2 ) çözümü P(A′) ≈ 0.492703'ü verir.

Bu nedenle, P(A) ≈ 1 − 0.492703 = 0.507297   (50,7297%).

Bu yöntem n kişiden oluşan bir grup için genelleştirilebilir, p(n) n kişiden en az iki kişinin bir doğum günü paylaşması olasılığıdır. Öncelikle, tüm n doğum günlerinin farklı olma olasılığını, p(n), hesaplamak daha kolaydır. Güvercin yuvası prensibine göre, n>365 ise p(n) sıfırdır. n ≤ 365 ise:

! faktöriyel operatörü, (365n) binom katsayısı ve kPr permütasyonu ifade eder.

Bu denklem, ilk kişinin kimseyle doğum günü paylaşmadığı gerçeğini ifade eder, bununla birlikte, ikinci kişi ilk kişi ile (364/365 ) aynı doğum gününe sahip olamaz, üçüncü kişinin doğum günü ilk iki kişi ile (364/365) ve genel olarak n’inci doğum günü önceki hiçbir n-1 doğum günü ile aynı olamaz.

n kişiden en az ikisinin aynı doğum gününe sahip olma olayı, tüm n doğum günlerinin farklı olması ile tamamlayıcıdır. Bu nedenle, olasılığı

Aşağıdaki tablo n’in diğer bazı değerleri için olasılıkları göstermektedir (bu tabloda artık yılların varlığı göz ardı edilmiştir ve her doğum gününün eşit derecede olası olduğu varsayılmıştır):

n kişilik bir grupta herhangi iki kişinin doğum günü paylaşmama olasılığı. Düşey ölçek logaritmiktir (aşağı doğru her adım 1020 kat daha az olasıdır)
n p(n)
1 00.0%
5 02.7%
10 11.7%
20 41.1%
23 50.7%
30 70.6%
40 89.1%
50 97.0%
60 99.4%
70 99.9%
75 99.97%
100 99.99997%
200 99.9999999999999999999999999998%
300 (100 − 6×10-80)%
350 (100 − 3×10-129)%
365 (100 − 1.45×10-155)%
≥ 366 100%

Artık yıllar. Eğer formülünde 365 yerine 366 yazarsak, benzer bir hesaplama ile artık yıllar için, bir eşleşme olasılığının %50’den fazla olması için gerekli kişi sayısının 23 olduğunu gösterir; bu durumda eşleşme olasılığı %50.6’dır

Doğum gününü ( red ) ve tamamlayıcı etkinliğini ( blue ) paylaşan en az iki kişinin yaklaşık olasılıklarını gösteren grafikler
1 − en2730 bir yaklaşım 1 − en2730 doğruluğunu gösteren bir grafiktir 1 − en2730 red

Üssel fonksiyonun Taylor serisi açılımı (sabit e2.718281828 )

değerleri için, ex için birinci dereceden yaklaşım sağlar.

Bu yaklaşımı p(n) için türetilmiş ilk denkleme uygulamak için,

x = −a/365. Böylece,

Bu durumda, a = n − 1 olana kadar p(n) formülündeki a negatif olmayan tam sayılarla değiştirilirse, örneğin, ne a = 1 iken,

p(n) için türetilmiş ilk denklem, şu şekilde yaklaşık olarak bulunabilir:

Bu nedenle,

Daha kaba bir yaklaşım şu şekilde verilir

ki, grafikte görüldüğü üzere, hala oldukça doğrudur.

Yaklaşıma göre, aynı yöntem herhangi bir sayıda “insan” ve “gün” için de uygulanabilir. Eğer 365 gün yerine d varsa, n kişi varsa ve nd ise, o zaman yukarıdaki yaklaşımı kullanarak, p(n, d) n kişiden en az iki kişinin, d uygun gün içerisinden aynı doğum gününü paylaşma olasılığını belirtiyor ise, ulaşacağımız sonuç:

Basit üssalma[değiştir | kaynağı değiştir]

Herhangi iki kişinin aynı doğum gününe sahip olmama olasılığı 364/365’tir. n kişinin olduğu bir odada (n2) = n(n − 1)/2  çift insan, bir başka deyişle (n2) olay vardır. Hiçbir iki kişinin aynı doğum gününü paylaşmama olasılığı, bu olayların bağımsız olduğunu varsaymak ve olasılıklarını beraber çarpmak ile yaklaşık olarak bulunabilir. Kısaca

364/365 kendisi ile (n2) kere çarpılır, bu da:

Bu kimsenin aynı doğum gününe sahip olmama olasılığı olduğu için, birinin bir doğum günü paylaşma olasılığı:

Poisson yaklaşımı[değiştir | kaynağı değiştir]

Binom için Poisson yaklaşımının 23 kişilik gruba uygulanmasıyla,

bu yüzden,

Sonuç, önceki açıklamalar gibi %50’nin üzerindedir. Bu yaklaşım yukarıdaki kullanan Taylor açılımı yaklaşımıyla aynıdır.

Kare yaklaşımı[değiştir | kaynağı değiştir]

Zihinsel hesaplama için kullanılabilecek iyi bir kural,

ayrıca şu şekilde de yazılabilir

1/2’den küçük veya 1/2’ye eşit olasılıklar için etkilidir. Bu denklemlerde, m bir yıldaki gün sayısıdır.

Örneğin, ortak bir doğum günü şansının 1/2 olması için gereken kişi sayısını tahmin etmek için

Bu da doğru cevap olan 23’ten çok uzak değildir.

Kişi sayısı yaklaşımı[değiştir | kaynağı değiştir]

Bu aynı zamanda, eşleşme şansın en az 1/2 olması için gereken kişi sayısı, aşağıdaki formül kullanılarak yaklaşık olarak hesaplanabilir:

Bu, 1/k olasılığı olan bir olayın, eğer k ln 2 kere tekrarlanırsa, en az bir kere gerçekleşme şansının 1/2 olacağına dair iyi bir yaklaşımın sonucudur.[5]

Olasılık tablosu[değiştir | kaynağı değiştir]

length of

hex string

no. of

bits (b)

hash space

size (2b)

Number of hashed elements such that probability of at least one hash collision ≥ p
p = 10-18 p = 10-15 p = 10-12 p = 10-9 p = 10-6 p = 0.001 p = 0.01 p = 0.25 p = 0.50 p = 0.75
8 32 4.3×109 2 2 2 2.9 93 2.9×103 9.3×103 5.0×104 7.7×104 1.1×105
(10) (40) (1.1×1012) 2 2 2 47 1.5×103 4.7×104 1.5×105 8.0×105 1.2×106 1.7×106
(12) (48) (2.8×1014) 2 2 24 7.5×102 2.4×104 7.5×105 2.4×106 1.3×107 2.0×107 2.8×107
16 64 1.8×1019 6.1 1.9×102 6.1×103 1.9×105 6.1×106 1.9×108 6.1×108 3.3×109 5.1×109 7.2×109
(24) (96) (7.9×1028) 4.0×105 1.3×107 4.0×108 1.3×1010 4.0×1011 1.3×1013 4.0×1013 2.1×1014 3.3×1014 4.7×1014
32 128 3.4×1038 2.6×1010 8.2×1011 2.6×1013 8.2×1014 2.6×1016 8.3×1017 2.6×1018 1.4×1019 2.2×1019 3.1×1019
(48) (192) (6.3×1057) 1.1×1020 3.5×1021 1.1×1023 3.5×1024 1.1×1026 3.5×1027 1.1×1028 6.0×1028 9.3×1028 1.3×1029
64 256 1.2×1077 4.8×1029 1.5×1031 4.8×1032 1.5×1034 4.8×1035 1.5×1037 4.8×1037 2.6×1038 4.0×1038 5.7×1038
(96) (384) (3.9×10115) 8.9×1048 2.8×1050 8.9×1051 2.8×1053 8.9×1054 2.8×1056 8.9×1056 4.8×1057 7.4×1057 1.0×1058
128 512 1.3×10154 1.6×1068 5.2×1069 1.6×1071 5.2×1072 1.6×1074 5.2×1075 1.6×1076 8.8×1076 1.4×1077 1.9×1077

Bu tabloda açık renkli alanlar, belli bir bit boyutunda verilen özet alanı (satır) belirli çarpışma olasılığını (sütun) başarmak için gereken özet sayısını göstermektedir. Doğum günü benzetmesi kullanılarak: “özet alan boyutu” “uygun günler”e, “çarpışma olasılığı” “ortak doğum günü olasılığı”na ve “gerekli özet elementi sayısı” “bir grup içerisinden gerekli kişi sayısı”na benzemektedir. Bu grafik ayrıca gerekli minimum özet boyutunu (özet üst sınırları ve hata olasılığı verildiğinde) veya çarpışma olasılığını (sabit sayıda özet ve hata olasılığı için) belirlemek için de kullanılabilir.

Karşılaştırma yapılırsa, 10-18 ile 10-15, tipik bir sabit diskin bit olarak düzeltilemez hata oranıdır.[6] Teorik olarak, MD5gibi 128-bit özet fonksiyonları, olası çıktıları çok daha fazla olsa bile, yaklaşık 8.2×1011 belgeye kadar bu aralıkta kalmalıdır.

Olasılık üst sınırı ve kişi sayısı alt sınırı[değiştir | kaynağı değiştir]

Aşağıdaki argüman Paul Halmos'un bir görüşünden uyarlanmıştır. [7]

Yukarıda belirtildiği gibi, hiçbir iki doğum gününün örtüşmeme olasılığı

Önceki paragraflardaki gibi, p(n) > 1/2’i sağlayan en küçük n değeri ile veya p(n) < 1/2’i sağlayan en küçük n değeri ile ilgilenilmektedir.

1 − x < ex eşitsizliği kullanılarak, yukarıdaki denklemde 1 − k/365 yerine ek365 yazıldığında

Bu nedenle, yukarıdaki denklem yalnızca bir yaklaşım değil, aynı zamanda p(n) için bir üst sınırdır. Eşitsizlik

p(n) < 1/2 olduğunu gösterir. n için çözülürse

Bu durumda, 730 ln 2 yaklaşık olarak 505.997’ye eşittir, ki bu 506’nın çok az altındadır, n2n değeri n = 23 iken elde edilir. Bu nedenle 23 kişi yeterlidir. Yeri gelmişken, n2n = 730 ln 2 denkleminin n için çözülmesi, yukarıda bahsedilen Frank H. Mathis’in formülünü yaklaşık olarak verir.

Bu derivasyon sadece, eşit şansa sahip bir doğum günü eşleşmesi sağlamak için en fazla 23 kişiye ihtiyaç duyulduğunu göstermektedir; n’in 22 veya daha az olmasının işe yarama olasılığının ucunu açık bırakmaktadır.

Genelleştirmeler[değiştir | kaynağı değiştir]

Genelleştirilmiş doğum günü problemi[değiştir | kaynağı değiştir]

Verilen d adet güne sahip bir yılda, genelleştirilmiş doğum günü problemi, rastgele seçilen n kişilik bir grupta bir doğum gününün örtüşme olasılığını en az %50 yapan minimum n(d) sayısını sorar. Başka bir deyişle, n(d) minimum n tam sayısıdır öyle ki,

Klasik doğum günü problemi bu nedenle, n(365)’in belirlenmesine karşılık gelir. n(d)’nin ilk 99 değeri burada verilmiştir (OEIS'de A033810 dizisi):

d 1–2 3–5 6–9 10–16 17–23 24–32 33–42 43–54 55–68 69–82 83–99
n(d) 2 3 4 5 6 7 8 9 10 11 12

Benzer bir hesaplama, d 341-372 aralığında olduğunda n(d)=23 olduğunu gösterir

n(d) için bir dizi sınır ve formül yayınlanmıştır.[8] Tüm d ≥ 1 için n(d) sayısı aşağıdaki eşitsizliği sağlar[9]:

Bu limitler, n(d) − 2d ln 2 dizisinin aşağıdaki sayıya rastgele yakınlaşması açısından uygundur;

aslında,

d = 43 alındığında maksimumdadır.

Limitler, tüm olayların %99’unda n(d)’nin tam değerini verecek kadar sıkıdır, örneğin n(365) = 23. Genel olarak, bu sınırlardan n(d)’nin daima

‘e eşit olduğu görülür; ⌈ · ⌉ tavan fonksiyonunu ifade eder. Formül

tüm tamsayı d’lerin %73’ü için geçerlidir.[10] Formül

neredeyse tüm d ’ler için, yani asimptotik yoğunluğu 1 olan tam sayı d kümesi için, geçerlidir.

Formül

d1018 için geçerlidir, ancak bu formüle sonsuz sayıda karşı örnek olduğu tahmin edilir.[11]

Formül

d1018 için geçerlidir ve bu formülün tüm d değerleri için geçerli olduğu tahmin edilir.

2 kişiden fazla[değiştir | kaynağı değiştir]

Problem, gruptan en az 3/4/5 vb. kişinin aynı doğum gününü paylaşma olasılığının %50’den fazla olması için kaç kişilik bir grubun gerektiğini sormak için genişletilebilir.

İlk birkaç değer şöyledir: 3 kişinin bir doğum günü paylaşma olasılığı>50% - 88 kişi; 4 kişinin bir doğum günü paylaşma olasılığı>50% - 187 kişi. Tüm liste Tam sayı Dizilerinin Çevrimiçi Ansiklopedisi’nin A014088 dizisinde bulunabilir.[12]

Bir çarpışma problemi olarak tahmin[değiştir | kaynağı değiştir]

Doğum günü problemi aşağıdaki şekilde genelleştirilebilir:

[1,d] aralığındaki ayrı bir muntazam dağılımdan alınan n rastgele tam sayı verildiğinde, en az iki sayının aynı olma olasılığı, p(n; d) nedir? ( d = 365 olağan doğum günü problemini verir. ) [13]

Genel sonuçlar yukarıda verilen aynı argümanlar kullanılarak türetilebilir.

Diğer taraftan, eğer n(p; d) en az iki sayının aynı olma olasılığını elde etmek için [1,d]’den alınan rastgele tamsayıların sayısını belirtirse,

Daha genel anlamdaki bu doğum günü problemi özet fonksiyonları için geçerlidir: çarpışma almadan önce oluşturulabilecek N - Bit özet sayısı 2N değil, sadece 2N2'dir. Bu, kriptografik karma işlevlerine yapılan doğum günü saldırıları tarafından istismar edilir ve doğum günü saldırıları az sayıda çarpışmanın, tüm pratik amaçlar için, kaçınılmaz olmasının nedenidir.

Doğum günü probleminin arkasında yatan teori Zoe Schnabel [14] yakala-yeniden yakala istatistikleri adı altında, göllerdeki balık popülasyonunun büyüklüğünü tahmin etmek için kullanılmıştır.

Çoklu tip için genelleştirme[değiştir | kaynağı değiştir]

En az bir erkek ve bir kadın arasındaki en az bir ortak doğum günü olasılığının grafiği

Temel problem, tüm denemelerin tek bir “tip” olduğunu kabul eder. Doğum günü problemi, rastgele tip sayısını hesaba katmak için genelleştirilebilir.[15] En basit kapsamda, m erkek ve n kadın olmak üzere iki tip insan vardır ve problem, en az bir erkek ve bir kadın arasındaki ortak doğum günü olasılığını simgeler. (İki erkek veya iki kadın arasındaki ortak doğum günleri sayılmaz.) Burada paylaşılan doğum günlerinin olmama olasılığı

d = 365 ve S2 ikinci dereceden Stirling sayılarıdır. Dolayısıyla, istenen olasılık 1 − p0’dır.

Doğum günü probleminin bu değişimi ilginçtir çünkü toplam insan sayısı m + n için tek özgün çözüm yoktur. Örneğin, olağan %50 olasılık değeri, hem 16 erkek ve 16 kadından oluşan 32 üyeli grup için hem de 43 kadın ve 6 erkekten oluşan 49 üyeli grup için gerçekleştirilir.

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Mario Cortina Borja; John Haigh (Eylül 2007). "The Birthday Problem". Significance. 4 (3). Royal Statistical Society. ss. 124-127. doi:10.1111/j.1740-9713.2007.00246.x. 
  2. ^ a b Frank, P.; Goldstein, S.; Kac, M.; Prager, W.; Szegö, G.; Birkhoff, G., (Edl.) (1964). Selected Papers of Richard von Mises. 2. Providence, Rhode Island: Amer. Math. Soc. ss. 313-334. 
  3. ^ a b Kaynak hatası: Geçersiz <ref> etiketi; Borja isimli refler için metin temin edilmemiş (Bkz: Kaynak gösterme)
  4. ^ J. Michael Steele (2004). The Cauchy‑Schwarz Master Class (İngilizce). Cambridge: Cambridge University Press. ss. 206, 277. ISBN 9780521546775. 
  5. ^ Mathis, Frank H. (Haziran 1991). "A Generalized Birthday Problem". SIAM Review. 33 (2). ss. 265-270. doi:10.1137/1033051. ISSN 0036-1445. JSTOR 2031144. OCLC 37699182. 
  6. ^ Jim Gray, Catharine van Ingen. Empirical Measurements of Disk Failure Rates and Error Rates
  7. ^ In his autobiography, Halmos criticized the form in which the birthday paradox is often presented, in terms of numerical computation. He believed that it should be used as an example in the use of more abstract mathematical concepts. He wrote:

    The reasoning is based on important tools that all students of mathematics should have ready access to. The birthday problem used to be a splendid illustration of the advantages of pure thought over mechanical manipulation; the inequalities can be obtained in a minute or two, whereas the multiplications would take much longer, and be much more subject to error, whether the instrument is a pencil or an old-fashioned desk computer. What calculators do not yield is understanding, or mathematical facility, or a solid basis for more advanced, generalized theories.

  8. ^ {{{Kaynakça}}}
  9. ^ Şablon:Harvard citations
  10. ^ Şablon:Harvard citations
  11. ^ Şablon:Harvard citations
  12. ^ "Minimal number of people to give a 50% probability of having at least n coincident birthdays in one year". The On-line Encyclopedia of Integer Sequences. OEIS. 1 Eylül 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Şubat 2020. 
  13. ^ Suzuki, K.; Tonien, D. (2006). "Birthday Paradox for Multi-collisions". Rhee M.S., Lee B. (Ed.). Lecture Notes in Computer Science, vol 4296. Berlin: Springer. doi:10.1007/11927587_5. Information Security and Cryptology – ICISC 2006. 
  14. ^ Z. E. Schnabel (1938) The Estimation of the Total Fish Population of a Lake, American Mathematical Monthly 45, 348–352.
  15. ^ M. C. Wendl (2003) Collision Probability Between Sets of Random Variables, Statistics and Probability Letters 64(3), 249–254.

Kaynakça[değiştir | kaynağı değiştir]


Kaynak hatası: <ref> "nb" adında grup ana etiketi bulunuyor, ancak <references group="nb"/> etiketinin karşılığı bulunamadı. (Bkz: Kaynak gösterme)