Bayesci istatistik

Vikipedi, özgür ansiklopedi

Bayesci istatistik, Bayesyen istatistik veya Bayesgil istatistik[1], olasılığın bir olaya olan inancın bir derecesini ifade ettiği Bayesci olasılık yorumuna dayanan istatistik alanındaki bir teoridir. İnanç derecesi, önceki deneylerin sonuçları gibi olay hakkında önceki bilgilere veya olayla ilgili kişisel inançlara dayanabilir. Bu, olasılığı birçok denemeden sonra bir olayın göreceli sıklığının sınırı olarak gören sıklıkçı olasılık yorumlaması gibi bir dizi başka olasılık yorumundan farklıdır.[2]

Bayes istatistiksel yöntemleri, yeni veriler elde ettikten sonra olasılıkları hesaplamak ve güncellemek için Bayes teoremini kullanır. Bayes teoremi, verilere ve olayla veya koşullarla ilgili önceki bilgilere veya inançlara dayalı olarak bir olayın koşullu olasılığını tanımlar.[3][4] Örneğin, Bayes çıkarımında Bayes teoremi, bir olasılık dağılımı veya istatistiksel modelin parametrelerini tahmin etmek için kullanılabilir. Bayes istatistikleri, olasılığı bir inanç derecesi olarak ele aldığından, Bayes teoremi, inanca dair olasılık dağılımını bir parametreye veya parametre setine doğrudan atayabilir.[2]

Bayesci istatistik, Thomas Bayes'in 1763'te yayınlanan ve belirli bir Bayes teoremi vakasını formüle ettiği An Essay towards solving a Problem in the Doctrine of Chances adlı makalesinden sonra kendisinin adıyla anılmaya başlamıştır. Pierre-Simon Laplace, 18. yüzyılın sonlarından 19. yüzyılın başlarına kadar kaleme aldığı birkaç makalede Bayesci olasılık yorumunu geliştirdi.[5] Laplace, bir dizi istatistiksel problemi çözmek için artık Bayes olarak kabul edilecek yöntemleri kullandı. Birçok Bayes yöntemi daha sonraki yazarlar tarafından geliştirildi, ancak terim bu tür yöntemleri tanımlamak için 1950'lere kadar yaygın olarak kullanılmadı. 20. yüzyılın büyük bir bölümünde, Bayesci yöntemler felsefi ve pratik hususlar nedeniyle birçok istatistikçi tarafından olumsuz olarak değerlendiriliyordu. Birçok Bayes yönteminin tamamlanması için çok fazla hesaplama gerekiyordu ve yüzyıl boyunca yaygın olarak kullanılan yöntemlerin çoğu, sıklık yorumuna dayanıyordu. Bununla birlikte 21. yüzyılda, güçlü bilgisayarların ve Markov zincirli Monte Carlo gibi yeni algoritmaların ortaya çıkmasıyla, Bayesçi yöntemlerin istatistiklerde kullanımının arttığını gördü.[2][6]

Bayesci istatistiğin klasik istatistikten temel farkı şudur: Bayesci istatistikte araştırma verilerinin dışında dışşal bilgilerden de yararlanılır. Salt verilerden değil, uzman görüşlerinden veya geçmiş örneklemlerin sonuçları da ölçüm yapılan örneklem verilerine dahil edilir. Uzman görüşlerine ve geçmiş çalışmalardan alınan örneklemlerdeki bilgilere, önsel bilgi (prior) denir. Bayesci istatistiğin temeli önsel bilgiye dayanmaktadır. Ölçülecek örneklemden elde edilen bilgiler ise olabilirlik (likelihood) olarak tanımlanır.[1] Önsel olasılık, Bayesci istatistikte gözlemlere başvurmadan önce değerlendirilen ve öznel de olabilen olasılık olarak değerlendirilir ve tecrübeye dayalı olasılık olarak da tanımlanır.[7]

Bayes teoremi[değiştir | kaynağı değiştir]

Bayes teoremi, yeni veriler elde edildikten sonra inanç derecesi olasılıklarını güncellemek için Bayesci yöntemlerden yararlanır ve Bayesci istatistiğin temel bir teoremidir. ve olayları verildiğinde, 'nın koşullu olasılığı, verilen 'nin doğruluğunu şu şekilde sağladığı ifade edilir:[8]

kanıtının olasılığı toplam olasılık yasası kullanılarak hesaplanabilir. Eğer deneme sonuçlarından oluşan örnek uzayın bir veri kümesi ise denklem şu şekilde kurulur:[2][8]

Bayes yöntemlerinin ana hatları[değiştir | kaynağı değiştir]

Genel istatistiksel teknikler kümesi, çoğu özel Bayes versiyonlarına sahip olan aşağıdaki gibi bir dizi çalışmaya ayrılabilir.

Bayesci çıkarım[değiştir | kaynağı değiştir]

Bayesci çıkarım, çıkarımlardaki belirsizliğin olasılık kullanılarak ölçüldüğü çıkarımsal istatistiği ifade eder. Klasik sıklıkçı çıkarımda model parametreleri ve hipotezler sabit kabul edilir. Sıklıklı çıkarımda olasılıklar parametrelere veya hipotezlere atanmaz. Örneğin, sıkça yapılan çıkarımda, bir sonraki doğru yazı turanın sonucu gibi, yalnızca bir kez gerçekleşebilecek bir olaya doğrudan bir olasılık atamak bir anlam ifade etmeyecektir. Bununla birlikte, yazı tura sayısı arttıkça her birinin oranının yarıya yaklaştığını söylemek mantıklı olacaktır.[9]

İstatistiksel modeller, örnek verilerin nasıl üretildiğini temsil eden bir dizi istatistiksel varsayım ve işlemi belirtir. İstatistiksel modellerin değiştirilebilen bir dizi parametresi vardır. Örneğin, bir madeni para, iki olası sonucu modelleyen bir Bernoulli dağılımından örnekler olarak temsil edilebilir. Bernoulli dağılımının, tek bir sonucun olasılığına karşılık gelen tek bir parametresi vardır, bu da yüzlerden birinin üzerine düşme olasılığıdır. Veriler için iyi bir model tasarlamak Bayesci çıkarımın merkezinde yer alır. Çoğu durumda, modeller yalnızca gerçek süreci tahmin eder ve verileri etkileyen belirli faktörleri hesaba katmayabilir.[2] Bayesci çıkarımda, olasılıklar model parametrelerine atanabilir. Parametreler rassal değişkenler olarak gösterilebilirler. Bayesci çıkarım, daha fazla kanıt elde edildikten veya öğrenildikten sonra olasılıkları güncellemek için yine Bayes teoremini kullanır.[10]

İstatistiksel modelleme[değiştir | kaynağı değiştir]

Bayes istatistiklerini kullanan istatistiksel modellerin formülasyonu, bilinmeyen parametreler için önceki dağılımların belirtilmesini gerektirmek gibi tanımlama özelliğine sahiptir. Aslında, önceki dağılımların parametreleri, Bayes hiyerarşik modellemesine yol açan öncül dağılımlara sahip olabilir[11] veya Bayes ağlarına yol açacak şekilde birbiriyle ilişkili olabilir.

Bayes modellerinin keşif analizi[değiştir | kaynağı değiştir]

Bayes modellerinin veri keşif analizi, keşifsel veri analizi yaklaşımının Bayes modellemenin ihtiyaçlarına ve özelliklerine bir uyarlaması veya uzantısıdır. Persi Diaconis'in sözleriyle:[12]

« Veri keşif analizi, verilerdeki yapıyı veya basit açıklamaları ortaya çıkarmaya çalışır. Sayılara veya grafiklere bakar ve kalıplar bulmaya çalışırız. Arka plan bilgileri, hayal gücü, algılanan kalıplar ve diğer veri analizleriyle ilgili deneyimler tarafından önerilen ipuçlarını takip ederiz.  »

Bayesci çıkarım süreci, Bayes istatistiklerinde merkezi bir role sahip olan bir ardıl dağılım (sonsal bilgi) üretir ve bunun yanında, ardılı öngörülebilir dağılım ve öncül tahmini dağılım gibi diğer dağılımlar da vardır. Bu dağılımların doğru görselleştirilmesi, analizi ve yorumlanması, çıkarım sürecini belirleyen soruları doğru şekilde cevaplamanın anahtarıdır.[13]

Tüm bu görevler, Bayes modellerinin keşif analizi yaklaşımının bir parçasıdır ve bunları başarılı bir şekilde gerçekleştirmek, yinelemeli ve etkileşimli modelleme sürecinin merkezinde yer alır. Bu görevler hem sayısal hem de görsel özetler gerektirir.[14][15][16]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ a b "Bayesci İstatistik ve Klasik İstatistik". İstatistik Merkezi. 18 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Ocak 2021. 
  2. ^ a b c d e Bayesian Data Analysis (İngilizce) (Third Edition bas.). Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5. 
  3. ^ Statistical Rethinking, First Edition (İngilizce). Chapman and Hall/CRC. 2015. ISBN 978-1-4822-5344-3. 
  4. ^ Doing Bayesian Data Analysis, Second Edition (İngilizce). Academic Press. 2014. ISBN 978-0-1240-5888-0. 
  5. ^ The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy, First Edition (İngilizce). Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6. 
  6. ^ Fienberg (2006). "When Did Bayesian Inference Become "Bayesian"?". Bayesian Analysis (İngilizce). 1 (1): 1-40. doi:10.1214/06-BA101. 
  7. ^ "Önsel olasılık". Ansiklodedi.com. 2018. Erişim tarihi: 3 Ocak 2021. 
  8. ^ a b Introduction to probability. 2. (İngilizce). Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9. 
  9. ^ Bayesian and frequentist regression methods (İngilizce). New York, NY: Springer. 2013. ISBN 978-1-4419-0924-4. 
  10. ^ Applied Bayesian modelling. 2 (İngilizce). Wiley. 2014. ISBN 978-1-119-95151-3. 
  11. ^ Hajiramezanali, E.; Dadaneh, S. Z.; Karbalayghareh, A.; Zhou, Z.; Qian, X. (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. Conference on Neural Information Processing Systems (NIPS) (İngilizce) (32nd bas.). Montreal, Kanada.  arXiv:1810.09433
  12. ^ Diaconis, Persi (2011). "Theories of Data Analysis: From Magical Thinking Through Classical Statistics" (İngilizce) (2:e55). John Wiley & Sons Ltd. doi:10.1002/9781118150702.ch1. 
  13. ^ Kumar (2019). "ArviZ a unified library for exploratory analysis of Bayesian models in Python". Journal of Open Source Software (İngilizce). 4 (33): 1143. doi:10.21105/joss.01143. 
  14. ^ Gabry (2019). "Visualization in Bayesian workflow". Journal of the Royal Statistical Society: Series A (Statistics in Society) (İngilizce). 182 (2): 389-402. doi:10.1111/rssa.12378. 
  15. ^ Vehtari (2019). "Rank-normalization, folding, and localization: An improved $\widehat{R}$ for assessing convergence of MCMC" (İngilizce). 
  16. ^ Bayesian Analysis with Python: Introduction to statistical modeling and probabilistic programming using PyMC3 and ArviZ (İngilizce). Packt Publishing Ltd. 2018. ISBN 978-1-789-34165-2. 30 Eylül 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Ocak 2021. 

Konuyla ilgili eserler[değiştir | kaynağı değiştir]

Ayrıca bakınız[değiştir | kaynağı değiştir]