İstatistiksel makine çevirisi

İstatistiksel makine çevirisi, iki dilli metin derlemlerinin incelenmesinden elde edilen parametrelerin kullanıldığı istatistiksel modelleri içeren bir makine çevirisi yaklaşımıdır. İstatiksel çeviri yöntemi, makine çevirisi disiplini içerisinde kural tabanlı makine çevirisi ve örnek tabanlı makine çevirisi yaklaşımlarına göre farklılık gösterir.

İstatistiksel makine cevirisi yaklaşımına ilişkin ilk düşünceler Warren Weaver tarafından 1949 yılında ortaya atılmıştır.^[1] Bu düşünce, Claude Shannon'ın bilgi kuramına dayanmaktaydı. Uzun bir aradan sonra bu yöntem IBM araştırma laboratuvarlarında Thomas J. Watson Araştırma merkezinde 1991 yılında tekrar gündeme gelmiştir. Son yıllarda bu makine çevirisi yöntemine olan ilgi hızla artmıştır ve en fazla uygulanan yöntemlerden birisi haline gelmiştir.

Temelleri

İstatistiksel makine çevirisi yaklaşımının arka planındaki düşünce bilgi teorisine dayanır. Buna göre bir belgenin çevirisi, kaynak dildeki bir metnin (örnekte $f$ ile gösterilen Fransızca) hedef dildeki metne (örnekte $e$ ile gösterilen İngilizce) $p(e|f)$ ile ifade edilen bir olasılık dağılımı altında karşılık gelen şeklidir.

$p(e|f)$ ile ifade edilen olasılık dağılımını modellemek birkaç şekilde mümkündür. Öne çıkan yöntemlerden birisi Bayes teoremini uygulayarak problemi iki parçaya bölmektir. Çeviri problemi $p(e|f)\propto p(f|e)p(e)$ şeklinde modellendiğinde $p(f|e)$ ifadesi, kaynak dildeki metin dizisinin hedef dildeki dizinin çevirisi olma olasılığını ifade eder ve çeviri modeli olarak adlandırılır. $p(e)$ ifadesi ise çevirisi yapılan bu metnin hedef dilde karşılaşılabilen bir metin olma olasılığını ifade eder. Bu model ise dil modeli olarak adlandırılır. ${\tilde {e}}$ ile ifade edilen en iyi çeviriyi bulma problemi, en yüksek koşullu olasılığı veren şu metin dizisini seçmekle çözülür: ${\tilde {e}}=arg\max _{e\in e^{*}}p(e|f)=arg\max _{e\in e^{*}}p(f|e)p(e)$ .

Kısacası bir metnin hedef dildeki karşılığını bulma probleminin cevabı, iki ayrı modelin koşullu olasılığı alınarak en doğru biçimde elde edilmeye çalışılır.

Böyle bir modellemeyi güçlü şekilde uygulayabilmek için hedef dildeki bütün metin dizilerini $e^{*}$ arama sürecinden geçilmesi gerekir. Bu arama işini etkin şekilde halletmek için yabancı dildeki metni inceleyen ve üzerinde arama yapılan uzayı daraltan optimizasyon metotları kullanılır. Ne var ki bu türden optimizasyon yöntemleriyle arama süresinden kazanç sağlanırken doğru çevirinin bulunması ihtimalinde azalma da meydana gelebilir. Bu tür bir ödünleşme, yani kalite ve hız arasında seçim yapma durumu konuşma tanıma uygulamalarındaki ile benzerdir.

Çeviri sistemleri bütün metinleri ve çevirilerini saklayamayacağı için çeviri cümle bazında yapılır fakat bu bile tek başına yeterli olmaz. Dil modelleri elde edilirken n gram modelleri kullanılarak kelime dizilerinin birbiri ardına gelme sıklığını gösteren tablolar oluşturulur. Çözücü program dil modelinin parametrelerini bu tablolardan elde eder.

İstatistiksel Çeviri Modelleri başlangıçta yalnızca kelime analizine dayalı modellerdi. IBM modelleri 1-5^[2] ve Franz-Joseph Och'un 6. modeli^[3] bu çerçevededir. Deyim tabanlı çeviri modellerinin geliştirilmesiyle çeviri modellerinin kapasitesi yönünde büyük bir gelişme sağlanmıştır.^[4] Bu sayede çeviri birimlerinin yalnızca kelimelerden değil, biribiri ardına gelen kelime dizilerinden de meydana gelebileceği varsayımı altında daha gerçekçi modelleme yapılabilme imkânı doğmuştur. Son yıllarda ise cümlelerin kelime veya kelime grupları yerine bir ağacın dalları gibi tek bir yerden ayrışan yapılar şeklinde kurulduğunu varsayan ve iç içe geçmiş kelime gruplarının da olabileceğini varsayan modeller geliştirilmeye başlanmıştır.^[5]

Dış bağlantılar

Statmt.org - İstatistiksel makine çevirisi ile ilgili araştırmalar 15 Ağustos 2021 tarihinde Wayback Machine sitesinde arşivlendi.

Kaynakça

^ W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.
^ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
^ F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51
^ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
^ D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).

[1] W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.

[2] S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.

[H._Ney._2003-3] F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51

[4] P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).

[5] D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).

[1]

[2]

[3]

[4]

[5]