Nöral makine çevirisi

Vikipedi, özgür ansiklopedi

Nöral makine çevirisi (NMT), bir sözcük dizilim olasılığını tahmin etmek için yapay bir sinir ağı kullanan ve genellikle cümlenin tümünü tek bir entegre modelde modelleyen bir makine çevirisi yaklaşımıdır.

Özellikler[değiştir | kaynağı değiştir]

Geleneksel istatistiksel makine çevirisi (SMT) modellerinin ihtiyaç duyduğu belleğin yalnızca bir kısmını gerektirirler. Ayrıca, geleneksel çeviri sistemlerinden farklı olarak, sinirsel çeviri modelinin tüm parçaları, çeviri performansını en üst düzeye çıkarmak için birlikte (uçtan uca) eğitilirler.

Tarih[değiştir | kaynağı değiştir]

Derin öğrenme uygulamaları ilk olarak konuşma tanımada 1990'larda ortaya çıktı. Makine çevirisinde sinir ağlarının kullanımına ilişkin ilk bilimsel makale, Bahdanau vd ile Sutskever ve diğerlerinin uçtan uca sinir ağı çeviri modelleri önerdiği ve "sinirsel makine çevirisi" terimini kullandığı 2014 yılında ortaya çıkmıştır.[R 1][R 2] İlk büyük ölçekli NMT sistemi, 2015 yılında Baidu tarafından piyasaya sürüldü. Ertesi yıl Google da bir NMT sistemi başlattı.[1] Bunu takip eden birkaç yılda birçok gelişme izledi. (Geniş kelime dağarcığı olan NMT, Resim yazısı uygulaması, Alt Kelime-NMT, Çok Dilli NMT, Çok Kaynaklı NMT....) 2015 yılında halka açık bir makine çevirisi yarışmasında (OpenMT'15) ilk kez bir NMT sistemi ortaya çıktı. WMT'15 ayrıca ilk kez bir NMT yarışmacısına sahipti; zaten ertesi yıl kazananların % 90'ı NMT sistemlerine sahipti.

Avrupa Patent Ofisi, 2017'den beri küresel patent sistemindeki bilgileri anında erişilebilir kılmak için nöral makine çevirisi kullanmaktadır. Google ile ortaklaşa geliştirilen sistem 31 dil ile eşleştirilmiş ve 2018 yılı itibarıyla dokuz milyonun üzerinde dokümanı çevirmiştir.

Çalışmalar[değiştir | kaynağı değiştir]

NMT, ayrı tasarlanmış alt bileşenler kullanan "ifade tabanlı" istatistiksel yaklaşımlardan ayrılır. Nöral makine çevirisi, geleneksel olarak yapılan (SMT) ötesinde ciddi bir adım değildir. Ana çıkış noktası, kelimeler ve iç durumlar için vektör temsillerinin ("gömmeler", "sürekli uzay temsilleri") kullanılmasıdır. Modellerin yapısı cümle tabanlı modellere göre daha basittir. Ayrı bir dil modeli, çeviri modeli ve yeniden sıralama modeli yoktur, yalnızca her seferinde bir kelimeyi tahmin eden tek bir dizilim modeli vardır. Bununla birlikte, dizilim tahmini, kaynak cümle ve üretilmiş hedef dizinin tamamına bağlıdır. NMT modelleri derin ve temsili öğrenmeyi kullanır.

Başta, dizilim modellemesi tipik olarak tekrarlayan bir sinir ağı (RNN) kullanılarak yapıldı. Kodlayıcı olarak bilinen çift yönlü yinelenen sinir ağı, sinir ağı tarafından hedef dildeki kelimeleri tahmin etmek için kullanılan kod çözücü olarak bilinen ikinci bir RNN için, kaynak cümleyi kodlamak üzere kullanılır. Tekrarlayan sinir ağları, uzun girdileri tek bir vektöre kodlamada zorluklarla karşılaşır. Bu, dekoderin çıktının her kelimesini üretirken girdinin farklı bölümlerine odaklanmasını sağlayan bir dikkat mekanizması ile telafi edilebilir. Aşırı veya eksik çeviriye yol açan geçmiş hizalama bilgilerinin göz ardı edilmesi gibi, bu tür dikkat mekanizmalarındaki sorunları ele alan başka Kapsama Modelleri de vardır.[2]

Konvolüsyonel Sinir Ağları (Convnet's) prensipte uzun dizilimler için biraz daha iyiydi, ancak birkaç zayıflık nedeniyle başta kullanılmamıştır. Bu zayıflıklar 2017 yılında "dikkat mekanizmaları" kullanılarak başarıyla telafi edildi.

"Dikkat tabanlı" bir model olan Transformer, birkaç dil çifti için baskın mimari olmaya devam ediyor.[3] Transformer modelinin öz-dikkat katmanları, eşleştirilmiş dizilerdeki sözcükler arasındaki tüm bağlantıları inceleyerek ve bu ilişkileri doğrudan modelleyerek bir dizideki sözcükler arasındaki bağımlılıkları öğrenir. RNN'lerin kullandığı geçiş mekanizmasından daha basit bir yaklaşım. Sadeliği, araştırmacıların düşük kaynak ayarlarında bile Transformer modeliyle yüksek kaliteli çeviri modelleri geliştirmelerini sağladı.

Uygulamalar[değiştir | kaynağı değiştir]

NMT için bir uygulama, eğitim için yalnızca az miktarda veri ve örnek bulunan Akadca, onun lehçeleri, Babilce ve Asurca gibi eski dillerdir.[4]

Notlar[değiştir | kaynağı değiştir]

  1. ^ Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
  2. ^ Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
  2. ^ Tu. "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 $2. 
  3. ^ Barrault (Ağustos 2019). "Findings of the 2019 Conference on Machine Translation (WMT19)". Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1-61. doi:10.18653/v1/W19-5301. Erişim tarihi: 2 Ağustos 2023. 
  4. ^ Gutherz, Gai; Gordin, Shai (2 Mayıs 2023). "Translating Akkadian to English with neural machine translation". PNAS Nexus (İngilizce). 2 (5). doi:10.1093/pnasnexus/pgad096. ISSN 2752-6542. PMC 10153418 $2. PMID 37143863. 27 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2023.