Geniş dil modeli

Vikipedi, özgür ansiklopedi

Geniş dil modeli - GDM (Large Language Model - LLM), genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir dil modeli türüdür. GDM'ler bu yetenekleri, eğitilmeleri sırasında milyarlarca parametreyi öğrenebilmek amacıyla niceliksel olarak çok fazla veri kullanarak kazanırlar. Bu sırada da, aşırı büyük boyutta hesaplama kaynakları tüketirler.[1] GDM'ler, gelişmiş olarak yapay sinir ağlarıdır (temel olarak dönüştürücüler[2] ) ve özgözetimli öğrenme ya da yarı gözetimli öğrenme yöntemleri kullanılarak (önceden) eğitilirler.

GDM'ler özbağlanımlı dil modelleri olarak, bir giriş metnini alıp bir sonraki belirteci ya da sözcüğü kezlerce tahmin ederek çalışırlar.[3] 2020 yılına dek, bir modelin belirli görevleri yerine getirebilecek şekilde uyarlanmasının tek yolu ince ayar yapmaktı. Ancak günümümzde popüler olan GPT-3 gibi daha büyük boyutlu modeller, benzer sonuçlara ulaşmak için sufle mühendisliğini kullanabilecek biçimde tasarlanmaya başladı.[4] GDM'lerin, insan dili derleminde var olan sözdizimi, anlambilim ve "ontoloji" hakkında somutlaşmış bilgi edinebilmenin yanı sıra, aynı zamanda bütüncede bulunan yanlışlıkları ve önyargıları da edindikleri düşünülmektedir.[5]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ "Better Language Models and Their Implications". OpenAI. 14 Şubat 2019. 19 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023. 
  2. ^ Merritt, Rick (25 Mart 2022). "What Is a Transformer Model?". NVIDIA Blog (İngilizce). 23 Ekim 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023. 
  3. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
  4. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal (Aralık 2020). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877-1901. 25 Mayıs 2023 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 29 Ekim 2023. 
  5. ^ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127-138. doi:10.1162/daed_a_01905. 9 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.