Büyük dil modeli
Makine öğrenmesi ve veri madenciliği |
---|
![]() |
Geniş dil modeli (GDM) (İngilizce: Large Language Model - LLM), genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir yapay zeka dil modelidir. GDM'ler bu yetenekleri, eğitimleri sırasında milyarlarca parametreyi öğrenebilmek için niceliksel olarak çok büyük miktarda veri kullanarak kazanır. Bu süreçte, aşırı derecede büyük hesaplama kaynakları tüketirler.[1] GDM'ler, gelişmiş yapay sinir ağlarıdır (temelde dönüştürücüler[2] ) ve özdenetimli öğrenme veya yarı denetimli öğrenme yöntemleri kullanılarak eğitilirler.
GDM'ler özbağlanımlı dil modelleri olarak, bir giriş metnini alıp bir sonraki belirteci veya sözcüğü tekrar tekrar tahmin ederek çalışır.[3] 2020 yılına kadar, bir modelin belirli görevleri gerçekleştirebilmesi için uyarlanmasının tek yolu ince ayardı. Ancak günümümüzde GPT-3 gibi popüler olan daha büyük ölçekli modeller, benzer sonuçlar elde etmek için sufle mühendisliğini kullanacak şekilde tasarlanmaya başlandı.[4] GDM'lerin, insan dili derleminde bulunan sözdizimi, anlambilim ve ontoloji hakkında somut bilgi edinebilmenin yanı sıra, aynı zamanda derlemde yer alan hataları ve önyargıları da öğrendikleri düşünülmektedir.[5]
Kaynakça
[değiştir | kaynağı değiştir]- ^ "Better Language Models and Their Implications". OpenAI. 14 Şubat 2019. 19 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.
- ^ Merritt, Rick (25 Mart 2022). "What Is a Transformer Model?". NVIDIA Blog (İngilizce). 23 Ekim 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.
- ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
- ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal (Aralık 2020). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877-1901. 25 Mayıs 2023 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 29 Ekim 2023.
- ^ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127-138. doi:10.1162/daed_a_01905. 9 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.