Sufle mühendisliği

Vikipedi, özgür ansiklopedi

Sufle mühendisliği; yapay zekada, özellikle de doğal dil işlemede kullanılan bir kavramdır. Sufle mühendisliğinde görevin tanımı, girdiye gömülüdür. Sufle mühendisliği tipik olarak bir veya daha çok görevi sufle tabanlı bir veri kümesine dönüştürerek ve "sufle tabanlı öğrenme" veya sadece "sufle öğrenme" olarak adlandırılan yöntemle bir dil modelini eğiterek çalışır.[1][2] Sufle mühendisliği, "önek-ayarlama" veya "sufle ayarlama" olarak adlandırılan yöntemle yalnızca sufle temsilinin öğrenildiği büyük bir "dondurulmuş" ön eğitimli dil modelinden çalışabilir.[3][4]

GPT-2 ve GPT-3 dil modelleri,[5] sufle mühendisliğinde önemli adımlar olmuştur. 2021'de, birden çok DDİ veri kümesi kullanan çok görevli sufle mühendisliği, yeni görevlerde iyi performans göstermiştir.[6] Düşünce dizisi içeren sufleler, dil modellerinde akıl yürütmenin göstergesidir.[7] Sufleye "adım adım düşünelim" ifadesini eklemek çok adımlı akıl yürütme problemleriyle ilgili bir dil modelinin performansını artırabilir.[8]

2022 yılında, hem DALL-E hem de Stable Diffusion makine öğrenimi modelleri son kullanıcılara metinsel sufleleri kullanarak görüntü oluşturma olanağı sağlamıştır.[9]

Ayrıca bakınız[değiştir | kaynağı değiştir]

Kaynaklar[değiştir | kaynağı değiştir]

 

  1. ^ Alec Radford; Jeffrey Wu; Rewon Child; David Luan; Dario Amodei; Ilya Sutskever (2019), Language Models are Unsupervised Multitask Learners Wikidata Q95726769
  2. ^ Pengfei Liu; Weizhe Yuan; Jinlan Fu; Zhengbao Jiang; Hiroaki Hayashi; Graham Neubig (28 Temmuz 2021), Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing, arXiv:2107.13586 $2 Wikidata Q109286554
  3. ^ Xiang Lisa Li; Percy Liang (Ağustos 2021), "Prefix-Tuning: Optimizing Continuous Prompts for Generation", Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), doi:10.18653/V1/2021.ACL-LONG.353 Wikidata Q110887424
  4. ^ Brian Lester; Rami Al-Rfou; Noah Constant (Kasım 2021), "The Power of Scale for Parameter-Efficient Prompt Tuning", Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, arXiv:2104.08691 $2, doi:10.18653/V1/2021.EMNLP-MAIN.243 Wikidata Q110887400
  5. ^ Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared D Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ari Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel Ziegler; Jeffrey Wu; Clemens Winter; Chris Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei (28 Mayıs 2020), "Language Models are Few-Shot Learners", arXiv, Advances in Neural Information Processing Systems 33, arXiv:2005.14165 $2, doi:10.48550/ARXIV.2005.14165 Wikidata Q95727440
  6. ^ Victor Sanh; Albert Webson; Colin Raffel; Stephen H. Bach; Lintang Sutawika; Zaid Alyafeai; Antoine Chaffin; Arnaud Stiegler; Teven Le Scao; Arun Raja; Manan Dey; M Saiful Bari; Canwen Xu; Urmish Thakker; Shanya Sharma Sharma; Eliza Szczechla; Taewoon Kim; Gunjan Chhablani; Nihal Nayak; Debajyoti Datta; Jonathan Chang; Mike Tian-Jian Jiang; Han Wang; Matteo Manica; Sheng Shen; Zheng Xin Yong; Harshit Pandey; Rachel Bawden; Thomas Wang; Trishala Neeraj; Jos Rozen; Abheesht Sharma; Andrea Santilli; Thibault Fevry; Jason Alan Fries; Ryan Teehan; Stella Biderman; Leo Gao; Tali Bers; Thomas Wolf; Alexander M. Rush (15 Ekim 2021), Multitask Prompted Training Enables Zero-Shot Task Generalization, arXiv:2110.08207 $2 Wikidata Q108941092
  7. ^ Jason Wei; Xuezhi Wang; Dale Schuurmans; Maarten Bosma; Ed H. Chi; Quoc Viet Le; Dengyong Zhou (28 Ocak 2022), Chain of Thought Prompting Elicits Reasoning in Large Language Models, arXiv:2201.11903 $2, doi:10.48550/ARXIV.2201.11903 Wikidata Q111971110
  8. ^ Takeshi Kojima; Shixiang Shane Gu; Machel Reid; Yutaka Matsuo; Yusuke Iwasawa (24 Mayıs 2022), Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916 $2, doi:10.48550/ARXIV.2205.11916 Wikidata Q112124882
  9. ^ "Dall-E2 VS Stable Diffusion: Same Prompt, Different Results". MLearning.ai (İngilizce). 25 Ağustos 2022. 26 Ağustos 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Ağustos 2022.  Yazar |ad1= eksik |soyadı1= (yardım)