Böyük dil modeli (ing. Large language model; LLM) — ümumi məqsədli dil anlayışına və nəslinə nail olmaq qabiliyyəti ilə diqqət çəkən . LLM-lər bu bacarıqları hesablama yolu ilə intensiv öz-özünə və yarı nəzarətli təlim prosesi zamanı mətn sənədlərindən statistik əlaqələri öyrənməklə əldə edirlər. LLM-lər transformator arxitekturasını izləyən süni neyron şəbəkələrdir.
Onlar daxil edilmiş mətni götürərək və növbəti işarəni və ya sözü təkrar-təkrar proqnozlaşdırmaqla mətn yaratmaq üçün istifadə edilə bilər. 2020-ci ilə qədər dəqiq tənzimləmə modelin konkret tapşırıqları yerinə yetirmək üçün uyğunlaşdırılmasının yeganə yolu idi. Bununla belə, kimi daha böyük ölçülü modellər oxşar nəticələr əldə etmək üçün tez bir zamanda dizayn edilə bilər. Onların insan dilinin korporasiyasına xas olan sintaksis, semantika və "ontologiya" haqqında, eyni zamanda korpusda mövcud olan qeyri-dəqiqliklər və qərəzlər haqqında biliklər əldə etdikləri güman edilir.
Populyar nümunələrə OpenAI-nin modelləri (məsələn, ChatGPT-də istifadə edilən və GPT-4), Google-un PaLM (Bardda istifadə olunur) və Meta-nın , həmçinin , və (Anthropic-in Claude 2)-ni göstərmək olar.
Ehtimallı tokenləşdirmə
Bayt-cüt kodlaşdırmanın modifikasiyasından istifadə edərək, ilk addımda bütün unikal simvollar (boşluqlar və durğu işarələri daxil olmaqla) ilkin dəsti (yəni, uni-qramların ilkin dəsti) kimi qəbul edilir. Ən təkrar bitişik simvol cütü uğurla biqramda birləşdirilir və cütün bütün nümunələri onunla əvəz olunur. Təkrarən birlikdə baş verən (əvvəllər birləşdirilmiş) n-qramların bitişik cütlərinin bütün hadisələri, təyin olunmuş ölçüdə lüğət əldə olunana qədər təkrar-təkrar daha uzun n-qramlara birləşdirilir (GPT-3-də ölçü 50257-dir.). Token lüğəti sıfırdan token lüğətinin ölçüsünə qədər olan tam ədədlərdən ibarətdir. Yeni sözlər həmişə tokenlərin və ilkin təyin edilmiş uni-qramların birləşmələri kimi şərh edilə bilər.
Əsasən ingilis korpusundan çıxarılan tezliklərə əsaslanan token lüğəti orta ingilis sözü üçün mümkün qədər az tokendən istifadə edir. Belə bir ingiliscə optimallaşdırılmış tokenləşdirici tərəfindən kodlanmış başqa dildəki orta bir söz suboptimal tokenlərə bölünür.
tokenizer: texts -> series of numerical "tokens"
belə bölünə bilər:
n-qramlar: | token | izer | : | texts | -> | series | of | numerical | " | t | ok | ens | " |
rəqəmlər "token" kimi: | 30001 | 7509 | 25 | 13399 | 4613 | 2168 | 286 | 29052 | 366 | 83 | 482 | 641 | 1 |
Ehtimallı tokenləşdirmə də verilənlər bazalarını sıxışdırır, bu da bayt cütünün kodlaşdırma alqoritmini tokenləşdirici kimi istifadə etməyin səbəbidir. LLM-lər ümumiyyətlə daxil edilən mətnin "kələ-kötür" olmayan massiv olmasını tələb etdiyindən, daha qısa mətnlər ən uzununun uzunluğuna uyğun gələnə qədər "doldurulmalıdır". Bir söz üçün orta hesabla nə qədər token tələb olunduğu verilənlər toplusunun dilindən asılıdır.
İstinadlar
- "Better Language Models and Their Implications". OpenAI. 2019-02-14. 2020-12-19 tarixində . İstifadə tarixi: 2019-08-25.
- Merritt, Rick. "What Is a Transformer Model?". NVIDIA Blog (ingilis). 2022-03-25. 2023-11-17 tarixində . İstifadə tarixi: 2023-07-25.
- Bowman, Samuel R. "Eight Things to Know about Large Language Models". 2023. arXiv:2304.00612 [cs.CL].
- Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (redaktorlar ). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33. Dec 2020: 1877–1901. 2023-11-17 tarixində (PDF). İstifadə tarixi: 2024-01-12.
- "Human Language Understanding & Reasoning". Daedalus. 151 (2). 2022: 127–138. doi:10.1162/daed_a_01905. 2023-11-17 tarixində . İstifadə tarixi: 2024-01-12.
- "OpenAI API". platform.openai.com (ingilis). April 23, 2023 tarixində . İstifadə tarixi: 2023-04-30.
- Paaß, Gerhard; Giesselbach, Sven. Pre-trained Language Models // Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. 2022. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN . 3 August 2023 tarixində . İstifadə tarixi: 3 August 2023.
- Yennie Jun. "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. 2023-05-03. 2023-08-17 tarixində . İstifadə tarixi: 2023-08-17.
In other words, to express the same sentiment, some languages require up to 10 times more tokens.
- Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel. "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. June 23, 2023. arXiv:2305.15425. December 15, 2023 tarixində . İstifadə tarixi: January 12, 2024 – openreview.net vasitəsilə.
Əlavə ədəbiyyat
- , Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
- Phuong, Mary; Hutter, Marcus. "Formal Algorithms for Transformers". 2022. arXiv:2207.09238 [cs.LG].
- Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel. "GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models". 2023. arXiv:2303.10130 [econ.GN].
- Eldan, Ronen; Li, Yuanzhi. "TinyStories: How Small Can Language Models Be and Still Speak Coherent English?". 2023. arXiv:2305.07759 [cs.CL].
- Frank, Michael C. "Baby steps in evaluating the capacities of large language models". Nature Reviews Psychology (ingilis). 2 (8). 27 June 2023: 451–452. doi:10.1038/s44159-023-00211-x. ISSN 2731-0574. İstifadə tarixi: 2 July 2023.
- Zhao, Wayne Xin; və b. "A Survey of Large Language Models". 2023. arXiv:2303.18223 [cs.CL].
- Kaddour, Jean; və b. "Challenges and Applications of Large Language Models". 2023. arXiv:2307.10169 [cs.CL].
- Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong. "A Survey on Multimodal Large Language Models". 2023-06-01. arXiv:2306.13549 [cs.CV].
- Open LLMs repository on GitHub.
wikipedia, oxu, kitab, kitabxana, axtar, tap, meqaleler, kitablar, oyrenmek, wiki, bilgi, tarix, tarixi, endir, indir, yukle, izlə, izle, mobil, telefon ucun, azeri, azəri, azerbaycanca, azərbaycanca, sayt, yüklə, pulsuz, pulsuz yüklə, haqqında, haqqinda, məlumat, melumat, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, şəkil, muisiqi, mahnı, kino, film, kitab, oyun, oyunlar, android, ios, apple, samsung, iphone, pc, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, web, computer, komputer
Boyuk dil modeli ing Large language model LLM umumi meqsedli dil anlayisina ve nesline nail olmaq qabiliyyeti ile diqqet ceken LLM ler bu bacariqlari hesablama yolu ile intensiv oz ozune ve yari nezaretli telim prosesi zamani metn senedlerinden statistik elaqeleri oyrenmekle elde edirler LLM ler transformator arxitekturasini izleyen suni neyron sebekelerdir Onlar daxil edilmis metni goturerek ve novbeti isareni ve ya sozu tekrar tekrar proqnozlasdirmaqla metn yaratmaq ucun istifade edile biler 2020 ci ile qeder deqiq tenzimleme modelin konkret tapsiriqlari yerine yetirmek ucun uygunlasdirilmasinin yegane yolu idi Bununla bele kimi daha boyuk olculu modeller oxsar neticeler elde etmek ucun tez bir zamanda dizayn edile biler Onlarin insan dilinin korporasiyasina xas olan sintaksis semantika ve ontologiya haqqinda eyni zamanda korpusda movcud olan qeyri deqiqlikler ve qerezler haqqinda bilikler elde etdikleri guman edilir Populyar numunelere OpenAI nin modelleri meselen ChatGPT de istifade edilen ve GPT 4 Google un PaLM Bardda istifade olunur ve Meta nin hemcinin ve Anthropic in Claude 2 ni gostermek olar Ehtimalli tokenlesdirmeBayt cut kodlasdirmanin modifikasiyasindan istifade ederek ilk addimda butun unikal simvollar bosluqlar ve durgu isareleri daxil olmaqla ilkin desti yeni uni qramlarin ilkin desti kimi qebul edilir En tekrar bitisik simvol cutu ugurla biqramda birlesdirilir ve cutun butun numuneleri onunla evez olunur Tekraren birlikde bas veren evveller birlesdirilmis n qramlarin bitisik cutlerinin butun hadiseleri teyin olunmus olcude luget elde olunana qeder tekrar tekrar daha uzun n qramlara birlesdirilir GPT 3 de olcu 50257 dir Token lugeti sifirdan token lugetinin olcusune qeder olan tam ededlerden ibaretdir Yeni sozler hemise tokenlerin ve ilkin teyin edilmis uni qramlarin birlesmeleri kimi serh edile biler Esasen ingilis korpusundan cixarilan tezliklere esaslanan token lugeti orta ingilis sozu ucun mumkun qeder az tokenden istifade edir Bele bir ingilisce optimallasdirilmis tokenlesdirici terefinden kodlanmis basqa dildeki orta bir soz suboptimal tokenlere bolunur tokenizer texts gt series of numerical tokens bele bolune biler n qramlar token izer texts gt series of numerical t ok ens reqemler token kimi 30001 7509 25 13399 4613 2168 286 29052 366 83 482 641 1 Ehtimalli tokenlesdirme de verilenler bazalarini sixisdirir bu da bayt cutunun kodlasdirma alqoritmini tokenlesdirici kimi istifade etmeyin sebebidir LLM ler umumiyyetle daxil edilen metnin kele kotur olmayan massiv olmasini teleb etdiyinden daha qisa metnler en uzununun uzunluguna uygun gelene qeder doldurulmalidir Bir soz ucun orta hesabla ne qeder token teleb olundugu verilenler toplusunun dilinden asilidir Istinadlar Better Language Models and Their Implications OpenAI 2019 02 14 2020 12 19 tarixinde Istifade tarixi 2019 08 25 Merritt Rick What Is a Transformer Model NVIDIA Blog ingilis 2022 03 25 2023 11 17 tarixinde Istifade tarixi 2023 07 25 Bowman Samuel R Eight Things to Know about Large Language Models 2023 arXiv 2304 00612 cs CL Brown Tom B Mann Benjamin Ryder Nick Subbiah Melanie Kaplan Jared Dhariwal Prafulla Neelakantan Arvind Shyam Pranav Sastry Girish Askell Amanda Agarwal Sandhini Herbert Voss Ariel Krueger Gretchen Henighan Tom Child Rewon Ramesh Aditya Ziegler Daniel M Wu Jeffrey Winter Clemens Hesse Christopher Chen Mark Sigler Eric Litwin Mateusz Gray Scott Chess Benjamin Clark Jack Berner Christopher McCandlish Sam Radford Alec Sutskever Ilya Amodei Dario Larochelle H Ranzato M Hadsell R Balcan M F Lin H redaktorlar Language Models are Few Shot Learners PDF Advances in Neural Information Processing Systems Curran Associates Inc 33 Dec 2020 1877 1901 2023 11 17 tarixinde PDF Istifade tarixi 2024 01 12 Human Language Understanding amp Reasoning Daedalus 151 2 2022 127 138 doi 10 1162 daed a 01905 2023 11 17 tarixinde Istifade tarixi 2024 01 12 OpenAI API platform openai com ingilis April 23 2023 tarixinde Istifade tarixi 2023 04 30 Paass Gerhard Giesselbach Sven Pre trained Language Models Foundation Models for Natural Language Processing Artificial Intelligence Foundations Theory and Algorithms 2022 19 78 doi 10 1007 978 3 031 23190 2 2 ISBN 9783031231902 3 August 2023 tarixinde Istifade tarixi 3 August 2023 Yennie Jun All languages are NOT created tokenized equal Language models cost much more in some languages than others 2023 05 03 2023 08 17 tarixinde Istifade tarixi 2023 08 17 In other words to express the same sentiment some languages require up to 10 times more tokens Petrov Aleksandar Malfa Emanuele La Torr Philip Bibi Adel Language Model Tokenizers Introduce Unfairness Between Languages NeurIPS June 23 2023 arXiv 2305 15425 December 15 2023 tarixinde Istifade tarixi January 12 2024 openreview net vasitesile Elave edebiyyat Martin James H Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition 3rd Edition draft 2023 Phuong Mary Hutter Marcus Formal Algorithms for Transformers 2022 arXiv 2207 09238 cs LG Eloundou Tyna Manning Sam Mishkin Pamela Rock Daniel GPTs are GPTs An Early Look at the Labor Market Impact Potential of Large Language Models 2023 arXiv 2303 10130 econ GN Eldan Ronen Li Yuanzhi TinyStories How Small Can Language Models Be and Still Speak Coherent English 2023 arXiv 2305 07759 cs CL Frank Michael C Baby steps in evaluating the capacities of large language models Nature Reviews Psychology ingilis 2 8 27 June 2023 451 452 doi 10 1038 s44159 023 00211 x ISSN 2731 0574 Istifade tarixi 2 July 2023 Zhao Wayne Xin ve b A Survey of Large Language Models 2023 arXiv 2303 18223 cs CL Kaddour Jean ve b Challenges and Applications of Large Language Models 2023 arXiv 2307 10169 cs CL Yin Shukang Fu Chaoyou Zhao Sirui Li Ke Sun Xing Xu Tong Chen Enhong A Survey on Multimodal Large Language Models 2023 06 01 arXiv 2306 13549 cs CV Open LLMs repository on GitHub