Nitqin tanınması diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri ba

Nitqin tanınması — diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri başa düşmək bacarığı. Şifahi dilin kompüterlər tərəfindən tanınmasına və mətnə çevrilməsinə imkan verən, metodologiya və texnologiyaları inkişaf etdirən informatika və hesablama dilçiliyinin fənlərarası alt sahəsidir. O, həmçinin avtomatik nitqin tanınması (ASR), kompüterin nitqi tanınması və ya nitqdən mətnə (STT) kimi tanınır. Eyni zamanda kompüter elmləri, dilçilik və kompüter mühəndisliyi sahələrində bilik və tədqiqatları özündə birləşdirir. Əks proses adlanır.

Subvokal nitqin tanınması tədqiqatlarında istifadə olunan elektrodlar.

Bəzi nitq tanıma sistemləri fərdi spikerin mətni və ya lüğəti sistemə oxuduğu "təlim" tələb edir. Sistem şəxsin spesifik səsini təhlil edir və alınan nəticədən həmin şəxsin nitqinin tanınmasını dəqiqləşdirmək üçün istifadə edir. Təlimdən istifadə etməyən sistemlər "müstəqil" sistemlər adlanır.

Nitqin tanınması proqramlarına səsli zəng, zənglərin yönləndirilməsi, avtomatik ev cihazların idarə edilməsi, açar sözlərin axtarışı, sadə məlumatların daxil edilməsi, strukturlaşdırılmış sənədlərin hazırlanması, spiker xüsusiyyətlərinin müəyyən edilməsi və nitqdən mətnə emal kimi səs istifadəçi interfeysləri daxildir.

Səsin tanınması və ya danışanın identifikasiyası termini danışanın dediklərini deyil, onun özünü müəyyən etməyə aiddir. Spikerin tanınması konkret şəxsin səsi ilə öyrədilmiş sistemlərdə nitqin tərcüməsi tapşırığını sadələşdirə bilər və ya təhlükəsizlik prosesinin bir hissəsi kimi spikerin kimliyini təsdiqləmək və ya yoxlamaq üçün istifadə edilə bilər.

Texnologiya nöqteyi-nəzərindən nitqin tanınması bir neçə əsas yenilik dalğası ilə uzun bir tarixə malikdir. Bu yaxınlarda bu sahə dərin öyrənmə və böyük verilənlərdə baş verən irəliləyişlərdən faydalanmışdır. İrəliləyişlər təkcə bu sahədə dərc olunan akademik məqalələrin artması ilə deyil, daha da əhəmiyyətlisi dünya sənayesində nitqin tanınması sistemlərinin layihələndirilməsi və tətbiqində müxtəlif dərin öyrənmə üsullarının qəbulu ilə sübut olunur.

Tarixi

İnkişafın əsas sahələri bunlar idi: lüğətin ölçüsü, danışanın müstəqilliyi və emal sürəti.

1970-ci ildən əvvəl

1952 — üç Bell Labs tədqiqatçısı, Stiven Balaşek, R. Biddulf və K. H. Davis, tək spikerlərin rəqəmlərinin tanınması üçün "Audrey" adlı bir sistem qurdular. Onların sistemi formantları hər bir nitqin güc spektrində yerləşdirirdi.
1960 — nitq istehsalının mənbə-filtr modelini işləyib hazırladı və nəşr etdi.
1962 — IBM 1962-ci il Ümumdünya Sərgisində 16 sözdən ibarət "Shoebox" maşınının nitq tanıma qabiliyyətini nümayiş etdirdi.
1966 — Nitq kodlaşdırma üsulu olan (LPC) ilk dəfə Naqoya Universitetindən və Nippon Telegraph and Telephone (NTT) şirkətindən tərəfindən nitqin tanınması üzərində işləyərkən təklif edilmişdir.
1969 — nitqin tanınması tədqiqatını tənqid edən açıq məktub yazdıqda Bell Labs-da maliyyə bir neçə il boyunca tükənmiş vəziyyətdə qaldı. Bu vəziyyət Pirs təqaüdə çıxana və Ceyms Flanaqan vəzifəyə gələnə qədər davam etdi.

1960-cı illərin sonlarında Stenford Universitetində aspirant kimi davamlı nitqin tanınmasını üzərinə götürən ilk şəxs idi. Əvvəlki sistemlər istifadəçilərdən hər sözdən sonra fasilə verməyi tələb edirdi. Reddinin sistemi şahmat oynamaq üçün şifahi əmrlər verirdi.

Təxminən bu vaxtlarda sovet tədqiqatçıları dinamik vaxt dəyişikliyi (DVD) alqoritmini icad etdilər və ondan 200 sözdən ibarət lüğət üzərində işləyə bilən tanıma sistem yaratmaq üçün istifadə etdilər. DVD nitqi qısa kadrlara, 10 ms seqmentlərə bölərək və hər bir çərçivəni vahid şəkildə emal edərək işləyirdi. DVD sonrakı alqoritmlərlə əvəz edilsə də, texnika davam edirdi. Bu dövrdə spikerin müstəqilliyinin təmin edilməsi həll olunmamış qaldı.

İstinadlar

. "speech recognition" // Rasim Əliquliyev (redaktor). İnformatika terminlərinin izahlı lüğəti (az.). Bakı: "İnformasiya texnologiyaları" / "Bakı" nəşriyyatı. 2017. səh. 701. ISBN . 6 sentyabr 2023 tarixində (PDF) (#archive_missing_url).
"Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. 11 noyabr 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN .
"British English definition of voice recognition". Macmillan Publishers Limited. 16 sentyabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
"voice recognition, definition of". WebFinance, Inc. 3 dekabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
"The Mailbag LG #114". Linuxgazette.net. 19 fevral 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.
Reynolds, Douglas; Rose, Richard. "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1). yanvar 1995: 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. 8 mart 2014 tarixində (PDF). İstifadə tarixi: 21 fevral 2014.
"Speaker Identification (WhisperID)". Microsoft Research. Microsoft. 25 fevral 2014 tarixində . İstifadə tarixi: 21 fevral 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
"Obituaries: Stephen Balashek". The Star-Ledger. 22 July 2012. 4 April 2019 tarixində . İstifadə tarixi: 22 January 2024.
"IBM-Shoebox-front.jpg". androidauthority.net. 9 August 2018 tarixində . İstifadə tarixi: 4 April 2019.
Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF). səh. 6. 17 avqust 2014 tarixində (PDF). İstifadə tarixi: 17 yanvar 2015.
Melanie Pinola. "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. 2 November 2011. 3 November 2018 tarixində . İstifadə tarixi: 22 October 2018.
Gray, Robert M. "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4). 2010: 203–303. doi:10.1561/2000000036. ISSN 1932-8346. 2022-10-09 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-22.
. "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48). 1969: 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
Nils J. Nilsson. "Raj Reddy - A.M. Turing Award Winner". ACM. 2023-06-01 tarixində . İstifadə tarixi: 22 yanvar 2024.
Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng. Springer Handbook of Speech Processing. Springer Science & Business Media. 2008. ISBN .

Əlavə ədəbiyyat

Cole, Ronald; ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, redaktorlar Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. XII–XIII. Cambridge University Press. 1997. ISBN .
Junqua, J.-C.; Haton, J.-P. Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. 1995. ISBN .
Karat, Clare-Marie; Vergo, John; Nahamoo, David. Conversational Interface Technologies // ; Jacko, Julie A. (redaktorlar ). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. 2007. ISBN .
Pieraccini, Roberto. The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. 2012. ISBN .
Pirani, Giancarlo, redaktorAdvanced algorithms and architectures for speech understanding. Springer Science & Business Media. 2013. ISBN .
Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013
Woelfel, Matthias; McDonough, John. Distant Speech Recognition. Wiley. 2009-05-26. ISBN .

Xarici keçidlər

DMOZ-da Speech Technology

[1] . "speech recognition" // Rasim Əliquliyev (redaktor). İnformatika terminlərinin izahlı lüğəti (az.). Bakı: "İnformasiya texnologiyaları" / "Bakı" nəşriyyatı. 2017. səh. 701. ISBN . 6 sentyabr 2023 tarixində (PDF) (#archive_missing_url).

[2] "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. 11 noyabr 2013 tarixində . İstifadə tarixi: 15 iyun 2013.

[3] P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN .

[Macmillan_Brit._def_of_voice_recognition-4] "British English definition of voice recognition". Macmillan Publishers Limited. 16 sentyabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.

[Voice_rec,_definition-5] "voice recognition, definition of". WebFinance, Inc. 3 dekabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.

[mail_bag,_gazette-6] "The Mailbag LG #114". Linuxgazette.net. 19 fevral 2013 tarixində . İstifadə tarixi: 15 iyun 2013.

[7] Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.

[8] Reynolds, Douglas; Rose, Richard. "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1). yanvar 1995: 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. 8 mart 2014 tarixində (PDF). İstifadə tarixi: 21 fevral 2014.

[9] "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. 25 fevral 2014 tarixində . İstifadə tarixi: 21 fevral 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.

[10] "Obituaries: Stephen Balashek". The Star-Ledger. 22 July 2012. 4 April 2019 tarixində . İstifadə tarixi: 22 January 2024.

[11] "IBM-Shoebox-front.jpg". androidauthority.net. 9 August 2018 tarixində . İstifadə tarixi: 4 April 2019.

[12] Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF). səh. 6. 17 avqust 2014 tarixində (PDF). İstifadə tarixi: 17 yanvar 2015.

[PCW.Siri-13] Melanie Pinola. "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. 2 November 2011. 3 November 2018 tarixində . İstifadə tarixi: 22 October 2018.

[Gray-14] Gray, Robert M. "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4). 2010: 203–303. doi:10.1561/2000000036. ISSN 1932-8346. 2022-10-09 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-22.

[jasapierce-15] . "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48). 1969: 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.

[16] Nils J. Nilsson. "Raj Reddy - A.M. Turing Award Winner". ACM. 2023-06-01 tarixində . İstifadə tarixi: 22 yanvar 2024.

[17] Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng. Springer Handbook of Speech Processing. Springer Science & Business Media. 2008. ISBN .