Nitqin tanınması — diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri başa düşmək bacarığı. Şifahi dilin kompüterlər tərəfindən tanınmasına və mətnə çevrilməsinə imkan verən, metodologiya və texnologiyaları inkişaf etdirən informatika və hesablama dilçiliyinin fənlərarası alt sahəsidir. O, həmçinin avtomatik nitqin tanınması (ASR), kompüterin nitqi tanınması və ya nitqdən mətnə (STT) kimi tanınır. Eyni zamanda kompüter elmləri, dilçilik və kompüter mühəndisliyi sahələrində bilik və tədqiqatları özündə birləşdirir. Əks proses adlanır.
Bəzi nitq tanıma sistemləri fərdi spikerin mətni və ya lüğəti sistemə oxuduğu "təlim" tələb edir. Sistem şəxsin spesifik səsini təhlil edir və alınan nəticədən həmin şəxsin nitqinin tanınmasını dəqiqləşdirmək üçün istifadə edir. Təlimdən istifadə etməyən sistemlər "müstəqil" sistemlər adlanır.
Nitqin tanınması proqramlarına səsli zəng, zənglərin yönləndirilməsi, avtomatik ev cihazların idarə edilməsi, açar sözlərin axtarışı, sadə məlumatların daxil edilməsi, strukturlaşdırılmış sənədlərin hazırlanması, spiker xüsusiyyətlərinin müəyyən edilməsi və nitqdən mətnə emal kimi səs istifadəçi interfeysləri daxildir.
Səsin tanınması və ya danışanın identifikasiyası termini danışanın dediklərini deyil, onun özünü müəyyən etməyə aiddir. Spikerin tanınması konkret şəxsin səsi ilə öyrədilmiş sistemlərdə nitqin tərcüməsi tapşırığını sadələşdirə bilər və ya təhlükəsizlik prosesinin bir hissəsi kimi spikerin kimliyini təsdiqləmək və ya yoxlamaq üçün istifadə edilə bilər.
Texnologiya nöqteyi-nəzərindən nitqin tanınması bir neçə əsas yenilik dalğası ilə uzun bir tarixə malikdir. Bu yaxınlarda bu sahə dərin öyrənmə və böyük verilənlərdə baş verən irəliləyişlərdən faydalanmışdır. İrəliləyişlər təkcə bu sahədə dərc olunan akademik məqalələrin artması ilə deyil, daha da əhəmiyyətlisi dünya sənayesində nitqin tanınması sistemlərinin layihələndirilməsi və tətbiqində müxtəlif dərin öyrənmə üsullarının qəbulu ilə sübut olunur.
Tarixi
İnkişafın əsas sahələri bunlar idi: lüğətin ölçüsü, danışanın müstəqilliyi və emal sürəti.
1970-ci ildən əvvəl
- 1952 — üç Bell Labs tədqiqatçısı, Stiven Balaşek, R. Biddulf və K. H. Davis, tək spikerlərin rəqəmlərinin tanınması üçün "Audrey" adlı bir sistem qurdular. Onların sistemi formantları hər bir nitqin güc spektrində yerləşdirirdi.
- 1960 — nitq istehsalının mənbə-filtr modelini işləyib hazırladı və nəşr etdi.
- 1962 — IBM 1962-ci il Ümumdünya Sərgisində 16 sözdən ibarət "Shoebox" maşınının nitq tanıma qabiliyyətini nümayiş etdirdi.
- 1966 — Nitq kodlaşdırma üsulu olan (LPC) ilk dəfə Naqoya Universitetindən və Nippon Telegraph and Telephone (NTT) şirkətindən tərəfindən nitqin tanınması üzərində işləyərkən təklif edilmişdir.
- 1969 — nitqin tanınması tədqiqatını tənqid edən açıq məktub yazdıqda Bell Labs-da maliyyə bir neçə il boyunca tükənmiş vəziyyətdə qaldı. Bu vəziyyət Pirs təqaüdə çıxana və Ceyms Flanaqan vəzifəyə gələnə qədər davam etdi.
1960-cı illərin sonlarında Stenford Universitetində aspirant kimi davamlı nitqin tanınmasını üzərinə götürən ilk şəxs idi. Əvvəlki sistemlər istifadəçilərdən hər sözdən sonra fasilə verməyi tələb edirdi. Reddinin sistemi şahmat oynamaq üçün şifahi əmrlər verirdi.
Təxminən bu vaxtlarda sovet tədqiqatçıları dinamik vaxt dəyişikliyi (DVD) alqoritmini icad etdilər və ondan 200 sözdən ibarət lüğət üzərində işləyə bilən tanıma sistem yaratmaq üçün istifadə etdilər. DVD nitqi qısa kadrlara, 10 ms seqmentlərə bölərək və hər bir çərçivəni vahid şəkildə emal edərək işləyirdi. DVD sonrakı alqoritmlərlə əvəz edilsə də, texnika davam edirdi. Bu dövrdə spikerin müstəqilliyinin təmin edilməsi həll olunmamış qaldı.
İstinadlar
- . "speech recognition" // Rasim Əliquliyev (redaktor). İnformatika terminlərinin izahlı lüğəti (az.). Bakı: "İnformasiya texnologiyaları" / "Bakı" nəşriyyatı. 2017. səh. 701. ISBN . 6 sentyabr 2023 tarixində (PDF) (#archive_missing_url).
- "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. 11 noyabr 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
- P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN .
- "British English definition of voice recognition". Macmillan Publishers Limited. 16 sentyabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
- "voice recognition, definition of". WebFinance, Inc. 3 dekabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
- "The Mailbag LG #114". Linuxgazette.net. 19 fevral 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
- Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.
- Reynolds, Douglas; Rose, Richard. "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1). yanvar 1995: 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. 8 mart 2014 tarixində (PDF). İstifadə tarixi: 21 fevral 2014.
- "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. 25 fevral 2014 tarixində . İstifadə tarixi: 21 fevral 2014.
When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
- "Obituaries: Stephen Balashek". The Star-Ledger. 22 July 2012. 4 April 2019 tarixində . İstifadə tarixi: 22 January 2024.
- "IBM-Shoebox-front.jpg". androidauthority.net. 9 August 2018 tarixində . İstifadə tarixi: 4 April 2019.
- Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF). səh. 6. 17 avqust 2014 tarixində (PDF). İstifadə tarixi: 17 yanvar 2015.
- Melanie Pinola. "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. 2 November 2011. 3 November 2018 tarixində . İstifadə tarixi: 22 October 2018.
- Gray, Robert M. "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4). 2010: 203–303. doi:10.1561/2000000036. ISSN 1932-8346. 2022-10-09 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-22.
- . "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48). 1969: 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
- Nils J. Nilsson. "Raj Reddy - A.M. Turing Award Winner". ACM. 2023-06-01 tarixində . İstifadə tarixi: 22 yanvar 2024.
- Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng. Springer Handbook of Speech Processing. Springer Science & Business Media. 2008. ISBN .
Əlavə ədəbiyyat
- Cole, Ronald; ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, redaktorlar Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. XII–XIII. Cambridge University Press. 1997. ISBN .
- Junqua, J.-C.; Haton, J.-P. Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. 1995. ISBN .
- Karat, Clare-Marie; Vergo, John; Nahamoo, David. Conversational Interface Technologies // ; Jacko, Julie A. (redaktorlar ). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. 2007. ISBN .
- Pieraccini, Roberto. The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. 2012. ISBN .
- Pirani, Giancarlo, redaktorAdvanced algorithms and architectures for speech understanding. Springer Science & Business Media. 2013. ISBN .
- Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013
- Woelfel, Matthias; McDonough, John. Distant Speech Recognition. Wiley. 2009-05-26. ISBN .
Xarici keçidlər
- DMOZ-da Speech Technology
wikipedia, oxu, kitab, kitabxana, axtar, tap, meqaleler, kitablar, oyrenmek, wiki, bilgi, tarix, tarixi, endir, indir, yukle, izlə, izle, mobil, telefon ucun, azeri, azəri, azerbaycanca, azərbaycanca, sayt, yüklə, pulsuz, pulsuz yüklə, haqqında, haqqinda, məlumat, melumat, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, şəkil, muisiqi, mahnı, kino, film, kitab, oyun, oyunlar, android, ios, apple, samsung, iphone, pc, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, web, computer, komputer
Nitqin taninmasi diktorun verdiyi komandalari ve verilenleri qebul etmek meqsedile komputerin teleffuz olunan sozleri basa dusmek bacarigi Sifahi dilin komputerler terefinden taninmasina ve metne cevrilmesine imkan veren metodologiya ve texnologiyalari inkisaf etdiren informatika ve hesablama dilciliyinin fenlerarasi alt sahesidir O hemcinin avtomatik nitqin taninmasi ASR komputerin nitqi taninmasi ve ya nitqden metne STT kimi taninir Eyni zamanda komputer elmleri dilcilik ve komputer muhendisliyi sahelerinde bilik ve tedqiqatlari ozunde birlesdirir Eks proses adlanir Subvokal nitqin taninmasi tedqiqatlarinda istifade olunan elektrodlar Bezi nitq tanima sistemleri ferdi spikerin metni ve ya lugeti sisteme oxudugu telim teleb edir Sistem sexsin spesifik sesini tehlil edir ve alinan neticeden hemin sexsin nitqinin taninmasini deqiqlesdirmek ucun istifade edir Telimden istifade etmeyen sistemler musteqil sistemler adlanir Nitqin taninmasi proqramlarina sesli zeng zenglerin yonlendirilmesi avtomatik ev cihazlarin idare edilmesi acar sozlerin axtarisi sade melumatlarin daxil edilmesi strukturlasdirilmis senedlerin hazirlanmasi spiker xususiyyetlerinin mueyyen edilmesi ve nitqden metne emal kimi ses istifadeci interfeysleri daxildir Sesin taninmasi ve ya danisanin identifikasiyasi termini danisanin dediklerini deyil onun ozunu mueyyen etmeye aiddir Spikerin taninmasi konkret sexsin sesi ile oyredilmis sistemlerde nitqin tercumesi tapsirigini sadelesdire biler ve ya tehlukesizlik prosesinin bir hissesi kimi spikerin kimliyini tesdiqlemek ve ya yoxlamaq ucun istifade edile biler Texnologiya noqteyi nezerinden nitqin taninmasi bir nece esas yenilik dalgasi ile uzun bir tarixe malikdir Bu yaxinlarda bu sahe derin oyrenme ve boyuk verilenlerde bas veren irelileyislerden faydalanmisdir Irelileyisler tekce bu sahede derc olunan akademik meqalelerin artmasi ile deyil daha da ehemiyyetlisi dunya senayesinde nitqin taninmasi sistemlerinin layihelendirilmesi ve tetbiqinde muxtelif derin oyrenme usullarinin qebulu ile subut olunur TarixiInkisafin esas saheleri bunlar idi lugetin olcusu danisanin musteqilliyi ve emal sureti 1970 ci ilden evvel 1952 uc Bell Labs tedqiqatcisi Stiven Balasek R Biddulf ve K H Davis tek spikerlerin reqemlerinin taninmasi ucun Audrey adli bir sistem qurdular Onlarin sistemi formantlari her bir nitqin guc spektrinde yerlesdirirdi 1960 nitq istehsalinin menbe filtr modelini isleyib hazirladi ve nesr etdi 1962 IBM 1962 ci il Umumdunya Sergisinde 16 sozden ibaret Shoebox masininin nitq tanima qabiliyyetini numayis etdirdi 1966 Nitq kodlasdirma usulu olan LPC ilk defe Naqoya Universitetinden ve Nippon Telegraph and Telephone NTT sirketinden terefinden nitqin taninmasi uzerinde isleyerken teklif edilmisdir 1969 nitqin taninmasi tedqiqatini tenqid eden aciq mektub yazdiqda Bell Labs da maliyye bir nece il boyunca tukenmis veziyyetde qaldi Bu veziyyet Pirs teqaude cixana ve Ceyms Flanaqan vezifeye gelene qeder davam etdi 1960 ci illerin sonlarinda Stenford Universitetinde aspirant kimi davamli nitqin taninmasini uzerine goturen ilk sexs idi Evvelki sistemler istifadecilerden her sozden sonra fasile vermeyi teleb edirdi Reddinin sistemi sahmat oynamaq ucun sifahi emrler verirdi Texminen bu vaxtlarda sovet tedqiqatcilari dinamik vaxt deyisikliyi DVD alqoritmini icad etdiler ve ondan 200 sozden ibaret luget uzerinde isleye bilen tanima sistem yaratmaq ucun istifade etdiler DVD nitqi qisa kadrlara 10 ms seqmentlere bolerek ve her bir cerciveni vahid sekilde emal ederek isleyirdi DVD sonraki alqoritmlerle evez edilse de texnika davam edirdi Bu dovrde spikerin musteqilliyinin temin edilmesi hell olunmamis qaldi Istinadlar speech recognition Rasim Eliquliyev redaktor Informatika terminlerinin izahli lugeti az Baki Informasiya texnologiyalari Baki nesriyyati 2017 seh 701 ISBN 978 9952 434 82 8 6 sentyabr 2023 tarixinde PDF archive missing url Speaker Independent Connected Speech Recognition Fifth Generation Computer Corporation Fifthgen com 11 noyabr 2013 tarixinde Istifade tarixi 15 iyun 2013 P Nguyen Automatic classification of speaker characteristics International Conference on Communications and Electronics 2010 2010 147 152 doi 10 1109 ICCE 2010 5670700 ISBN 978 1 4244 7055 6 British English definition of voice recognition Macmillan Publishers Limited 16 sentyabr 2011 tarixinde Istifade tarixi 21 fevral 2012 voice recognition definition of WebFinance Inc 3 dekabr 2011 tarixinde Istifade tarixi 21 fevral 2012 The Mailbag LG 114 Linuxgazette net 19 fevral 2013 tarixinde Istifade tarixi 15 iyun 2013 Sarangi Susanta Sahidullah Md Saha Goutam Optimization of data driven filterbank for automatic speaker verification Digital Signal Processing 104 September 2020 102795 arXiv 2007 10729 doi 10 1016 j dsp 2020 102795 Reynolds Douglas Rose Richard Robust text independent speaker identification using Gaussian mixture speaker models PDF IEEE Transactions on Speech and Audio Processing 3 1 yanvar 1995 72 83 doi 10 1109 89 365379 ISSN 1063 6676 OCLC 26108901 8 mart 2014 tarixinde PDF Istifade tarixi 21 fevral 2014 Speaker Identification WhisperID Microsoft Research Microsoft 25 fevral 2014 tarixinde Istifade tarixi 21 fevral 2014 When you speak to someone they don t just recognize what you say they recognize who you are WhisperID will let computers do that too figuring out who you are by the way you sound Obituaries Stephen Balashek The Star Ledger 22 July 2012 4 April 2019 tarixinde Istifade tarixi 22 January 2024 IBM Shoebox front jpg androidauthority net 9 August 2018 tarixinde Istifade tarixi 4 April 2019 Juang B H Rabiner Lawrence R Automatic speech recognition a brief history of the technology development PDF seh 6 17 avqust 2014 tarixinde PDF Istifade tarixi 17 yanvar 2015 Melanie Pinola Speech Recognition Through the Decades How We Ended Up With Siri PC World 2 November 2011 3 November 2018 tarixinde Istifade tarixi 22 October 2018 Gray Robert M A History of Realtime Digital Speech on Packet Networks Part II of Linear Predictive Coding and the Internet Protocol PDF Found Trends Signal Process 3 4 2010 203 303 doi 10 1561 2000000036 ISSN 1932 8346 2022 10 09 tarixinde arxivlesdirilib PDF Istifade tarixi 2024 01 22 Whither speech recognition Journal of the Acoustical Society of America 46 48 1969 1049 1051 Bibcode 1969ASAJ 46 1049P doi 10 1121 1 1911801 Nils J Nilsson Raj Reddy A M Turing Award Winner ACM 2023 06 01 tarixinde Istifade tarixi 22 yanvar 2024 Benesty Jacob Sondhi M M Huang Yiteng Springer Handbook of Speech Processing Springer Science amp Business Media 2008 ISBN 978 3540491255 Elave edebiyyatCole Ronald Uszkoreit Hans Varile Giovanni Battista Zaenen Annie Zampolli Zue Victor redaktorlar Survey of the state of the art in human language technology Cambridge Studies in Natural Language Processing XII XIII Cambridge University Press 1997 ISBN 978 0 521 59277 2 Junqua J C Haton J P Robustness in Automatic Speech Recognition Fundamentals and Applications Kluwer Academic Publishers 1995 ISBN 978 0 7923 9646 8 Karat Clare Marie Vergo John Nahamoo David Conversational Interface Technologies Jacko Julie A redaktorlar The Human Computer Interaction Handbook Fundamentals Evolving Technologies and Emerging Applications Human Factors and Ergonomics Lawrence Erlbaum Associates Inc 2007 ISBN 978 0 8058 5870 9 Pieraccini Roberto The Voice in the Machine Building Computers That Understand Speech The MIT Press 2012 ISBN 978 0262016858 Pirani Giancarlo redaktorAdvanced algorithms and architectures for speech understanding Springer Science amp Business Media 2013 ISBN 978 3 642 84341 9 Signer Beat and Hoste Lode SpeeG2 A Speech and Gesture based Interface for Efficient Controller free Text Entry In Proceedings of ICMI 2013 15th International Conference on Multimodal Interaction Sydney Australia December 2013 Woelfel Matthias McDonough John Distant Speech Recognition Wiley 2009 05 26 ISBN 978 0470517048 Xarici kecidlerVikianbarda elaqeli media fayllar DMOZ da Speech Technology