Korpus dilçiliyi — mətn korpusunun inkişafı, yaradılması və istifadəsi ilə məşğul olan dilçiliyin bir sahəsidir. Termin 1960-cı illərdə korpusların yaradılması təcrübəsinin aparılması ilə meydana çıxmışdır və 1980-ci illərdə kompüter texnologiyasının inkişafı ilə əlaqədar istifadəyə başlanmışdır. Mətnlərin linqvistik və ya dil korpusu xüsusi linqvistik problemləri həll etmək üçün nəzərdə tutulmuş böyük, maşınla oxuna bilən, vahid, strukturlaşdırılmış, etiketlənmiş, filoloji cəhətdən səlahiyyətli dil məlumatlarının məcmusudur. Müasir korpusun əsas xüsusiyyətləri maşınla oxuna bilən format, reprezentativlik və metalinqvistik məlumatın mövcudluğudur. Reprezentativlik xüsusi mətn seçimi prosedurundan istifadə etməklə əldə edilir. Linqvistik korpus müəyyən prinsiplərə uyğun toplanmış, müəyyən standarta uyğun olaraq işarələnmiş və ixtisaslaşmış axtarış sistemi ilə təmin edilmiş mətnlər toplusudur. Bəzən korpus ("birinci dərəcəli korpus") sadəcə olaraq hansısa ümumi xüsusiyyət (dil, janr, müəllif, mətnlərin yaranma dövrü) ilə birləşdirilən hər hansı mətnlər toplusu adlanır. Mətn korpusunun yaradılmasının mümkünlüyü aşağıdakılarla izah olunur:
- linqvistik məlumatların real kontekstdə təqdim edilməsi;
- kifayət qədər böyük məlumatların təqdim olunması (böyük həcmli korpusda);
- müxtəlif linqvistik problemlərin həlli üçün bir dəfə yaradılmış korpusdan təkrar istifadənin mümkünlüyü, məsələn, qrafematik və leksiko-qrammatik mətn təhlilinin həyata keçirilməsi və s.
Tarixi
İlk böyük kompüter korpusu 1960-cı illərdə Braun Universitetində yaradılmış və hər biri 2 min sözdən ibarət 500 mətn fraqmentindən ibarət olan və 1961-ci ildə ABŞ-də ingilis dilində istifadəyə verilən Braun korpusu (BK ing. Brown Corpus, BC) hesab olunur. 1970-ci illərdə BK-na yaxın olan modeldə , mətnlər korpusu əsasında, 1 milyon söz həcmində və təxminən bərabər nisbətdə ictimai-siyasi mətnlər, bədii ədəbiyyatlardan və müxtəlif sahələrdən və dramaturgiyadan elmi və elmi-kütləvi mətnlər əsasında Zasorinanın rus dilinin tezlik lüğəti yaradıldı. 1980-ci illərdə İsveçin Uppsala Universitetində analoji model üzrə rus dilinin korpusu hazırlanıb. Kompüterlərin gücünün artması səbəbindən böyük həcmli mətnləri idarə edə bilən 1980-ci illərdə daha böyük korpuslar yaratmaq üçün dünya üzrə bir neçə cəhd edildi. Böyük Britaniyada belə layihələr Birminhem Universitetində İngilis Bankı (ing. Bank of English) və Britaniya Milli Korpusu (BNC) idi. SSRİ-də belə bir layihə A. P. Erşovun təşəbbüsü ilə yaradılan Rus Dilinin Maşın Fondu idi.
Hazırkı vəziyyəti
Elektron formada çoxlu sayda mətnin mövcudluğu onlarla və yüz milyonlarla sözdən ibarət böyük həcmli korpus yaratmaq vəzifəsini əhəmiyyətli dərəcədə asanlaşdırdı, lakin problemləri aradan qaldırmadı: minlərlə mətnin toplanması, müəllif hüquqları ilə bağlı problemlərin aradan qaldırılması, bütün mətnlərin vahid formada yığılması, korpusun mövzu və janr üzrə balanslaşdırılması çox vaxt aparır.
Alman, polyak, çex, sloven, fin, müasir yunan, çin, yapon, bolqar və digər dillərin korpusları mövcuddur (və ya hazırlanır). Rusiya Elmlər Akademiyasında yaradılmış rus dilinin milli korpusu hazırda 500 milyondan çox söz ehtiva edir.
Azərbaycan Dilinin Milli Korpusunun leksikoqrafiya altkorpusunun yaradılması istiqamətində atılmış addımlardan biri "Azərbaycan dilinin lüğət tərkibinin inkişafı, dilin normalarına əməl olunmasının ictimai monitorinqi və dilin verilənlər korpusunun hazırlanması üzrə inteqrasiya olunmuş elektron sistemin və lüğətin yaradılması" adlı layihə sayıla bilər. Bu layihə AMEA Nəsimi adına Dilçilik İnstitutunun baş elmi işçisi, fil.ü.e.d., prof. Məsud Mahmudovun rəhbərliyi ilə Azərbaycan Respublikasının Prezidenti yanında Elmin İnkişafı Fondunun 2015-ci ilin əsasqrant müsabiqəsinə təqdim edilmiş və bu çərçivədə elmi-tədqiqat proqramlarının(EİF-KETPL-2015–1(25) qalibi olmuşdur. Layihə əsasında Azərbaycan dilinin elektron lüğətlər korpusu hazırlanmışdır
Həmçinin bax
İstinadlar
- Захаров, Богданова, 2013
- Довнар П.Ю., Воронцов А.В. Лингвистический процессор китайского языка. Особенности разработки (PDF) // Международный конгресс по информатике: информационные системы и технологии: материалы международного научного конгресса 31 окт. – 3 нояб. 2011 г. (rus). Минск: БГУ: БГУ. 2011. 2018-10-24 tarixində (PDF).
- "Статистика. Национальный корпус русского языка". www.ruscorpora.ru. 2019-12-29 tarixində . İstifadə tarixi: 2019-12-27.
- Məsud Mahmudov. Türk dillərinin milli korpusu. Bakı: Elm və təhsil. səh. 392. 2023-10-06 tarixində . İstifadə tarixi: 2023-10-05.
Ədəbiyyatlar
- Захаров В. П., Богданова С. Ю. Корпусная лингвистика: Учебник для студентов направления "Лингвистика". — 2-е изд, перераб. и дополн. — СПб.: СПбГУ. РИО. Филологический факультет., 2013. — 148 с.
- Məsud Mahmudov. Türk dillərinin milli korpusu. Bakı: Elm və təhsil. səh. 392.
Xarici keçidlər
- Azərbaycan dilinin informasiya bazası
- Elektron lüğətlər korpusu
wikipedia, oxu, kitab, kitabxana, axtar, tap, meqaleler, kitablar, oyrenmek, wiki, bilgi, tarix, tarixi, endir, indir, yukle, izlə, izle, mobil, telefon ucun, azeri, azəri, azerbaycanca, azərbaycanca, sayt, yüklə, pulsuz, pulsuz yüklə, haqqında, haqqinda, məlumat, melumat, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, şəkil, muisiqi, mahnı, kino, film, kitab, oyun, oyunlar, android, ios, apple, samsung, iphone, pc, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, web, computer, komputer
Korpus dilciliyi metn korpusunun inkisafi yaradilmasi ve istifadesi ile mesgul olan dilciliyin bir sahesidir Termin 1960 ci illerde korpuslarin yaradilmasi tecrubesinin aparilmasi ile meydana cixmisdir ve 1980 ci illerde komputer texnologiyasinin inkisafi ile elaqedar istifadeye baslanmisdir Metnlerin linqvistik ve ya dil korpusu xususi linqvistik problemleri hell etmek ucun nezerde tutulmus boyuk masinla oxuna bilen vahid strukturlasdirilmis etiketlenmis filoloji cehetden selahiyyetli dil melumatlarinin mecmusudur Muasir korpusun esas xususiyyetleri masinla oxuna bilen format reprezentativlik ve metalinqvistik melumatin movcudlugudur Reprezentativlik xususi metn secimi prosedurundan istifade etmekle elde edilir Linqvistik korpus mueyyen prinsiplere uygun toplanmis mueyyen standarta uygun olaraq isarelenmis ve ixtisaslasmis axtaris sistemi ile temin edilmis metnler toplusudur Bezen korpus birinci dereceli korpus sadece olaraq hansisa umumi xususiyyet dil janr muellif metnlerin yaranma dovru ile birlesdirilen her hansi metnler toplusu adlanir Metn korpusunun yaradilmasinin mumkunluyu asagidakilarla izah olunur linqvistik melumatlarin real kontekstde teqdim edilmesi kifayet qeder boyuk melumatlarin teqdim olunmasi boyuk hecmli korpusda muxtelif linqvistik problemlerin helli ucun bir defe yaradilmis korpusdan tekrar istifadenin mumkunluyu meselen qrafematik ve leksiko qrammatik metn tehlilinin heyata kecirilmesi ve s TarixiIlk boyuk komputer korpusu 1960 ci illerde Braun Universitetinde yaradilmis ve her biri 2 min sozden ibaret 500 metn fraqmentinden ibaret olan ve 1961 ci ilde ABS de ingilis dilinde istifadeye verilen Braun korpusu BK ing Brown Corpus BC hesab olunur 1970 ci illerde BK na yaxin olan modelde metnler korpusu esasinda 1 milyon soz hecminde ve texminen beraber nisbetde ictimai siyasi metnler bedii edebiyyatlardan ve muxtelif sahelerden ve dramaturgiyadan elmi ve elmi kutlevi metnler esasinda Zasorinanin rus dilinin tezlik lugeti yaradildi 1980 ci illerde Isvecin Uppsala Universitetinde analoji model uzre rus dilinin korpusu hazirlanib Komputerlerin gucunun artmasi sebebinden boyuk hecmli metnleri idare ede bilen 1980 ci illerde daha boyuk korpuslar yaratmaq ucun dunya uzre bir nece cehd edildi Boyuk Britaniyada bele layiheler Birminhem Universitetinde Ingilis Banki ing Bank of English ve Britaniya Milli Korpusu BNC idi SSRI de bele bir layihe A P Ersovun tesebbusu ile yaradilan Rus Dilinin Masin Fondu idi Hazirki veziyyetiElektron formada coxlu sayda metnin movcudlugu onlarla ve yuz milyonlarla sozden ibaret boyuk hecmli korpus yaratmaq vezifesini ehemiyyetli derecede asanlasdirdi lakin problemleri aradan qaldirmadi minlerle metnin toplanmasi muellif huquqlari ile bagli problemlerin aradan qaldirilmasi butun metnlerin vahid formada yigilmasi korpusun movzu ve janr uzre balanslasdirilmasi cox vaxt aparir Alman polyak cex sloven fin muasir yunan cin yapon bolqar ve diger dillerin korpuslari movcuddur ve ya hazirlanir Rusiya Elmler Akademiyasinda yaradilmis rus dilinin milli korpusu hazirda 500 milyondan cox soz ehtiva edir Azerbaycan Dilinin Milli Korpusunun leksikoqrafiya altkorpusunun yaradilmasi istiqametinde atilmis addimlardan biri Azerbaycan dilinin luget terkibinin inkisafi dilin normalarina emel olunmasinin ictimai monitorinqi ve dilin verilenler korpusunun hazirlanmasi uzre inteqrasiya olunmus elektron sistemin ve lugetin yaradilmasi adli layihe sayila biler Bu layihe AMEA Nesimi adina Dilcilik Institutunun bas elmi iscisi fil u e d prof Mesud Mahmudovun rehberliyi ile Azerbaycan Respublikasinin Prezidenti yaninda Elmin Inkisafi Fondunun 2015 ci ilin esasqrant musabiqesine teqdim edilmis ve bu cercivede elmi tedqiqat proqramlarinin EIF KETPL 2015 1 25 qalibi olmusdur Layihe esasinda Azerbaycan dilinin elektron lugetler korpusu hazirlanmisdirHemcinin baxTetbiqi dilcilik Komputer dilciliyiIstinadlarZaharov Bogdanova 2013 Dovnar P Yu Voroncov A V Lingvisticheskij processor kitajskogo yazyka Osobennosti razrabotki PDF Mezhdunarodnyj kongress po informatike informacionnye sistemy i tehnologii materialy mezhdunarodnogo nauchnogo kongressa 31 okt 3 noyab 2011 g rus Minsk BGU BGU 2011 2018 10 24 tarixinde PDF Statistika Nacionalnyj korpus russkogo yazyka www ruscorpora ru 2019 12 29 tarixinde Istifade tarixi 2019 12 27 Mesud Mahmudov Turk dillerinin milli korpusu Baki Elm ve tehsil seh 392 2023 10 06 tarixinde Istifade tarixi 2023 10 05 EdebiyyatlarZaharov V P Bogdanova S Yu Korpusnaya lingvistika Uchebnik dlya studentov napravleniya Lingvistika 2 e izd pererab i dopoln SPb SPbGU RIO Filologicheskij fakultet 2013 148 s Mesud Mahmudov Turk dillerinin milli korpusu Baki Elm ve tehsil seh 392 Xarici kecidlerAzerbaycan dilinin informasiya bazasi Elektron lugetler korpusu