AizvērtIzvēlne
Sākums
Atjaunots 2023. gada 8. martā
Inguna Skadiņa

datorlingvistika

(lībiešu datorkīeltieud, angļu computational linguistics, vācu Computerlinguistik, franču linguistique informatique, krievu компьютерная лингвистика), arī datorvalodniecība
starpdisciplināra zinātnes nozare, kura pēta un pilnveido valodas izmantošanu un reproducēšanu elektroniskajos informācijas tehnoloģijas līdzekļos, kā arī pēta dažādus valodas aspektus, izmantojot datortehnoloģiju

Saistītie šķirkļi

  • datorlingvistika Latvijā
  • internets
  • mākslīgais intelekts
  • mašīntulkošana

Nozares un apakšnozares

valodniecība
  • datorlingvistika
  • kognitīvā lingvistika
  • sociolingvistika
  • tipoloģiskā valodniecība
  • vispārīgā valodniecība

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Praktiskā un teorētiskā nozīme
  • 3.
    Galvenie sastāvelementi
  • 4.
    Nozares teorijas
  • 5.
    Galvenās pētniecības metodes
  • 6.
    Īsa vēsture
  • 7.
    Pašreizējais attīstības stāvoklis
  • 8.
    Galvenās pētniecības iestādes
  • 9.
    Svarīgākie periodiskie izdevumi
  • Saistītie šķirkļi
  • Tīmekļa vietnes
  • Ieteicamā literatūra
  • Kopīgot
  • Izveidot atsauci
  • Drukāt

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Praktiskā un teorētiskā nozīme
  • 3.
    Galvenie sastāvelementi
  • 4.
    Nozares teorijas
  • 5.
    Galvenās pētniecības metodes
  • 6.
    Īsa vēsture
  • 7.
    Pašreizējais attīstības stāvoklis
  • 8.
    Galvenās pētniecības iestādes
  • 9.
    Svarīgākie periodiskie izdevumi

Datorlingvistikas jēdziens radās 20. gs. 50. gados, kad parādījās pirmie datori un radās nepieciešamība aprakstīt valodu datoram saprotamā formā, kā arī parādījās iespēja datoru un datortehnoloģijas izmantot dabiskās valodas izpētē.

Datorlingvistika ir valodniecības un datorzinātnes apakšnozare, kas pēta metodes, modeļus un risinājumus runātās un rakstītās valodas apstrādei un modelēšanai ar datoru.

Praktiskā un teorētiskā nozīme

Datorlingvistikas teorētiskie mērķi ietver valodas formalizēšanu datoram modelējamā veidā, pētījumus par valodas apstrādes metodēm, dabiskās valodas izpēti ar programmrīku palīdzību, jaunu valodniecības teoriju izveidi un verificēšanu ar datora palīdzību, kā arī kognitīvi ticamu skaitļošanas modeļu izveidi, kā valodas apstrāde un apguve varētu notikt smadzenēs.

Datorlingvistikas praktiskie mērķi saistīti ar dabiskās valodas automatizētu apstrādi un valodu tehnoloģiju (piemēram, meklēšanas rīku, mašīntulkošanas risinājumu, dialogsistēmu, runas atpazīšanas metožu u. c.) izstrādi.

Mūsdienās datorlingvistikas praktiskā nozīme strauji pieaug, valodas tehnoloģiju produkti kļuvuši par neatņemamu ikdienas darba sastāvdaļu (piemēram, pareizrakstības pārbaude). Tie ļauj optimizēt uzņēmumu darbu (piemēram, mašīntulkošana, dialogsistēmas), sekmē valodas barjeru radītās plaisas mazināšanos un atvieglo cilvēka komunikāciju ar datorsistēmām.

Datorlingvistikas teorijas, metodes un tehnoloģijas tiek izmantotas korpuslingvistikas, leksikogrāfijas, kognitīvo zinātņu un psiholoģijas pētījumos. Mūsdienās datorlingvistikai ir būtiska loma hipotēzēs balstītu dziļās mašīnmācīšanās risinājumu izveidē, valodas datu kopu un to marķēšanas metodoloģijas specificēšanā, kā arī datu kopu sagatavošanā.

Galvenie sastāvelementi

Datorlingvistikas pētījumi aptver tradicionālās valodniecības pētījumu jomas:

  • fonoloģiju (datorfonoloģija pēta formālo metožu un datortehnoloģiju lietojumu fonoloģiskas informācijas apstrādei un attēlošanai),
  • morfoloģiju (datormorfoloģija pēta rakstītā un runātā vārda apstrādi, tā ietver pētījumus par formāliem morfoloģijas modeļiem, morfoloģisko analīzi un sintēzi, rīkus pareizrakstības pārbaudei un vārda dalīšanai zilbēs, grafēmu-fonēmu pārveidei),
  • leksikogrāfiju (datorleksikogrāfijas pētījumi ietver pētījumus, kā tradicionālo leksikonu lietot datortehnoloģijās un kā datortehnoloģijas izmantot leksikonu izveidē),
  • sintaksi (datorlingvistikas sintakses pētījumi saistīti ar teikuma struktūras modelēšanas iespēju izpēti (parasti ar atkarību gramatiku vai frāzes struktūras gramatiku), rīku un gramatiku izveidi automatizētai sintaktiskai analīzei (parsēšanai), kā arī sintaktiski marķētu tekstu korpusu izveidi),
  • semantiku (datorsemantika ar datortehnoloģijām pēta valodas nozīmi, pēta, kā attēlot vārda, teikuma vai teksta nozīmi un kā modelēt frāžu un teikumu semantiku no to sintaktiskajām komponentēm),
  • diskursu (datorlingvistikā pēta diskursa struktūru un apstrādi, meklējot atbildi uz diviem jautājumiem – pirmkārt, kāda nozīme ir ietverta izteikumu virknē ārpus viena izteikuma un, otrkārt, kā izteikuma konteksts ietekmē tā nozīmi),
  • pragmatiku (datorpragmatika pēta attiecības starp izteikumu un kontekstu no datorzinātņu skatupunkta, lai piedāvātu efektīvus līdzekļus šo attiecību analīzei un attēlošanai).

Valodniecībā galvenokārt tiek veikti korpuslingvistikas un leksikogrāfijas pētījumi, dabiskās valodas statistiskā analīze un valodas formālo modeļu izveide un izvērtēšana ar datorprogrammu palīdzību. Savukārt datorzinātne galvenokārt koncentrējas uz valodas apstrādes rīku (piemēram, teksta segmentēšanu, morfoloģisko, sintaktisko un semantisko analīzi, daudznozīmības novēršanu, teksta ģenerēšanu, dabiskās valodas sapratni u. c.) un tehnoloģiju izveidi (piemēram, pareizrakstības un gramatikas pārbaudi, informācijas izguvi, datizraci, noskaņojuma analīzi, mašīntulkošanu, dialogsistēmām, runas sintēzi, runas atpazīšanu un citām tehnoloģijām).

Nozares teorijas

Datorlingvistikas teorijas bieži balstās uz teorijām un atklājumiem teorētiskajā lingvistikā, loģikā, kognitīvajās zinātnēs un datorzinātnē. Sākotnējie pētījumi (no 20. gs. 50. gadu vidus līdz 60. gadu beigām un 70. gadu sākumam) bija saistīti ar to praktisko lietojamību mašīntulkošanā un dialogsistēmās. Mūsdienās datorlingvistikā pastāv daudz teoriju un metožu. Valodu tehnoloģijās pašlaik dominē dziļā mašīnmācīšanās, un neironu tīklu arhitektūras nepārtraukti pilnveidojas un mainās.

Galvenās pētniecības metodes

Par datorlingvistikas galveno mērķi var uzskatīt valodas modelēšanas iespēju izpēti. Vēsturiski valodas modelēšanai tika izmantotas divas metodes: teorijā balstītas jeb likumbāzētas un datos balstītas (statistiskās un neironu tīklu) metodes un to kombinācijas hibrīdos risinājumos. Likumbāzētās metodes bieži saista ar agrīno datorlingvistikas posmu, kad valodas resursu apjoms digitālā formā bija neliels, tāpēc valodas modelēšanai galvenokārt izmantoja pētnieku veidotus likumus.

Arī statistisko metožu pirmsākumi ir 20. gs. 50. gados un galvenokārt saistīti ar runātās valodas izpēti, mašīntulkošanu, autorības noteikšanu un optisko rakstzīmju atpazīšanu. Kopš 20. gs. 90. gadu vidus arvien vairāk valodu tehnoloģiju izveidē un datorlingvistikas pētījumos izmanto ar datiem saistītas  metodes. Pašlaik plaši lietoti ir neironu tīklu modeļi, kas uzrāda labus rezultātus mašīntulkošanā, runas atpazīšanā un citos uzdevumos, kuru izveidei uzkrāti un sagatavoti nepieciešamie valodas dati.

Īsa vēsture

Par datorlingvistikas sākumu bieži min amerikāņu zinātnieka Vorena Vīvera (Warren Weaver) memorandu, kurā viņš definē mašīntulkošanas uzdevumu, galvenās grūtības un iespējamos risinājumus. Grūtības, ar ko saskārās pirmo mašīntulkošanas sistēmu izstrādātāji, radīja nepieciešamību pēc efektīviem un valodas zināšanās balstītiem valodas izpētes līdzekļiem.

40. gadu beigās un 50. gados notika intensīvs darbs pie automātu un varbūtiskiem modeļiem. Automātu modeļi attīstās no Tjūringa mašīnas modeļa (1936). Angļu matemātiķa Alana Tjūringa (Alan Mathison Turing) darbs veicināja gan Makaloka‒Pitsa neirona izvedi (1943), kas ir vienkāršots mākslīgā neirona modelis un var tikt aprakstīts ar izteikumu loģiku, gan Stefana Klini (Stephen Cole Kleene) darbu pie regulārām izteiksmēm un galīgiem automātiem. Šajā laikā amerikāņu matemātiķis Klods Šenons (Claude Elwood Shannon) izmantoja varbūtiskās metodes diskrētiem Markova procesiem, lai automatizētu valodas apstrādi. K. Šenons arī piedāvāja varbūtiskos algoritmus runātās un rakstītās valodas apstrādei, kas pazīstami kā trokšņainā kanāla un dekodēšanas metafora, kā arī piedāvāja izmantot entropiju valodas informācijas kapacitātes mērījumiem. 

Datorlingvistikas attīstību būtiski ietekmēja Noama Čomska (Noam Chomsky) darbs “Sintaktiskās struktūras” (Syntactic Structures, 1957), kas radīja iespaidu par sintaktisko struktūru modelējamību ar datora palīdzību. Amerikāņu datorzinātnieka Džona Koka (John Cocke) piedāvātais algoritms, kas ļauj iegūt visas teikuma sintaktiskās analīzes (parsējumus) ar bināru bezkonteksta gramatikas analīzes likumu palīdzību (algoritms mūsdienās pazīstams kā CYK – Cocke-Kasami-Younger algoritms), parādīja, ka valodas aprakstīšanai nepieciešami spēcīgāki līdzekļi nekā bezkonteksta gramatikas, radot dažādus formālo gramatiku formālismus, piemēram, vispārīgo frāžu struktūru gramatiku (Generelized Phrase Structure Grammar, GPSG), leksiski funkcionālo gramatiku (Lexical Functional Grammar, LFG), galvenā komponenta frāžu struktūru gramatiku (Head Driven Phrase structure, HPSG) un citus.

50. gadu beigās un 60. gadu sākumā runātās un rakstītās valodas apstrāde tika dalīta divās paradigmās – simboliskā un stohastiskā. Simboliskā virziena attīstību sekmēja N. Čomska darbi un mākslīgā intelekta pētījumi, kas rezultējās pirmajās dabiskās valodas sapratnes sistēmās. Savukārt stohastiskos pētījumos izmanto Beijesa metodi, un pētījumi tika izmantoti optisko rakstzīmju atpazīšanā un autorības noteikšanā. 20. gs. 60. gados radās pirmie tekstu korpusi (piemēram, Brauna korpuss).

1966. gada ASV Zinātņu akadēmijas Valodas automātiskās apstrādes konsultatīvās padomes (Automatic Language Processing Advisory Committee, ALPAC) komisijas ziņojumā tika analizēts mašīntulkošanas devums un rekomendēts pievērsties tādiem valodas apstrādē balstītiem datorlingvistikas pētījumiem, kas palīdzētu valodniekiem pētīt valodu un tās vispārinājumus, pārbaudīt teorijas valodas datos un sekmētu sarežģītu teoriju izveidi un detalizētu pārbaudi.

Pēc ALPAC ziņojuma datorlingvistikas pētījumi notika četros virzienos: varbūtisku runas atpazīšanas algoritmu izveidē (slēptie Markova modeļi, trokšņainā kanāla metafora un dekodēšana), loģikā balstītu gramatikas formālismu izveidē (LFG, noteikto komponentu gramatika (Definite Clause Grammar, DCG) u. c.), dabiskās valodas sapratnes pētījumos, diskursa modelēšanā, pētot diskursa apakšstruktūru, fokusu un automātisku koreferenču atrašanu.

80. gados datorlingvistikas pētnieki atgriezās pie diviem pētījumu modeļiem. Galīgo stāvokļu modeļi atguva popularitāti pēc Ronalda Kaplana (Ronald Kaplan) un Martina Keja (Martin Kay) darba pie galīgo stāvokļu fonoloģijas un morfoloģijas (1981) un Keneta Čērča (Kenneth Church) galīgo stāvokļu sintakses (1980). Savukārt varbūtisko modeļu uzplaukumu ietekmēja IBM varbūtiskie runas atpazīšanas modeļi, kas veicināja varbūtisku vārdšķiru marķēšanas, sintaktiskās parsēšanas un semantikas risinājumu izveidi.

20. gs. beigās populāras kļuva korpusā jeb datos balstītas metodes. Šo metožu strauju izplatību veicināja interneta attīstība un arvien lielāks valodas resursu apjoms elektroniskā formā. Statistiskās metodes uzrādījušas labus rezultātus morfoloģiskās marķēšanas, sintaktiskās analīzes un mašīntulkošanas uzdevumos. Līdz ar interneta attīstību radās nepieciešamība pēc tīmekļa meklētājiem un informācijas izguves rīkiem.

Šajā gadsimtā datos balstītas metodes tiek plaši izmantotas gan dažādos valodas apstrādes uzdevumos, gan valodu tehnoloģiju produktos. Šo metožu attīstību sekmēja gan arvien pieaugošais datu apjoms (tai skaitā sintaktiski un semantiski marķēti dati), gan mašīnmācīšanās risinājumu ienākšana datorlingvistikā, gan būtiskais datoru veiktspējas pieaugums. Līdz ar datora veiktspējas būtisku palielināšanos 21. gs. otrajā desmitgadē arvien plašāk tiek izmantota dziļā mašīnmācīšanās.  

Pašreizējais attīstības stāvoklis

Datorlingvistika, it īpaši valodas tehnoloģijas, pašlaik ir aktīva pētniecības joma. Arvien pieaugošais digitālo datu apjoms sekmē datos balstīto risinājumu straujo attīstību. Praktiskos risinājumos pašlaik dominē valodas modelēšana ar neironu tīklu modeļiem (bieži sauktiem par mākslīgā intelekta risinājumiem), kas uzrādījuši labākus rezultātus nekā iepriekšējie risinājumi. Turpinās teorētiskie pētījumi korpuslingvistikā, strauji attīstās elektroniskajā leksikogrāfijā, kā arī turpinās pētījumi citās tradicionālās datorlingvistikas jomās (morfoloģijā, sintaksē, semantikā, runātās valodas pētniecībā un citur). Tiek veidotas valodas pētījumiem nepieciešamās pētniecības infrastruktūras, piemēram, Viseiropas Valodas resursu pētniecības infrastruktūra CLARIN. 2012. gadā tika publicēts Eiropas līmeņa pētījums par 30 Eiropas valodu situāciju digitālajā vidē ‒“Eiropas valodas digitālajā laikmetā” (Europe's Languages in the Digital Age) ‒, kas norādīja uz nepietiekamu valodu atbalstu jaunajās tehnoloģijās.

Galvenās pētniecības iestādes

Datorlingvistikas pētījumi notiek visā pasaulē, daudzi no tiem veikti angļu valodai un citām plaši lietotām valodām. Vieni no nozīmīgiem pētniecības centriem ir Stenfordas Universitāte (Stanford University), Šefīldas Universitāte (University of Sheffield), Edinburgas Universitāte (University of Edinburgh), Upsalas Universitāte (Uppsala universitet), Prāgas Kārļa universitāte (Univerzita Karlova). Pētījumi notiek arī globālos uzņēmumos: Google, Facebook, Microsoft, IBM un citos.

Svarīgākie periodiskie izdevumi

Datorlingvistika ir strauji augoša zinātņu nozare, tāpēc jaunākie pētījumi meklējami konferenču rakstu krājumos, tādos kā Datorlignvistikas asociācijas konference (Conference of the Association for Computational Linguistics, ACL), Datorlingvistikas konference COLING (Conference on Computational Linguistics), konference “Empīriskās metodes dabiskās valodas apstrādē” (Empirical Methods in Natural Language Processing, EMNLP), konference “Valodas resursi un novērtēšana” (Language Resources and Evaluation, LREC) un citos. Nozares nozīmīgāko žurnālu sarakstu apkopojusi Datorlingvistikas asociācija (Association of computational linguistics), tajā iekļauti tādi periodiskie izdevumi kā Computational Linguistics (kopš 1988. gada), Computer Speech and Language (kopš 1986. gada), International Journal of Speech Technology (kopš 1995. gada), Machine Translation (kopš 1986. gada), Language Resources and Evaluation (kopš 1966. gada), Speech Communication (kopš 1982. gada) un citi.

Saistītie šķirkļi

  • datorlingvistika Latvijā
  • internets
  • mākslīgais intelekts
  • mašīntulkošana

Autora ieteiktie papildu resursi

Tīmekļa vietnes

  • Periodiskie izdevumi datorlingvistikā
  • Schubert, L., ‘Computational Linguistics’, in N. Zalta (ed.), The Stanford Encyclopedia of Philosophy, 2019.

Ieteicamā literatūra

  • Biber, D., Conrad, S. and R. Reppen, Corpus Linguistics, Investigating Language Structure and Use, Cambridge, Cambridge UP, 1998.
    Skatīt bibliotēku kopkatalogā
  • Clark, A., Fox, Ch. and S. Lappin (eds.), The Handbook of Computational Linguistics and Natural Language Processing, New York, John Wiley & Sons, 2010.
    Skatīt bibliotēku kopkatalogā
  • Dipper, S., ‘Theory-driven and Corpus-driven Computational Linguistics, and the Use of Corpora’, in: A. Lüdeling and M. Kytö (eds.), Corpus Linguistics. An International Handbook. Handbooks of Linguistics and Communication Science, Berlin, Mouton de Gruyter, 2008, pp. 68–96.
  • Indurkhya, N. and F.J. Damerau (eds.), Handbook of Natural Language Processing, Boca Raton, Chapman & Hall/CRC, 2010.
    Skatīt bibliotēku kopkatalogā
  • Jurafsky, D. and J.H. Martin, Speech and language processing: An introduction to natural language processing, speech recognition, and computational linguistics, 2nd edn., Upper Saddle River, NJ, Pearson Prentice Hall, 2009.
    Skatīt bibliotēku kopkatalogā
  • Mitkov, R. (ed.), The Oxford Handbook of Computational Linguistics, Oxford, Oxford University Press, 2012.

Inguna Skadiņa "Datorlingvistika". Nacionālā enciklopēdija. (skatīts 27.09.2023)

Kopīgot


Kopīgot sociālajos tīklos


URL

Šobrīd enciklopēdijā ir 4047 šķirkļi,
un darbs turpinās.
  • Par enciklopēdiju
  • Padome
  • Nozaru redakcijas kolēģija
  • Ilustrāciju redakcijas kolēģija
  • Redakcija
  • Sadarbības partneri
  • Atbalstītāji
  • Sazināties ar redakciju

© Latvijas Nacionālā bibliotēka, 2023. © Tilde, izstrāde, 2023. © Orians Anvari, dizains, 2023. Autortiesības, datu aizsardzība un izmantošana