AizvērtIzvēlne
Sākums
Atjaunots 2023. gada 2. februārī
Inguna Skadiņa

datorlingvistika Latvijā

Datorlingvistikas pētījumiem un valodu tehnoloģiju risinājumu izstrādei ir nozīmīga loma mūsdienu Latvijā.

Saistītie šķirkļi

  • datorlingvistika
  • mašīntulkošana
  • valodniecība
  • valodniecība Latvijā

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Pašreizējais attīstības stāvoklis
  • 3.
    Galvenās pētniecības iestādes
  • 4.
    Svarīgākie periodiskie izdevumi
  • Saistītie šķirkļi
  • Tīmekļa vietnes
  • Ieteicamā literatūra
  • Kopīgot
  • Izveidot atsauci
  • Drukāt

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Pašreizējais attīstības stāvoklis
  • 3.
    Galvenās pētniecības iestādes
  • 4.
    Svarīgākie periodiskie izdevumi

Pirmie pētījumi Latvijā sākti 20. gs. 50. gadu beigās un 60. gadu sākumā. To praktiskā nozīme pieauga līdz ar personālo datoru un interneta parādīšanos, ļaujot datorlingvistikas teorētiskos pētījumus pārvērst plaši izmantotās tehnoloģijās un tādējādi sekmējot latviešu valodas lietojumu digitālajā vidē. Mūsdienās datorlingvistikas pētījumi Latvijā aptver daudzas jomas, ietverot gan valodas resursu izveidi un izpēti, gan valodas modelēšanu un tehnoloģiju izstrādi.

Īsa vēsture

Sākotnēji datorlingvistikas pētījumi Latvijā saistīti ar kvantitatīvo valodas izpēti: grafēmu biežuma analīzi, vārdu biežuma analīzi, vārdu garuma analīzi zilbēs un burtos.

50. gadu beigās un 60. gadu sākumā Elektronikas un skaitļošanas tehnikas institūta pētnieki sadarbībā ar Valodas un literatūras institūtu veica pirmos pētījumus mašīntulkošanā, veidojot krievu-latviešu parindeņu tulkošanas sistēmu, kas ietvēra morfoloģijas likumus un ļāva tulkot vienkāršus paplašinātus teikumus.

1965. gadā Latvijas PSR Latvijas Zinātņu akadēmijas A. Upīša Valodas un literatūras institūtā nodibināta matemātiskās lingvistikas grupa (vēlāk laboratorija un nodaļa), kuru vadīja Tamāra Jakubaite. 1966. gadā Laboratorijas pētnieki laida klajā pirmo latviešu valodas biežuma vārdnīcas sējumu (tehnikas un rūpniecības leksika), kam sekoja laikrakstu un žurnālu leksika (1969), daiļliteratūras leksika (1972) un zinātnes leksika (1976), tika veidota inversā vārdnīca un inversā biežuma vārdnīca. 70. un 80. gados biežuma vārdnīcas tika izmantotas vairāku minimumvārdnīcu izveidē Latvijā un arī Amerikas Savienotajās Valstīs (ASV).

1965. gadā Kanādā Imants Freibergs sāka latvju dainu datubāzes izveidi, par avotu izvēloties Arveda Švābes u. c. sakārtotos “Latviešu tautasdziesmu” 12 sējumus. 70. gados projektā iesaistījās vairāki ASV dzīvojoši latvieši, izveidojot Bostonas/Monreālas dainu masīvu ar 71 000 dziesmu.

20. gs. 70. gados izveidoti pirmie automatizētie latviešu valodas morfoloģiskās analīzes rīki: izstrādāti algoritmi un programmatūra atsevišķu vārdšķiru vārdu morfoloģiskajai analīzei un metodes vārda pamatformas atrašanai (Viktorija Drīzule un Nikolajs Mecs).

Kvantitatīva valodas analīze turpinājās līdz pat 20. gadsimta beigām, nozīmīgus pētījumus kvantitatīvajā valodniecība veikusi Sarma Kļaviņa. 70. gados tika apkopota apjomīga statistiskā informācija par latviešu valodu ‒ vārdšķiru statistiskais raksturojums un gramatisko formu izplatība, funkcionālo stilu leksikas un morfoloģijas kvantitatīvie parametri un cita informācija. 80. un 90. gados tika pētītas metodes tekstu grupēšanai pēc kvantitatīvām pazīmēm, tika veidota 19. gs. dzejas datubāze un analizēti dažu autoru individuālā stila kvantitatīvie parametri.

90. gadu sākumā Latviešu valodas institūta Terminoloģijas nodaļa Valentīnas Skujiņas vadībā sāka terminoloģijas datubāzes izveidi.

80. gadu vidū Latvijas Zinātņu akadēmijas Literatūras, folkloras un mākslas institūta folkloras krātuve kopā ar Latvijas Universitātes Fizikas un matemātikas fakultātes Datorikas nodaļu sāka latviešu tautasdziesmu datubāzes izveidi, par avotu izvēloties Krišjāņa Barona “Latvju dainas”.

1988. gadā Andreja Spektora vadībā datorligvistikas pētījumi tika sākti Latvijas Universitātes Matemātikas un informātikas institūtā (LU MII), un 1992. gadā institūtā izveidota Mākslīgā intelekta laboratorija. 1991. gadā Andrejs Vasiļjevs un Uldis Dzenis nodibināja uzņēmumu “Tilde”.

LU MII datorlingvistikas pētījumi sākās ar Maijas Baltiņas uzsākto Seno tekstu korpusa izveidi, sadarbībā ar Ņūmeksikas Pavalsts Universitāti (New Mexico State University) sākta datorizētas Latviešu valodas vārdnīcas izveide. 1994. gadā sākta Kārļa Mīlenbaha un Jāņa Endzelīna “Latviešu valodas vārdnīcas” elektroniskās versijas izveide, bet sadarbībā ar Tulkošanas un terminoloģijas centru tapa terminoloģijas datubāze.

Līdz ar personālo datoru parādīšanos 90. gadu sākumā aktuāla kļuva tādu automatizētu latviešu valodas rīku izveide, kas ļautu analizēt ne tikai atsevišķus vārdus vai vārdu grupas, bet arī patvaļīgu vārda formu. Tika pētītas metodes automatizētai latviešu valodas vārdu morfoloģiskai un morfēmiskai analīzei un vārdu formu sintēzei. 90. gadu beigās izveidots divlīmeņu latviešu valodas morfoloģijas modelis, kas nodrošina gan latviešu valodas vārdu sintēzi, gan analīzi.

90. gadu sākumā vairākas pētnieku grupas strādāja pie latviešu valodas tekstu pareizrakstības pārbaudītāja izveides. Drīz pēc pareizrakstības pārbaudes rīku komercializācijas (1995. gadā) izstrādāts zilbjdales rīks, kas ievieto pārnesumzīmes latviešu valodas vārdos atbilstoši latviešu valodas zilbjdales likumiem. 2004. gadā izstrādāts pirmais latviešu valodas gramatikas pārbaudītājs, kas, izmantojot šablonus, atpazīst un izlabo biežāk sastopamās kļūdas.

20. gs. beigās un šī gadsimta sākumā Latvijā atsākās mašīntulkošanas pētījumi. 1997. gadā izveidots likumos balstīts starpvalodu mašīntulkošanas sistēmas prototips LATRA biržas informācijas tulkošanai starp angļu un latviešu valodu. 2007. gadā izveidota komerciāla likumos balstīta sistēma tulkošanai no angļu valodas latviešu valodā un no latviešu valodas krievu valodā, kas piemērota lietotājiem ar vājām svešvalodu zināšanām vai pilnīgi bez šīm zināšanām. 2005. gadā Latvijā sākti statistiskās mašīntulkošanas (SMT) pētījumi, izveidots angļu‑latviešu valodas SMT sistēmas prototips juridiskajai jomai. Vēlāk statistiskās mašīntulkošanas sistēmu arhitektūra pilnveidota, iekļaujot latviešu valodas morfoloģiskās un sintaktiskās īpašības. 2011. gadā statistiskās mašīntulkošanas sistēmas Latvijā kļuva komerciālas, un to tulkošanas kvalitāte 2014. gadā pārspēja Google.

Pirmie runātās valodas pētījumi sākti 1995. gadā, izveidojot latviešu valodas īpašvārdu izrunas leksikona datubāzi. 21. gs. sākumā sākta runātās valodas datoranalīze, izstrādāti algoritmi zilbju noteikšanai un metodes grafēmu pārvēršanai fonēmās, pētīta patskaņu ģenerēšana ar formantu sintēzes metodi, veidotas vairākas sistēmas ar praktiskas lietojamības līmeni. 2007. gadā izlaista pirmā pilnā latviešu valodas runas sintēzes sistēma. Tās laika runas sintēzes sistēmās tiek izmantota runas segmentu savirknēšanas metode ‒ runa tiek ģenerēta no iepriekš ierakstītas diktora balss fragmentiem, tos īpaši izvēloties un pārveidojot, lai nodrošinātu saskaņotību un intonatīvo plūdumu.

Pašreizējais attīstības stāvoklis

Pašreiz Latvijā tiek veidoti digitālie latviešu valodas resursi, attīstītas mašīnmācīšanās un mākslīgā intelekta metodes, veidoti tekstu gramatiskās un semantiskās analīzes rīki, mašīntulkošanas tehnoloģijas, runas atpazīšanas un sintēzes tehnoloģijas un tehnoloģijas cilvēka-datora komunikācijai. Latvijas pētnieki un tehnoloģiju izstrādātāji jau kopš 20. gs. beigām aktīvi piedalās Eiropas pētniecības programmās. Kopš 2016. gada Latvija ir Eiropas pētniecības infrastruktūras CLARIN (Common Language Resources and Technology Infrastructure, Vienoto valodas resursu un tehnoloģiju infrastruktūra) biedre.

Valodas resursi

Tiešsaistē pieejami apjomīgi latviešu valodas tekstu korpusi: Līdzsvarotais mūsdienu latviešu valodas korpuss, Latviešu valodas tīmekļa korpuss, Latvijas Republikas Saeimas sēžu stenogrammu korpuss, Seno tekstu korpuss, Mūsdienu latgaliešu tekstu korpuss un citi. Vairāki korpusi ir morfoloģiski marķēti (izmantojot automatizētus morfoloģiskās analīzes rīkus vai manuālu marķēšanu), izveidots sintaktiski un semantiski marķēts latviešu valodas tekstu korpuss. Izveidots latviešu valodas runas korpuss, kas ļāvis radīt runas atpazīšanas sistēmas latviešu valodai.

Internetā pieejamas arī vairākas folkloras materiālu krātuves. Latvijas Universitātes Literatūras, folkloras un mākslas institūta un Latviešu folkloras krātuvē izveidota apjomīga latviešu folkloras resursu tiešsaistes kolekcija, kurā ietverts liels skaits audio un video ierakstu. LU MII ir izveidojis Latviešu teiku un pasaku, ticējumu un sakāmvārdu datorfondu. Krišjāņa Barona veidotais Dainu skapis iekļauts UNESCO Pasaules mantojuma sarakstā, un tiešsaistē ir pieejama tā digitalizētā versija.

Latvijas Nacionālajā bibliotēkā veido Latvijas Nacionālo digitālo bibliotēku (LNDB), kurā pieejamas grāmatas, digitalizētas avīžu kolekcijas, kartes un attēlu, audio un video kolekcijas. LNDB kolekcija “Periodika” piedāvā latviešu, vācu un krievu valodā izdotas avīzes un žurnālus, bet grāmatu portālā iekļautas aptuveni 6000 grāmatas (vairāk nekā 1,5 miljoni lappušu).

Internetā pieejamas dažādas latviešu valodas vārdnīcas. Nozīmīgākās ir “Tēzaurs”, “Latviešu literārās valodas vārdnīca”, “Mūsdienu latviešu valodas vārdnīca”, K. Mīlenbaha un J. Endzelīna “Latviešu valodas vārdnīca”. Tīmekļa vietnē “Letonika.lv” apkopotas vispārīgas un specializētas vārdnīcas 20 tulkošanas virzieniem, kā arī vairāk nekā 40 terminoloģijas vārdnīcu.

Latviešu terminoloģija apkopota Latvijas Nacionālajā terminoloģijas portālā, kopš 2007. gada latviešu valodas terminoloģija iekļauta nozīmīgā Eiropas daudzvalodu terminu resursā “EuroTermBank”.

Valodu tehnoloģijas
Pamattehnoloģiju izveide un pilnveide

Nozīmīgs valodu tehnoloģiju virziens ir pamattehnoloģiju izveide un pilnveide, darbplūsmas un servisi valodas datu apstrādei – lai arī tādas tehnoloģijas kā pareizrakstības pārbaude vai morfoloģiskās analīzes un marķēšanas rīki izveidoti jau 20. gs. beigās, tie tiek nemitīgi pilnveidoti, gan papildinot saturu, gan modernizējot tehnoloģijas (piemēram, jaunākie morfoloģiskie tagotāji izmanto neironu tīklu modeļus). Esošie valodas apstrādes rīki tiek apvienoti darbplūsmās, sekmējot to lietojumu digitālajās humanitārajās zinātnēs.

Mašīntulkošana

Pašlaik Latvijā aktīva pētniecības joma ir mašīntulkošana, kurā sekmīgi tiek izmantotas neironu mašīntulkošanas (NMT) tehnoloģijas. Jaunākie mašīntulkošanas risinājumi integrēti Latvijas valsts pārvaldes valodas tehnoloģiju platformā “Hugo.lv”, kas brīvi pieejama ikvienam Latvijas iedzīvotājam un ir īpaši pielāgota latviešu valodai un valsts pārvaldes dokumentu tulkošanai. Sabiedrības “Tilde” radītās NMT sistēmas uzrādījušas labus rezultātus gan pētnieku rīkotajās sacensībās, gan komercproduktos Eiropas Savienības dalībvalstīm. Trīs gadus pēc kārtas (2017‒2019) ziņu tulkošanas uzdevumā starp angļu valodu un Baltijas valstu valodām (latviešu, lietuviešu un igauņu) sabiedrība “Tilde” uzrādījusi dalītus labākos rezultātus prestižajās mašīntulkošanas darbsemināra (Workshop on Statistical Machine Translation; kopš 2016. gada – Conference on Machine Translation) rīkotajās sacensībās (shared task).

Runātās valodas apstrāde

Latvijā pētījumi un tehnoloģiju izstrāde notiek gan runas atpazīšanas, gan runas sintēzes jomā. Plašāki latviešu valodas runas atpazīšanas pētījumi kļuva iespējami 2013. gadā, pēc tam, kad tika izveidots pirmais latviešu runātās valodas korpuss. Pašlaik runas atpazīšanas tehnoloģijas var atpazīt apmēram 80 % no ierunātā, ja audioieraksta kvalitāte ir pietiekami laba, un sasniedz pat 94 % precizitāti specializētos lietojumos. Runas atpazīšanā tiek pētīti un veidoti specializēti risinājumi tādām jomām kā medicīna, telekomunikācijas, klientu apkalpošana un citām.

Virtuālie sarunu biedri

Virtuālie sarunu biedri ir jauns aktuāls pētniecības virziens pasaulē. Šajā virzienā sekmīgi darbojas arī pētnieki Latvijā. Pirmie latviski runājošie virtuālie sarunu biedri jau “strādā” vairākās valsts pārvaldes iestādēs: Una – Uzņēmumu reģistrā, Toms ‒ Valsts ieņēmumu dienestā, Justs – Valsts vienotajā datorizētajā zemesgrāmatā.

Dabiskās valodas sapratne un tekstrade

Dabiskās valodas sapratne un tekstrade ir samērā jauns pētījumu virziens, kura mērķis ir izstrādāt metodes latviešu valodas teksta attēlošanai abstraktā nozīmes reprezentācijā un metodes teksta (arī daudzvalodu) ģenerēšanai no tās, kā arī no datiem. Tā ietver vārdu, izteikuma un teksta neviennozīmības novēršanu, ontoloģiju izveidi un koreferenču atpazīšanu.

Galvenās pētniecības iestādes

Pašlaik sistemātiskus pētījumus datorlingvistikā un valodas tehnoloģijās veic LU MII un sabiedrība “Tilde”.

LU MII Mākslīgā intelekta laboratorija veic gan runātās, gan rakstītās valodas izpēti. Laboratorijas darbība latviešu valodas datorlingvistikas pētījumos un izstrādēs aptver gandrīz visus analīzes un sintēzes līmeņus: mašīnlasāmas vārdnīcas un ontoloģijas, teksta korpusu un runas korpusu izveidi, latviešu valodas runas sintēzi un atpazīšanu, teksta sintaktisko un semantisko analīzi strukturētas informācijas izguvei, cilvēka-datora komunikāciju, daudzvalodu tekstradi no abstraktām nozīmes reprezentācijām un no datiem, zināšanu attēlošanu kontrolētā dabiskā valodā. Laboratorija sadarbojas gan ar zinātniskām organizācijām, gan ar uzņēmējiem, kā arī ārvalstu pētniekiem. Latvijas Zinātņu akadēmijas laboratorijas pētnieku izveidoto semantiskās analīzes tehnoloģiju atzina par vienu no 2016. gada nozīmīgākajiem Latvijas zinātnes sasniegumiem. 2016. gadā laboratorijas pētniekiem prestižajās “SemEval” sacensībās bija labākais rezultāts semantiskās analīzes uzdevumā, bet 2017. gada sacensībās ‒ labākais rezultāts tekstrades uzdevumā.

Praktiskas ievirzes pētījumus datorlingvistikā un valodas tehnoloģijās jau kopš 90. gadu sākuma veic sabiedrība “Tilde”. Pašlaik pētījumi un praktisku risinājumu izstrāde galvenokārt koncentrējas ap automatizētas tulkošanas risinājumu izveidi, cilvēka-datora saziņas modelēšanu un runas tehnoloģijām. Uzņēmuma radītās tehnoloģijas tiek izmantotas arī ārpus Latvijas, piemēram, mašīntulkošanas risinājumus izmanto Eiropas Savienības valstu prezidentūras. “Tilde” sadarbojas ar vairāk nekā 30 zinātniskajām organizācijām un uzņēmumiem Latvijā un ārvalstīs, ir daudzu starptautisku organizāciju biedrs. Latvijas Zinātņu akadēmija “Tildes” un LU Datorikas fakultātes izstrādāto neironu mašīntulkošanas risinājumu atzina par vienu no 2018. gada nozīmīgākajiem Latvijas zinātnes sasniegumiem.

Digitālie valodas resursi tiek veidoti un ar tiem saistītie datorlingvistikas pētījumi tiek veikti arī citās pētniecības iestādēs – Latvijas Universitātes Latviešu valodas institūtā, Latvijas Universitātes Lībiešu valodas institūtā, Latvijas Universitātes Literatūras, folkloras un mākslas institūtā, Latvijas Nacionālajā bibliotēkā, Liepājas Universitātē, Ventspils Augstskolā, Rēzeknes Tehnoloģiju akadēmijā un citur.

Svarīgākie periodiskie izdevumi

Kopš 2004. gada reizi divos gados notiek konference “Baltic HLT” (Human Language Technologie – The Baltic Perspective). Konferences rakstu krājumi atspoguļo jaunākos sasniegumus datorlingvistikā Baltijas valstīs, arī Latvijā.

Saistītie šķirkļi

  • datorlingvistika
  • mašīntulkošana
  • valodniecība
  • valodniecība Latvijā

Autora ieteiktie papildu resursi

Tīmekļa vietnes

  • “Clarin-LV” repozitorijs: repository.clarin.lv
  • Latviešu valodas korpusu apkopojums
  • Latviešu teiku un pasaku, ticējumu un sakāmvārdu datorfonds
  • Latvijas Nacionālais terminoloģijas portāls
  • Latvijas Nacionālās digitālās bibliotēkas tīmekļa vietne “Grāmatas”
  • Latvijas Nacionālās digitālās bibliotēkas tīmekļa vietne “Periodika”
  • Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija
  • Līdzsvarotais mūsdienu latviešu valodas korpuss
  • Sabiedrība “Tilde”
  • Vārdnīca “Tēzaurs”

Ieteicamā literatūra

  • Latviešu valoda digitālajā vidē. Rakstu krājums, Rīga, Latviešu valodas aģentūra, 2012.
    Skatīt bibliotēku kopkatalogā
  • Skadiņa, I. et al., Latvian Language in the Digital Age, Berlin, Heidelberg, Springer, 2012.
    Skatīt bibliotēku kopkatalogā
  • Vasiļjevs, A. un I. Skadiņa, ‘Valodas tehnoloģijas’, A. Veisbergs (red.), Latviešu valoda, Rīga, LU Akadēmiskais apgāds, 2013, 453.‒475. lpp.
    Skatīt bibliotēku kopkatalogā

Inguna Skadiņa "Datorlingvistika Latvijā". Nacionālā enciklopēdija. (skatīts 25.09.2023)

Kopīgot


Kopīgot sociālajos tīklos


URL

Šobrīd enciklopēdijā ir 4033 šķirkļi,
un darbs turpinās.
  • Par enciklopēdiju
  • Padome
  • Nozaru redakcijas kolēģija
  • Ilustrāciju redakcijas kolēģija
  • Redakcija
  • Sadarbības partneri
  • Atbalstītāji
  • Sazināties ar redakciju

© Latvijas Nacionālā bibliotēka, 2023. © Tilde, izstrāde, 2023. © Orians Anvari, dizains, 2023. Autortiesības, datu aizsardzība un izmantošana