Pirmie pētījumi Latvijā sākti 20. gs. 50. gadu beigās un 60. gadu sākumā. To praktiskā nozīme pieauga līdz ar personālo datoru un interneta parādīšanos, ļaujot datorlingvistikas teorētiskos pētījumus pārvērst plaši izmantotās tehnoloģijās un tādējādi sekmējot latviešu valodas lietojumu digitālajā vidē. Mūsdienās datorlingvistikas pētījumi Latvijā aptver daudzas jomas, ietverot gan valodas resursu izveidi un izpēti, gan valodas modelēšanu un tehnoloģiju izstrādi.
Īsa vēsture
Sākotnēji datorlingvistikas pētījumi Latvijā saistīti ar kvantitatīvo valodas izpēti: grafēmu biežuma analīzi, vārdu biežuma analīzi, vārdu garuma analīzi zilbēs un burtos.
50. gadu beigās un 60. gadu sākumā Elektronikas un skaitļošanas tehnikas institūta pētnieki sadarbībā ar Valodas un literatūras institūtu veica pirmos pētījumus mašīntulkošanā, veidojot krievu-latviešu parindeņu tulkošanas sistēmu, kas ietvēra morfoloģijas likumus un ļāva tulkot vienkāršus paplašinātus teikumus.
1965. gadā Latvijas PSR Latvijas Zinātņu akadēmijas A. Upīša Valodas un literatūras institūtā nodibināta matemātiskās lingvistikas grupa (vēlāk laboratorija un nodaļa), kuru vadīja Tamāra Jakubaite. 1966. gadā Laboratorijas pētnieki laida klajā pirmo latviešu valodas biežuma vārdnīcas sējumu (tehnikas un rūpniecības leksika), kam sekoja laikrakstu un žurnālu leksika (1969), daiļliteratūras leksika (1972) un zinātnes leksika (1976), tika veidota inversā vārdnīca un inversā biežuma vārdnīca. 70. un 80. gados biežuma vārdnīcas tika izmantotas vairāku minimumvārdnīcu izveidē Latvijā un arī Amerikas Savienotajās Valstīs (ASV).
1965. gadā Kanādā Imants Freibergs sāka latvju dainu datubāzes izveidi, par avotu izvēloties Arveda Švābes u. c. sakārtotos “Latviešu tautasdziesmu” 12 sējumus. 70. gados projektā iesaistījās vairāki ASV dzīvojoši latvieši, izveidojot Bostonas/Monreālas dainu masīvu ar 71 000 dziesmu.
20. gs. 70. gados izveidoti pirmie automatizētie latviešu valodas morfoloģiskās analīzes rīki: izstrādāti algoritmi un programmatūra atsevišķu vārdšķiru vārdu morfoloģiskajai analīzei un metodes vārda pamatformas atrašanai (Viktorija Drīzule un Nikolajs Mecs).
Kvantitatīva valodas analīze turpinājās līdz pat 20. gadsimta beigām, nozīmīgus pētījumus kvantitatīvajā valodniecība veikusi Sarma Kļaviņa. 70. gados tika apkopota apjomīga statistiskā informācija par latviešu valodu ‒ vārdšķiru statistiskais raksturojums un gramatisko formu izplatība, funkcionālo stilu leksikas un morfoloģijas kvantitatīvie parametri un cita informācija. 80. un 90. gados tika pētītas metodes tekstu grupēšanai pēc kvantitatīvām pazīmēm, tika veidota 19. gs. dzejas datubāze un analizēti dažu autoru individuālā stila kvantitatīvie parametri.
90. gadu sākumā Latviešu valodas institūta Terminoloģijas nodaļa Valentīnas Skujiņas vadībā sāka terminoloģijas datubāzes izveidi.
80. gadu vidū Latvijas Zinātņu akadēmijas Literatūras, folkloras un mākslas institūta folkloras krātuve kopā ar Latvijas Universitātes Fizikas un matemātikas fakultātes Datorikas nodaļu sāka latviešu tautasdziesmu datubāzes izveidi, par avotu izvēloties Krišjāņa Barona “Latvju dainas”.
1988. gadā Andreja Spektora vadībā datorligvistikas pētījumi tika sākti Latvijas Universitātes Matemātikas un informātikas institūtā (LU MII), un 1992. gadā institūtā izveidota Mākslīgā intelekta laboratorija. 1991. gadā Andrejs Vasiļjevs un Uldis Dzenis nodibināja uzņēmumu “Tilde”.
LU MII datorlingvistikas pētījumi sākās ar Maijas Baltiņas uzsākto Seno tekstu korpusa izveidi, sadarbībā ar Ņūmeksikas Pavalsts Universitāti (New Mexico State University) sākta datorizētas Latviešu valodas vārdnīcas izveide. 1994. gadā sākta Kārļa Mīlenbaha un Jāņa Endzelīna “Latviešu valodas vārdnīcas” elektroniskās versijas izveide, bet sadarbībā ar Tulkošanas un terminoloģijas centru tapa terminoloģijas datubāze.
Līdz ar personālo datoru parādīšanos 90. gadu sākumā aktuāla kļuva tādu automatizētu latviešu valodas rīku izveide, kas ļautu analizēt ne tikai atsevišķus vārdus vai vārdu grupas, bet arī patvaļīgu vārda formu. Tika pētītas metodes automatizētai latviešu valodas vārdu morfoloģiskai un morfēmiskai analīzei un vārdu formu sintēzei. 90. gadu beigās izveidots divlīmeņu latviešu valodas morfoloģijas modelis, kas nodrošina gan latviešu valodas vārdu sintēzi, gan analīzi.
90. gadu sākumā vairākas pētnieku grupas strādāja pie latviešu valodas tekstu pareizrakstības pārbaudītāja izveides. Drīz pēc pareizrakstības pārbaudes rīku komercializācijas (1995. gadā) izstrādāts zilbjdales rīks, kas ievieto pārnesumzīmes latviešu valodas vārdos atbilstoši latviešu valodas zilbjdales likumiem. 2004. gadā izstrādāts pirmais latviešu valodas gramatikas pārbaudītājs, kas, izmantojot šablonus, atpazīst un izlabo biežāk sastopamās kļūdas.
20. gs. beigās un šī gadsimta sākumā Latvijā atsākās mašīntulkošanas pētījumi. 1997. gadā izveidots likumos balstīts starpvalodu mašīntulkošanas sistēmas prototips LATRA biržas informācijas tulkošanai starp angļu un latviešu valodu. 2007. gadā izveidota komerciāla likumos balstīta sistēma tulkošanai no angļu valodas latviešu valodā un no latviešu valodas krievu valodā, kas piemērota lietotājiem ar vājām svešvalodu zināšanām vai pilnīgi bez šīm zināšanām. 2005. gadā Latvijā sākti statistiskās mašīntulkošanas (SMT) pētījumi, izveidots angļu‑latviešu valodas SMT sistēmas prototips juridiskajai jomai. Vēlāk statistiskās mašīntulkošanas sistēmu arhitektūra pilnveidota, iekļaujot latviešu valodas morfoloģiskās un sintaktiskās īpašības. 2011. gadā statistiskās mašīntulkošanas sistēmas Latvijā kļuva komerciālas, un to tulkošanas kvalitāte 2014. gadā pārspēja Google.
Pirmie runātās valodas pētījumi sākti 1995. gadā, izveidojot latviešu valodas īpašvārdu izrunas leksikona datubāzi. 21. gs. sākumā sākta runātās valodas datoranalīze, izstrādāti algoritmi zilbju noteikšanai un metodes grafēmu pārvēršanai fonēmās, pētīta patskaņu ģenerēšana ar formantu sintēzes metodi, veidotas vairākas sistēmas ar praktiskas lietojamības līmeni. 2007. gadā izlaista pirmā pilnā latviešu valodas runas sintēzes sistēma. Tās laika runas sintēzes sistēmās tiek izmantota runas segmentu savirknēšanas metode ‒ runa tiek ģenerēta no iepriekš ierakstītas diktora balss fragmentiem, tos īpaši izvēloties un pārveidojot, lai nodrošinātu saskaņotību un intonatīvo plūdumu.