AizvērtIzvēlne
Sākums
Atjaunots 2023. gada 8. martā
Everita Andronova,Ilze Auziņa

korpuslingvistika

(no latīņu corpus 'ķermenis' un lingua 'valoda'; angļu corpus linguistics, vācu Korpuslinguistik, franču linguistique de corpus, krievu корпусная лингвистика), arī korpusa lingvistika
datorlingvistikas apakšnozare, kurā valodas parādības tiek pētītas, izmantojot lielu mašīnlasāmu, strukturētu tekstu un/vai transkribētas runas ierakstu kopumu – valodas korpusu

Saistītie šķirkļi

  • internets
  • valodniecība
  • valodniecība Latvijā

Nozares un apakšnozares

datorlingvistika
  • korpuslingvistika

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Praktiskā un teorētiskā nozīme
  • 3.
    Galvenie sastāvelementi
  • 4.
    Nozares teorijas
  • 5.
    Galvenās pētniecības metodes
  • 6.
    Īsa vēsture
  • 7.
    Pašreizējais attīstības stāvoklis
  • 8.
    Galvenās pētniecības iestādes
  • 9.
    Svarīgākie periodiskie izdevumi
  • 10.
    Nozīmīgākie pētnieki
  • Multivide 2
  • Saistītie šķirkļi
  • Tīmekļa vietnes
  • Ieteicamā literatūra
  • Kopīgot
  • Izveidot atsauci
  • Drukāt

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Praktiskā un teorētiskā nozīme
  • 3.
    Galvenie sastāvelementi
  • 4.
    Nozares teorijas
  • 5.
    Galvenās pētniecības metodes
  • 6.
    Īsa vēsture
  • 7.
    Pašreizējais attīstības stāvoklis
  • 8.
    Galvenās pētniecības iestādes
  • 9.
    Svarīgākie periodiskie izdevumi
  • 10.
    Nozīmīgākie pētnieki

Pirmie mašīnlasāmie valodas korpusi tika veidoti 20. gs. 50. gados Lielbritānijā, Zviedrijā, Norvēģijā un Amerikas Savienotajās Valstīs (ASV), tad terminu “korpuss” sāka lietot mūsdienu izpratnē. Termins “korpuslingvistika” radies tikai 20. gs. 80. gados.

Korpuslingvistikas pētījumu lokā ir valoda, tās struktūra un lietojums. Korpuslingvistiku uzskata arī par metožu kopumu valodas izpētei un analīzei. Korpuslingvistikas metodes izmanto visu tradicionālo valodniecības nozaru pētījumiem.

Datorlingvistikas pētījumi ir balstīti uz mašīnlasāmiem valodas datiem, kas strukturētā formā pieejami korpusos. Savukārt korpuslingvistikā tiek izmantotas datorlingvistikas metodes, un tā cieši saistīta ar datorzinātņu attīstību. Korpuslingvistikā tieši korpusos iekļautie valodas dati ir galvenais izpētes objekts, savukārt datorlingvistikā kopumā korpusi tiek izmantoti dažādu problēmu risināšanai, t. i., korpuslingvistikai un korpusiem ir liela nozīme jaunu metožu izstrādē daudzās datorlingvistikas jomās, kā arī esošo metožu uzlabošanā.

Praktiskā un teorētiskā nozīme

Valodas korpusiem ir nozīmīga vieta valodas deskriptīvā analīzē, un, lai arī deskriptīvisms tiek pretstatīts teorētiskajai valodniecībai, tomēr korpuslingvistikas empīriskie rezultāti noder arī teorētiskajā valodniecībā. Korpusi analīzei nodrošina kvantitatīvi nozīmīgus, vairākkārt izmantojamus datus un iespēju pārbaudīt vai apstrīdēt hipotēzes par kādu valodas parādību vai valodu kopumā. Korpuslingvistika teorētiskajai lingvistikai piedāvā: 1) apstiprinājumu kādas valodas parādības eksistencei, 2) informāciju par valodas parādības biežumu un izplatību, 3) liecību par valodas parādību sintagmatiskajām attieksmēm.

Korpuslingvistika veicinājusi lielo datu (big data) izmantošanu pētniecībā un dabiskās valodas apstrādē. Daudzas mūsdienās plaši izmantotas valodu tehnoloģijas, piemēram, mašīntulkošana, runas atpazīšanas sistēmas, pareizrakstības pārbaudītāji, ir veidoti, izmantojot korpusus. Korpuslingvistika ir radikāli mainījusi, piemēram, vārdnīcu izstrādi, tulkošanas teoriju un valodu mācīšanas metodiku.

Korpusu izmanto 1) leksikogrāfijā un terminradē, izstrādājot korpusā balstītas vārdnīcas un gramatikas, mašīnlasāmas vārdnīcas, 2) mašīntulkošanas rīku izstrādē, 3) runas tehnoloģiju izstrādē (runas atpazīšanas sistēmu trenēšanā un apmācībā, korpusā balstītā teksta-runas sintēzes izstrādē), 4) dabīgās valodas apstrādes (natural language processing, NLP) rīku izstrādē (marķēšanas un parsēšanas rīki), 5) mašīnmācīšanās nodrošināšanai, 6) valodu apguvē; 7) digitālajās humanitārajās zinātnēs.

Galvenie sastāvelementi

Korpuslingvistika nav saistīta ar kādu konkrētu valodas aspektu, bet kā metožu kopu to var izmantot gandrīz visās valodniecības jomās. 21. gs. mēdz runāt arī par korpusā balstītu runas sintēzi, korpusā balstītu sociolingvistiku, korpusa pragmatiku, korpusa fonoloģiju un tamlīdzīgi.  

Nozares teorijas

Vācu korpuslingvists Volfgangs Toiberts (Wolfgang Teubert) izteicis minējumu, ka tieši teorētiskā ietvara trūkums neļauj korpuslingvistikai attīstīties tālāk, jo daļa korpuslingvistu par savu uzdevumu uzskata vien empīrisko datu nodrošināšanu valodniecībā.

Lankasteras Universitātes (Lancaster University) korpuslingvisti ‒ galvenokārt Tonijs Makenerijs (Tony McEnery), Pols Beikers (Paul Baker), Endrū Vilsons (Andrew Wilson), Endrū Hārdijs (Andrew Hardie) ‒ pārliecināti pārstāv dominējošo viedokli, ka korpuslingvistika ir metožu un principu sistēma ar teorētisku statusu, bet tā nav teorija, un aizrāda, ka pat tie valodnieki, kas korpuslingvistiku uzskata par patstāvīgu disciplīnu, vienalga tās aprakstā operē ar jēdzieniem “pieeja” un “metodoloģija”.

Viens no korpuslingvistikas stūrakmeņiem ir teorija par kolokācijām (kolokācijas plašākā izpratnē ir vārdu savienojumi, kas parasti sastopami vienā apkaimē). 20. gs. 50. gados angļu valodnieks Džons Ruperts Fērts (John Rupert Firth) uzsvēra, ka vārdu var saprast pēc tā apkaimes. Dž. R. Fērta teorija par nozīmes saistību ar kontekstu (contextual theory of meaning, context of situation) ir distributīvās semantikas (distributional semantics) pamatā. Viņa ideju turpināja angļu valodnieks Džons Sinklērs (John McHardy Sinclair), kas 20. gs. 60.–70. gados Edinburgā aizsāka pētījumu par angļu valodas kolokācijām nelielā 135 000 vārdlietojumu korpusā.

Dž. Sinklērs, sekojot Dž. R. Fērta izpratnei par kolokācijām, pievērsa uzmanību nozīmes nesējam tekstā, uzsvaru no leksēmas pārnesot uz vairākvārdu vienību (multi-word units). Tāpat Dž. Sinklērs runāja par atvērtās izvēles (open choice) un idiomu principu valodas runātāja kompetencē: teksta producēšana ietver gan brīvu vārdu savienojumu veidošanu, izvēloties to komponentus no atvērta saraksta (atvērtā izvēle), gan iepriekš konstruētu vairākvārdu vienību lietošanu (idiomas princips). Šādas nosacītas frāzes tiek plaši izmantotas gan datorlingvistikā, gan leksikogrāfijā, kā arī valodas apguvē, mašīntulkošanā, runas sintēzē un citur.

Itāļu korpuslingviste Elēna Tonjini-Bonelli (Elena Tognini-Bonelli) 21. gs. sākumā pretstatījusi korpusā balstītu (corpus-based) un korpusa vadītu (corpus-driven) analīzi. Pretstatījuma pamatā ir lejupēja (top-down) un augšupēja (bottom-up) pieeja. Korpusā balstīta analīze izmanto korpusu kādas hipotēzes vai teorijas pierādīšanai. Savukārt korpusa vadīta analīze, pētot korpusa datus, ļauj nonākt pie jauniem teorētiskiem secinājumiem. Šīs analīzes piekritēji iebilst pret korpusa anotēšanu, turpretī viņu oponenti tieši uzsver anotēšanas procesa nozīmi, kas atvieglo arī koligāciju analīzi.

Galvenās pētniecības metodes

Analizējot lielus un strukturētus valodas korpusus, iegūst objektīvus datus par valodas lietojumu reālos tekstos (un runā). Korpuslingvistikas metodes ietver empīrisku valodas izpēti, iegūstot rezultātus, kas ir precīzāki, vieglāk pārbaudāmi un salīdzināmi.

Lielbritānijas zinātnieki Šons Voliss (Sean Wallis) un Džeralds Nelsons (Gerald Nelson) izšķir šādas metodes: anotēšana, abstrakcija un analīze. Anotēšana ir korpusa papildināšana ar strukturālo, morfoloģisko, sintaktisko un citu marķējumu; tā cieši saistīta ar teorētiskās valodniecības nostādnēm. Abstrakciju izmanto izvērstajā meklēšanā, kā arī likumos balstītā mācīšanā. Savukārt analīze ir saistīta ar plašām statistiskām iespējām.

Konkordance

Galvenie valodas korpusa izpētes instrumenti ir konkordance, dažādi (vārdu, vārdformu) saraksti un statistiskās analīzes rīki. Konkordance (1. attēls) ir korpusā atrasto vārdu vai vārdu savienojumu lietojumu saraksts kontekstā, tā ļauj skatīt kontekstā modeļus, kas atkārtojas. Valodas analīzē plaši tiek lietots vārdformu, lemmu, biežuma, arī inversais indekss. Ja korpuss ir anotēts, ir iespējams veikt sarežģītākus vaicājumus.

1. attēls. Leksēmas "korpuss" konkordances piemērs (Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss LVK2018).

1. attēls. Leksēmas "korpuss" konkordances piemērs (Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss LVK2018).

Kolokāciju analīze

Kolokāciju analīzi parasti veic vārdu līmenī. Plašākā nozīmē tā ir vārda apkaime, šaurākā – bieži lietotu vārdu savienojums. Kolokācijas ir svarīgs izpētes objekts semantikā un sintaksē. Analizējot korpusu ar konkordances rīku, tiek veikta atslēgas vārda konteksta (key word in context, KWIC) analīze, ņemot vērā kreisās un labās puses apkaimi (kontekstu). Kolokāciju analīze balstās novērojumā, ka katrai leksēmai ir kāds noteikts konteksts, kurā tā ir sastopama biežāk nekā citos. Lai gan kolokācijas runātājs var pamanīt arī intuitīvi, drošāk tās noteikt tieši statistiski.

Kolokāciju analīze ļauj statistiski noteikt kādas leksēmu spēju piesaistīt citu leksēmu; no statistiskajām metodēm kolokāciju kandidātu atlasīšanā un analīzē visbiežāk tiek izmantota savstarpējā informācija (Mutual Information), z mērs (z-score), t mērs (t-score), tāpat arī iespējamību attiecības logaritms (the log likelihood ratio, G2), Daisa koeficients (Dice coefficent) un Fišera precīzais tests (Fisher’s exact test).

Korpuslingvistikā kolokāciju analīze ir svarīgākā un biežāk lietotā metode, kolokācijas izmanto gan leksikogrāfijā (iekļaujot tās vārdnīcas šķirklī), gan valodas mācīšanā (piemēram, lai paskaidrotu sinonīmu rindu), mašīntulkošanā un citur. Kolokāciju analīze ir svarīga situāciju semantikā (frame semantics). Apjomīgos korpusos analizējot koligācijas (gramatisko kategoriju savstarpējās attiecības sintaktiskā struktūrā), ar statistikas palīdzību iespējams noteikt vārdu savienojumu modeļus (patterns), kurus tālāk izmanto leksikogrāfijā un pedagoģijā.

No korpusa automātiski iespējams iegūt arī vārdu skices (word sketches), kas ir vārda sintaktiski semantiskais modelis (2. attēls).

2. attēls. Angļu valodas darbības vārda read ‘lasīt’ lietošanas modeļi (fragments) Britu akadēmiskajā runātās valodas korpusā (British Academic Spoken English Corpus, BASE).

2. attēls. Angļu valodas darbības vārda read ‘lasīt’ lietošanas modeļi (fragments) Britu akadēmiskajā runātās valodas korpusā (British Academic Spoken English Corpus, BASE).

Kvantitatīvās analīzes metodes

Kvantitatīvai valodas analīzei tiek izmantoti dažādi statistiskie rādītāji, piemēram, absolūtais un relatīvais biežums korpusā, arī vārda rangs. Izmanto arī citas kvantitatīvās teksta analīzes metodes (teksta blīvuma, teksta leksiskās piesātinātības noteikšana un citas).

Pētot dažādu valodu vārdu biežumu sarakstus, 1935. gadā amerikāņu zinātnieks Džordžs Zifs (George Kingsley Zipf) pamanīja likumsakarību, ka tikai neliels skaits vārdu ir bieži lietots, lielākā daļa leksikas ir ar nelielu biežumu. Zifa likums (Zipf’s law) nosaka, ka dabīgā valodā vārda relatīvais biežums ir proporcionāli apgriezts tā kārtas numuram biežuma sarakstā ‒ visbiežāk lietotais vārdlietojums korpusā būs sastopams aptuveni divas reizes biežāk nekā otrais biežāk lietotais, trešais biežāk lietotais trīs reizes retāk nekā visbiežāk lietotais un tā tālāk. Zifa likumam ir dažādi atvasinājumi valodniecībā un citu zinātņu jomās.

Analizējot vārdu un vārdformu izplatību korpusā, secināts, ka biežāk lietotie vārdlietojumi pārklāj lielāko daļu teksta, piemēram, Britu nacionālajā tekstu korpusā (British National Corpus, BNC) 7500 biežāk lietotie vārdlietojumi pārklāj 90 % korpusa. Valodniekus interesē arī t. s. hapax legomena (saukti arī par hapaksiem – vārdiem, kas korpusā sastopami tikai vienu reizi), ko bieži mēdz izmantot kāda teksta autorības jautājuma risināšanā.

Īsa vēsture

Jau ilgi pirms korpuslingvistikas kā zinātnes nozares izveides leksikogrāfijā tika izmantoti eksperimentāli iegūti dati, piemēram, Londonas grāmatu tirgotājs Aleksandrs Krudens (Alexander Cruden) 18. gs. pirmajā pusē publicēja Bībeles vārdu indeksu (konkordances). Līdz pat 20. gs. otrajai pusei, pētot vārdu nozīmi un lietojumu un veidojot vārdnīcas, tika izmantotas kartotēkas, manuāli veidoti vārdu indeksi jeb saraksti.

20. gs. antropoloģiskās valodniecības pārstāvji, piemēram, Francis Boass (Franz Boas), kā arī strukturālisti, piemēram, Edvards Sepīrs (Edward Sapir), Leonards Blūmfīlds (Leonard Bloomfield), tāpat izmantoja korpuslingvistikas metodes valodas aprakstā.

Korpuslingvistika mūsdienu izpratnē jeb modernā korpuslingvistika, kas valodas analīzē izmanto apjomīgus datorizētus korpusus, izveidojusies 20. gs. 50. un 60. gados. Mūsdienu korpuslingvistikas teorētisko pamatu lika Henrija Kučeras (Henry Kučera) un Vintropa Nelsona Frensisa (Winthrop Nelson Francis) darbs “Mūsdienu amerikāņu angļu valodas datorizēta analīze” (Computational Analysis of Present-Day American English, 1976). Tas balstīts Brauna korpusa analīzē (Brown Corpus of Standard American English, 1961). Vēl viens nozīmīgs darbs bija Rendolfa Kvirka (Randolph Quirk) raksts “Ceļā uz angļu valodas lietojuma aprakstu” (Towards a Description of English Usage, 1960).

Pirmajiem mašīnlasāmajiem korpusiem kā zelta standarts tika izvēlēts lielums – miljons vārdlietojumu, tie bija vienvalodas korpusi, piemēram, Brauna korpuss, Lankasteras-Oslo/Bergenas korpuss (Lancaster-Oslo-Bergen Corpus, LOB), kas izstrādāts 1964. gadā, un Londonas-Lundas korpuss (London-Lund Corpus of Spoken Corpus), kura izstrāde sākta 1959. gadā un kas ir publicēts 1990. gadā. Tos dēvē arī par 1. paaudzes korpusiem.

Korpuslingvistikas aizsākumos raisījās asas diskusija starp korpuslingvistikas aizstāvjiem un tās pretiniekiem, kur viens no galvenajiem korpusa noliedzējiem bija amerikāņu valodnieks Noams Čomskis (Noam Chomsky). N. Čomskis pārmeta, ka jebkurš valodas korpuss ir nepilnīgs, jo tajos trūkst teikumu, kas ir acīmredzami, kas ir nepareizi vai kas ir nepieklājīgi; tādējādi valodas apraksts būs tikai nepilnīgs vārdu saraksts.

Kopš 20. gs. 50. gadiem dominējošais ģeneratīvās valodniecības viedoklis nesakrita ar galvenajām korpuslingvistikas tēzēm, kas uzsver valodas lietojumu, nevis dzimtās valodas runātāja kompetenci; pievēršas valodas aprakstam, nevis universālijām; pēta valodas kvantitatīvos un kvalitatīvos modeļus, izmantojot empīrisku, nevis racionālu pieeju. Tomēr šis pretstats ir visai vienkāršots, uzskatot, ka visi korpuslingvisti ir deskriptīvisti, kas pārņemti ar korpusā sastapto konstrukciju uzskaiti, bet ģeneratīvistus vispār neinteresē dati savu teoriju izstrādē.

Nozīmīgs bija amerikāņu valodnieka Čārlza Filmora (Charles Fillmore) 1991. gadā izvirzītais pretstatījums starp korpuslingvistu un ar datoru apbruņotu t. s. klubkrēsla valodnieku (corpus linguistics vs computer-aided armchair linguistics), kuri viens otram pārmet, kāpēc būtu jātic otram vai kāpēc tas ir interesanti citam. Č. Filmors secinājis, ka neviens korpuss, lai cik liels tas būtu, neietvers visu informāciju par angļu valodas leksiku un gramatiku, un ka jebkurš korpuss, lai cik mazs tas būtu, tomēr sniegs faktus, ko citādā veidā nevarētu iegūt. Tādējādi korpuslingvistika pēc asās N. Čomska kritikas tika “reabilitēta”.

20. gs. 80. gados korpuslingvistikas atdzimšana bija saistīta ar kvantitatīvo lingvistiku un korpusā balstītu valodas tehnoloģiju rašanos. Pirmie mašīnlasāmie korpusi bija daudzējādi ļoti noderīgi un tika izmantoti dažādiem pētījumiem, tomēr drīz vien izrādījās, ka noteiktiem uzdevumiem nepieciešamas plašākas datu kopas (piemēram, leksikogrāfijā un dabiskās valodas apstrādē).

Nozīmīgākie korpusi, kuru izveide sākta 20. gs. 80. gados: Britu Nacionālais korpuss un COBUILD korpuss. Nozīmīgi ir arī Longmena korpusi (Longman Corpus Network), uz kuru pamata tiek veidotas dažādas vārdnīcas, piemēram, “Longmena mūsdienu angļu valodas vārdnīca” (Longman Dictionary of Contemporary English, 1995), “Longmena kolokāciju vārdnīca un tēzaurs” (Longman Collocations Dictionary and Thesaurus, 2013) un citi.

Pateicoties datoru attīstībai, attīstās arī valodas tehnoloģiju izstrāde un valodas resursu uzkrāšana. 20. gs. 90. gados risinājās aktīvas diskusijas:

1)     kas īsti ir valodas korpuss (ar ko tas atšķiras no citiem uzkrātiem datiem elektroniski, piemēram, elektroniskām bibliotēkām vai arhīviem, kādas valodas datorfonda un tamlīdzīgi);

2)     kāds ir labs korpuss;

3)     kā sasniegt līdzsvaru un nodrošināt reprezentativitāti;

4)     cik daudz papildu informācijas (metadatus un marķējumu) var un vajag pievienot korpusam (piemēram, Dž. Sinklers uzticējās “tīram” korpusam, turpretī daudzi novērtē morfoloģiski vai sintaktiski marķēta korpusa sniegtās iespējas).

Tāpat notika aktīvas diskusijas, vai korpuslingvistiku var uzskatīt par patstāvīgu valodniecības nozari vai tomēr tā ir metodoloģija (tas ir dominējošais viedoklis).

20. gs. 90. gados izveidojās divi atšķirīgi korpusu izveides principi: monitoringa jeb novērojumu korpuss (monitor corpus), kura apjoms pastāvīgi tiek paplašināts, laika gaitā iekļaujot tajā arvien jaunus tekstus, un līdzsvarotais jeb izlases korpuss (arī references korpuss, atsauces korpuss, reference corpus), kurā iekļauti konkrēta laika posma teksti vai tekstu fragmenti noteiktās proporcijā, veidojot līdzsvarotu un reprezentatīvu izlases kopu.

Iespējams, par trešās, t. i., jaunākās, paaudzes korpusiem var dēvēt tos, kuru apjoms mērāms simtos miljonu vārdlietojumu, kuri tiek veidoti, izmantojot tekstu apstrādes un analīzes tehnoloģijas, un tiek izmantoti valodas tehnoloģiju izstrādei, piemēram, OPUS (The Open parallel corpus) projekts, kas ir lielākā tulkoto tīmeklī atrodamo tekstu kolekcija, kurā tiek iekļauti arvien jauni brīvi pieejami tiešsaistes dati.

Pašreizējais attīstības stāvoklis

Pieaug interese par korpusiem un korpuslingvistiku. Izstrādāto valodas korpusu skaits un daudzveidība ir ļoti liela. Ir izveidoti bulgāru, čehu, igauņu, japāņu, krievu, ķīniešu, latviešu, lietuviešu, somu, vācu un citu valodu nacionālie korpusi. Lai gan lielākā daļa ir tekstu korpusi, arvien pieaug arī runas, multimodālo (to skaitā arī zīmju valodas) korpusu skaits. Tiek veidoti dažādi specializētie korpusi, kas paplašina korpuslingvistikas pētījumu lauku un attīsta metodes, kā arī veicina programmrīku izstrādi.

21. gs. otrajā desmitgadē ir iegūtas zināšanas par to, kā veidot līdzsvarotu un reprezentatīvu korpusu, kas sniedz ticamu informāciju par valodas gramatisko struktūru. Liels daudzums mašīnlasāmu tekstu nenoliedzami atvieglo reprezentatīvu daudzu miljonu vārdlietojumu lielu korpusu izveidi, bet nemazina pastāvošās problēmas: tūkstošiem tekstu apkopošana, autortiesību jautājums, personas datu aizsardzība, tekstu formāta vienādošana un citas.

Daudzi korpusi veidojas kā mūsdienu saziņas tehnoloģiju blakusprodukti, no tīmekļa datiem kompilēti miljardiem vārdlietojumu lieli korpusi, piemēram, amerikāņu un britu angļu valodas un spāņu valodas Google grāmatu korpusi (Google books corpora).

Lielākie mašīnlasāmie korpusi ir, piemēram, Britu parlamenta runu korpuss (Hansard korpuss), Oksfordas angļu valodas korpuss (The Oxford English Corpus, EOC), Mūsdienu Amerikas angļu valodas korpuss (The Corpus of Contemporary American English, COCA), Vācu references korpuss (Deutsches Referenzkorpus, DeReKo), Nepāliešu valodas tekstu korpuss (The Nepali Text Corpus), Krievu valodas nacionālais korpuss (Национальный корпус русского языка), Mūsdienu spāņu valodas korpuss (Corpus del Español Actual, CEA).

Līdztekus nacionālajiem korpusiem tiek veidotas dažādas tekstu datubāzes / digitālās bibliotēkas, piemēram, periodikas (arī konkrētu laikrakstu) datubāzes (The Wall Street Journal, The New York Times u. c.), ziņu korpusi (piemēram, Reuters), kas ne vienmēr ir publiski pieejami, bet tiek izmantoti datortehnoloģiju izstrādē un jaunu datu sagatavē.

Ir vairāki spēcīgi korpuslingvistikas pētījumu virzieni, piemēram, valodas apguve, parlamentārie dati, sintaktiski marķēti dati, starptautiskā iniciatīva “Universālās atkarības” (Universal Dependencies), kas ietekmē teorētiskās un lietišķās valodniecības attīstību.

Lai ļautu pētniekiem izmantot, uzglabāt un koplietot valodas resursus, tostarp korpusus, tiek veidotas infrastruktūras un repozitoriji, kas nodrošina ilgtermiņa risinājumus un tehnoloģiju pakalpojumus digitālo valodas datu un rīku izvietošanai, savienošanai un analīzei, piemēram, Lingvistisko datu konsorcijs (The Linguistic Data Consortium, LDC), Eiropas Valodas resursu asociācija (European Land Registry Association, ELRA), Vienota valodas resursu un tehnoloģiju infrastruktūra (Common Language Resources and Technology Infrastructure, CLARIN). Arvien vairāk korpusu tiek piedāvāti kā atvērtie valodas dati, ko veicina arī Atvērto valodas datu iniciatīva (Linguistic Linked Open Data).

Galvenās pētniecības iestādes

Nozīmīgākās pētniecības iestādes un centri ir Londonas Universitātes koledža (University College London, UCL), Lankasteras Universitāte, Birmingemas Universitāte (University of Birmingham) un Notingemas Universitāte (University of Nottingham) Lielbritānijā, Lēvenas Katoļu universitāte (Universitaté Catolique de Louvain) Beļģijā, Ziemeļarizonas Universitāte (Northern Arizona University), Mičiganas Universitāte (University of Michigan) un Džordžijas Pavalsts universitāte (Georgia State university) Amerikas Savienotajās Valstīs (ASV), Helsinku Universitāte (Helsingin yliopisto) Somijā, Čehu Nacionālā korpusa institūts (Ústav Českého národního korpusu) Čehijā, Vācu valodas institūts (Leibniz-Institut für Deutsche Sprache), Berlīnes Humboltu universitāte (Humboldt-Universität zu Berlin) Vācijā, Bergenas Universitāte (Universitetet i Bergen) Norvēģijā, Sanpaulu Pontifikālā katoļu universitāte (Pontifícia Universidade Católica de São Paulo) Brazīlijā un citi.

Svarīgākie periodiskie izdevumi

Žurnāla Language Resources and Evaluation (kopš 1966. gada) uzmanības centrā ir digitālo valodas resursu izveide, kā arī programmrīku un metožu izvērtēšana.

1977. gadā Norvēģijā tika izveidota ICAME (International Computer Archive of Modern English) organizācija, kas 1978. gadā publicēja pirmo apkārtrakstu ICAME News par organizācijas darbību un mērķiem. Kopš 1987. gada tas iznāk žurnāla formātā, uzmanību pievēršot tieši angļu valodas elektroniskajiem resursiem un to izmantošanai.

International Journal of Corpus Linguistics (kopš 1995. gada) publicē ne vien ar korpuslingvistiku vai tās metodoloģiju saistītus rakstus, bet arī pētījumus par datorlingvistiku un citām jomām, tāpat arī recenzijas un programmrīku aprakstus.

Savukārt teorētisko jautājumu loks ir žurnāla Corpus Linguistics and Linguistic Theory (kopš 2005. gada) uzmanības centrā.

Edinburgh University Press izdod žurnālu Corpora (kopš 2006. gada), uzsverot teorētisko uzskatu daudzveidību, starpdisciplinaritāti un publicējot pētījumus par dažādām valodām.

Nozīmīgākie pētnieki

Daudzi pazīstami valodnieki piedalījušies modernās korpuslingvistikas veidošanā un veicinājuši tās attīstību, piemēram, LOB korpusa veidotāji Džefrijs Līčs (Geoffrey Leech) un Stīgs Johansons (Stig Johansson), Brauna korpusa veidotāji H. Kučera un V. N. Frensiss, Londonas-Lundas korpusa veidotāji Daglass Baibers (Douglas Biber), Jans Svartviks (Jan Svartvik) un Rendolfs Kvirks (Randolph Quirk), “COBUILD Angļu valodas vārdnīcas” (COBUILD English Language Dictionary) izstrādātājs un angļu valodas korpusa Bank of English veidotājs Dž. M. Sinklers, zviedru valodas korpusa Språkbanken veidotāji Stūre Allēns (Sture Allén) un Martins Jellerstams (Martin Gellerstam), Čehu valodas nacionālā korpusa veidotājs Františeks Čermāks (František Čermák), Helsinku angļu valodas diahroniskā korpusa (Helsinki Corpus of English Texts) veidotājs Mati Risanens (Matti Rissanen), korpusa modeļu analīzes (Corpus Pattern Analysis) izstrādātājs Patriks Henks (Patrick Hank), viens no Britu Nacionālā korpusa veidotājiem Lū Bernards (Lou Burnard).

Korpuslingvistikas teorētisko domu virzījuši un valodas analīzes iespējas paplašinājuši Kārina Aijmere (Karin Aijmer), Bass Ārtss (Bas Aarts), D. Baibers, P. Beikers, Tonijs Berbers-Sardiņa (Tony Berber Sardinha), Silviane Greindžere (Sylviane Granger), Niks Kempbels (Nick Campbell), Ādams Kilgarifs (Adam Kilgarriff), Anke Līdelinga (Anke Lüdeling), T. Makenerijs, Ute Rēmere (Ute Römer), Sūzena Hanstone (Susan Hunston), Maiks Skots (Mike Scott) un citi.

Multivide

1. attēls. Leksēmas "korpuss" konkordances piemērs (Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss LVK2018).

1. attēls. Leksēmas "korpuss" konkordances piemērs (Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss LVK2018).

2. attēls. Angļu valodas darbības vārda read ‘lasīt’ lietošanas modeļi (fragments) Britu akadēmiskajā runātās valodas korpusā (British Academic Spoken English Corpus, BASE).

2. attēls. Angļu valodas darbības vārda read ‘lasīt’ lietošanas modeļi (fragments) Britu akadēmiskajā runātās valodas korpusā (British Academic Spoken English Corpus, BASE).

1. attēls. Leksēmas "korpuss" konkordances piemērs (Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss LVK2018).

Izmantošanas tiesības
Skatīt oriģinālu

Saistītie šķirkļi

  • internets
  • valodniecība
  • valodniecība Latvijā

Autora ieteiktie papildu resursi

Tīmekļa vietnes

  • Helsinku Universitātes Daudzvalodu resursu kolekcija (Multilingual Resource Collection of the University of Helsinki Language Corpus Server, Uhlcs)
  • Korpusu datubāze (Corpus Resources Database, CoRD)
  • Lielāko un biežāk lietoto angļu, spāņu, portugāļu valodas korpusu saraksts
  • Pārskats par korpusiem (Corpus Survey)
  • Vēstkopas “Corpora list” arhīvs
  • Žurnāla “Corpora” tīmekļa vietne
  • Žurnāla “Corpus Linguistics and Linguistic Theory” tīmekļa vietne
  • Žurnāla “ICAME Journal” tīmekļa vietne
  • Žurnāla “ICAME Journal” tīmekļa vietne
  • Žurnāla “International Journal of Corpus Linguistics” tīmekļa vietne
  • Žurnāla “Language Resources and Evaluation”tīmekļa vietne

Ieteicamā literatūra

  • Biber, D., ‘Representativeness in corpus design’, Literary and Linguistic Computing, vol. 8, no. 4, 1993, pp 243‒257.
  • Biber, D., Conrad, S. and R. Reppen, Corpus Linguistics: Investigating Language Structure and Use, Cambridge, Cambridge University Press, 1998.
    Skatīt bibliotēku kopkatalogā
  • Church, K. and P. Hanks, ‘Word Association Norms, Mutual Information and Lexicography’, Computational Linguistics, vol 16, no. 1, 1991, pp. 22‒29.
  • McEnery, T. and A. Hardie, Corpus Linguistics: Method, Theory and Practice, Cambridge, Cambridge University Press, 2012.
    Skatīt bibliotēku kopkatalogā
  • Sampson, G. and D. McCarthy (eds.), Corpus Linguistics: Readings in a Widening Discipline, London, Continuum, 2005.
  • Short, M. (ed.), Using Corpora for Language Research: Studies in Honour of Geoffrey Leech, London, New York, Longman, 1996.
  • Sinclair, J., Corpus, Concordance, Collocation, Oxford, UK, Oxford University Press, 1991.
  • Sinclair, J., Trust the Text: Language, Corpus, and Discourse, London, Routledge, 2004.
    Skatīt bibliotēku kopkatalogā
  • Sinclair, J., Jones, S. and R. Daley, English Collocation Studies: The OSTI Report, London, Continuum, 2004.
  • Svartvik, J. (ed.), Directions in corpus linguistics: Proceedings of Nobel Symposium 82 Stockholm, The Hague, Mounton, 1991.
  • Teubert, W. and R. Krishnamurty, (eds.), Corpus Linguistics: Critical Concepts in Linguistics, London, Routledge, 2007.
    Skatīt bibliotēku kopkatalogā
  • Tognini-Bonelli, E., Corpus Linguistics at Work, Amsterdam, John Benjamins Publishing, 2001.

Everita Andronova, Ilze Auziņa "Korpuslingvistika". Nacionālā enciklopēdija. (skatīts 27.09.2023)

Kopīgot


Kopīgot sociālajos tīklos


URL

Šobrīd enciklopēdijā ir 4047 šķirkļi,
un darbs turpinās.
  • Par enciklopēdiju
  • Padome
  • Nozaru redakcijas kolēģija
  • Ilustrāciju redakcijas kolēģija
  • Redakcija
  • Sadarbības partneri
  • Atbalstītāji
  • Sazināties ar redakciju

© Latvijas Nacionālā bibliotēka, 2023. © Tilde, izstrāde, 2023. © Orians Anvari, dizains, 2023. Autortiesības, datu aizsardzība un izmantošana