Atjaunots 2024. gada 20. jūnijā
Everita Andronova,Ilze Auziņa

valodas korpuss

(angļu corpus, vācu Korpus, Corpus, franču corpus, krievu кoрпус), arī teksta korpuss, korpuss

strukturēts rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei

Saistītie šķirkļi

Valodas korpusa sagatavošana: teksta digitalizācijas segmentēšanas posms. Latvijas Nacionālā bibliotēka, Rīga, 2020. gads.

Fotogrāfs Kristians Luhaers. Avots: Latvijas Nacionālā bibliotēka.

Kopsavilkums

Lai apzīmētu līdzīga rakstura tekstu kopumu, piemēram, “latīņu dzejnieku korpuss”, “likumu korpuss”, termins “korpuss” fiksēts jau 18. gs. Savukārt ar nozīmi ‘lingvistiskai analīzei paredzēts teksta vai runas materiālu kopums’ termins “korpuss” lingvistiskajā literatūrā pirmo reizi lietots Viljama Sidnija Allena (William Sidney Allen) publikācijā periodiskajā izdevumā Transactions of the Philological Society 1956. gadā.

Korpusu klasifikācija

Ikvienam korpusam piemīt viena vai vairākas pazīmes, kuras var izmantot to grupēšanai, piemēram, vispārīgs vai specializēts, papildināms vai slēgts, līdzsvarots, reprezentatīvs, nemarķēts vai marķēts.

Atkarībā no izmantošanas mērķa, korpusā iekļautajiem datiem un to iegūšanas veida korpusi var būt dažādi.

Klasifikācija pēc valodas realizācijas formas

Pēc valodas realizācijas formas / saziņas veida (regime; mode; mode of communication) šķir teksta un runas korpusus. Daudzos korpusos, piemēram, Britu nacionālajā korpusā (British National Corpus, BNC), ietverti gan runas dati, gan teksti. Ir arī korpusi, kas, izmantojot video ierakstus, atspoguļo nevalodiskus informācijas pārraides līdzekļus, kuri aizstāj vai papildina izteikumus, piemēram, žestu un zīmju valodas korpusi. Multimodālie korpusi ir video un runas ierakstu kolekcijas, kuras papildina transkripcijas un žestu anotācijas vai attēli. Multimodāli korpusi tiek izmantoti, lai pētītu leksiku, prosodiju, žestus, to mijiedarbi sarunā.

Klasifikācija pēc datu atlases principiem

Pēc datu atlases principiem šķir monitoringa korpusus (monitor corpus), atsauces korpusus (reference corpus), parauga korpusus (sample corpus) un līdzsvarotos korpusus (balanced corpus). Nereti daži termini literatūrā lietoti kā sinonīmi, piemēram, angļu valodas korpusu The Bank of English (BoE) saucot gan par monitoringa korpusu, gan par atsauces korpusu.

Gan monitoringa korpuss, gan atsauces korpuss tiecas aptvert visus funkcionālos stilus un raksturīgo leksiku dinamikā. Tā apjoms nepārtraukti pieaug, tiek pievienoti jauni teksti, lai datu kopa joprojām atspoguļotu jaunāko valodas stāvokli, kā arī valodas stāvokli iepriekšējos periodos. Tekstu atlases modelis nosaka katra atlasītā teksta veida proporcijas. Šāda veida korpusi ir, piemēram, The Bank of English, Mūsdienu Amerikas angļu valodas korpuss (The Corpus of Contemporary American English, COCA), Igauņu valodas atsauces korpuss (Eesti keele koondkorpuse).

Tīmeklis kā korpuss (Web as Corpus) daudzējādā ziņā ir ļoti līdzīgs atsauces korpusam, bet šai pieejai ir vairākas specifiskas problēmas – atšķirībā no lielākās daļas korpusu tīmeklī ir atrodami gan rediģēti teksti, gan nerediģēti, nejauši materiāli (komentāri, emuāri u. tml.). Tie žanriski un pēc teksta veidiem ir ļoti dažādi un prasa lielu pēcapstrādi.

Parauga korpuss (arī līdzsvarotais korpuss) ir kā “momentuzņēmums”, kas atspoguļo valodas stāvokli, piemēram, noteiktā laika posmā vai funkcionālajā stilā. To veido nelieli tekstu fragmenti, kas atlasīti, saglabājot izlases kopas līdzsvarotību un reprezentativitāti. Parauga korpusa mērķis ir atspoguļot izplatītākās valodas parādības tādās proporcijās, kādās tās sastopamas vispārējā valodas lietojumā. Tāds ir arī pirmais mašīnlasāmais korpuss – Brauna korpuss (The Brown Standart Corpus of American English).

Klasifikācija pēc korpusos iekļautajiem datiem

Pēc korpusos iekļautajiem datiem šķir vispārīgos korpusus un specializētos (speciālos) korpusus.

Vispārīgais korpuss nav ierobežots tematiski vai pēc kādas citas pazīmes. Vispārīgie korpusi parasti pārsniedz 10 miljonus vārdlietojumu, un tajos ietvertie daudzveidīgie valodas dati ļauj izdarīt vispārīgus secinājumus par valodu. Šādi korpusi ir BNC, Amerikas Nacionālais korpuss (The American National Corpus, ANC), Mūsdienu spāņu valodas korpuss (Corpus del Español Actual), Līdzsvarotais mūsdienu latviešu valodas korpuss (LVK2018).

Specializētais korpuss ir ierobežots tematiski (piemēram, zinātnes valodas korpuss, parlamentārās debates), ģeogrāfiski (piemēram, kādas izloksnes vai dialekta korpuss), pēc runātāju vecuma (piemēram, bērnu valodas korpuss), laikā (piemēram, 19. gs. tekstu korpuss) vai pēc kādas citas pazīmes. Specializētie korpusi ir, piemēram, Britu akadēmiskās runātās angļu valodas korpuss (The British Academic Spoken English Corpus, BASE), Bergenas Pusaudžu sarunu korpuss (The Bergen Corpus of London Teenage Language, COLT), Latviešu valodas seno tekstu korpuss (“Senie”), “ParlaMint”, Longmena Valodas apguvēju korpuss (The Longman Learners’ Corpus).

Klasifikācija pēc valodu skaita

Atkarībā no valodu skaita šķir vienvalodas (monolingvālus) korpusus un divvalodu (bilingvālus) vai daudzvalodu (multilingvālus) korpusus. Vienvalodas korpuss ir visizplatītākais korpusu veids. Daudzvalodu korpusi ir salīdzinoši jauna parādība korpuslingvistikā – pirmie korpusi un tajos balstīti pētījumi tapuši 20. gs. 90. gadu vidū. Aprakstot daudzvalodu korpusus, visbiežāk tiek minēts paralēlais korpuss (parallel corpus), piemēram, Eiropas Parlamenta sēžu paralēlais korpuss (European Parliament Proceedings Parallel Corpus 1996–2011), retāk – salīdzināmais korpuss (comparable corpus), piemēram, Starptautiskais angļu valodas korpuss (International Corpus of English), tulkošanas korpuss (translation corpus), piemēram, Angļu-norvēģu paralēlais korpuss (The English-Norwegian Parallel Corpus, ENPC).

Vispārīgs raksturojums

Korpusu raksturo metadati, teksta strukturālais un lingvistiskais marķējums.

Metadati ir informācija par korpusā iekļautajiem datiem, t. s. dati par datiem. Piemēram, var norādīt informāciju par teksta autoru (dzimums, vecums, izglītība u. tml.), avota publicēšanas vietu un laiku, teksta valodu. Savukārt runas datiem var tikt pievienota informācija par ieraksta vietu un veidu, apstākļiem.

Jebkurš valodas korpuss var būt marķēts jeb anotēts, t. i., korpusa datiem var pievienot strukturālu, morfoloģisku, sintaktisku, semantisku vai cita veida marķējumu. Marķējot korpusa datus, tiek izmantota birku (tag) sistēma.

Strukturālais marķējums sniedz informāciju par dokumenta struktūru, piemēram, tiek norādīts katra teikuma, rindkopas u. tml. sākums un beigas, informācija par sadaļām un virsrakstiem. Lielākā daļa korpusu ir marķēti, izmantojot starptautiskās “Teksta kodēšanas vadlīnijas” (The Text Encoding Initiative, TEI). TEI iniciatīva izstrādā un uztur standartus tekstu attēlošanai digitālā formā un nosaka mašīnlasāmu tekstu kodēšanas metodes, galvenokārt humanitāro un sociālo zinātņu jomā. Izplatītākie formāti marķējuma realizācijai ir SGML (Standard Generalized Markup Language) un XML (eXtensible Markup Language).

Korpusa datus var marķēt atbilstoši valodas (analīzes) līmeņiem: ir morfoloģiski, sintaktiski un semantiski marķēti korpusi. Morfoloģiskajā marķējumā (part of speech tagging) tiek marķētas vārdšķiras, kā arī vārdformu gramatiskās kategorijas: dzimte, skaitlis, locījums, salīdzināmā pakāpe, kārta u. tml. (skatīt 1. attēlu).

Sintaktiski marķētā korpusā tiek attēlota teikuma sintaktiskā struktūra. Sintaktiskās analīzes rezultāts katram teikumam parasti ir grafs – otrādi apgriezts koks (skatīt 2. attēlu).

Sintaktiskajā analīzē visbiežāk tiek izmantota kāda no divām pieejām: frāzes struktūras gramatika (phrase structure grammar), kas ir piemērotāka valodām ar saistītu vārdu secību, un atkarību gramatika (dependency grammar), kas ir piemērotāka valodām ar samērā brīvu vārdu secību, kāda ir arī latviešu valoda. Pasaulē pazīstami arī hibrīdi gramatikas modeļi, kur apvienotas abas minētās pieejas.

Semantiskajā marķējumā tiek marķētas vārdu nozīmes un semantiskās lomas jeb teikuma semantiskās struktūras komponenti. Semantiskās lomas parasti tiek aplūkotas atšķirīgā vispārinājuma pakāpē. Vispārīgākas lomas ir, piemēram, darītājs jeb agenss (ar apziņu apveltīts situācijas dalībnieks), cietējs jeb pacienss (dalībnieks, kas pakļauts darbībai). FrameNet pieejā lomas ir diezgan konkrētas, piemēram, pārdošanas situācijas lomas ir pircējs, pārdevējs, prece, nauda (skatīt 3. attēlu).

Runas korpusa datus var marķēt pēc dažādiem principiem, bet vispirms audiodati ir jāatšifrē mašīnlasāmā formā, t. s. ortogrāfiskajā transkripcijā (orthographic transcription), pierakstot visu runāto vārdiem, tostarp gan ciparus, gan arī saīsinājumus, norādot arī neverbālos elementus, pauzes. Padziļinātai analīzei runas korpusa dati tiek pierakstīti fonētiskajā transkripcijā.

Korpusa praktiskā pielietojuma vēsture

Valodas izlases vai fragmentus (citātu kartotēkas, pamatformu sarakstus) izmanto jau sen. Pazīstamākās ir konkordances, indeksi, kartotēkas vārdnīcu izstrādē un dabiskās valodas piemēri valodas aprakstā. Agrākās ar roku pārrakstītās un analizētās citātu kartotēkas ir pārtapušas par datora sakārtotām konkordanču rindiņām korpusā. Jēdziens “korpuss” tika lietots jau agrāk, runājot par kādu saistītu tekstu kopu, kas izmantota valodu (īpaši klasisko valodu) aprakstu sagatavošanā. Piemēram, vācu stenogrāfa Frīdriha Vilhelma Kēdinga (Friedrich Wilhelm Kaeding) izveidotā vācu valodas biežuma vārdnīca (1897−1898), Džordža Kingslija Zifa (George Kingsley Zipf) pamanītā likumsakarība par vārda biežumu.

Korpusi ir galvenā zināšanu bāze korpuslingvistikā. Mūsdienu mašīnlasāmos valodas korpusus galvenokārt izmanto valodas tehnoloģiju izstrādē un valodas datorizētā analīzē.

Korpusi plaši tiek izmantoti valodniecībā – dažādu valodas sistēmas apakšlīmeņu (fonētikas, gramatikas, semantikas, leksikoloģijas, frazeoloģijas, stilistikas) izpētē, kā arī dialektoloģijā, vēsturiskajā valodniecībā, sociolingvistikā, diskursa analīzē.

Salīdzinoši jauna korpusu izmantošanas joma ir svešvalodu mācīšana un apguve. Te īpaša nozīme ir valodas apguvēju korpusiem (language learner corpora), kas ļauj apzināt tipiskās apguvēju kļūdas un palīdz izveidot korpusā balstītus mācību un metodiskos līdzekļus.

Leksikogrāfija visvairāk izmanto korpusa datus: gan apjomīgus vienvalodas un daudzvalodu, gan vispārīgos un specializētos, kā arī paralēlos un salīdzināmos korpusus (piemēram, Cobuild korpusi, Kembridžas angļu valodas korpuss (Cambridge English Corpus). Korpusi noder, lai definētu leksēmas nozīmi, konstatētu stabilos vārdu savienojumus un idiomas, leksēmu saistāmību (valenci), veidotu biežuma vārdnīcas u. tml.

Nozīmīgas korpusu izmantošanas jomas ir datorlingvistika un valodas tehnoloģiju izstrāde.

Mašīntulkošanas rīki tulkošanai starp divām valodām bieži tiek apmācīti, izmantojot paralēlos korpusus, kur ir sastatīti teksta fragmenti. Daudzvalodu resursus izmanto ne vien mašīntulkošanas sistēmās un tulkošanas atmiņas rīkos, bet arī terminoloģijas izguvē, tipoloģijas, sastatāmās valodniecības pētījumos, tulkošanas teorijā, valodu apmācībā u. tml.

Runas korpusi tiek izmantoti akustisko modeļu izveidē, kas savukārt ir nepieciešami runas tehnoloģiju (konkrēti – runas atpazīšanas, runas sintēzes un runātāja identificēšanas sistēmu) izstrādē. Savukārt valodniecībā runātās valodas korpusus izmanto fonētikas pētījumiem, diskursa analīzei, dialektoloģijas un citu jomu izpētei.

Korpusu pētniecība pasaulē

20 gs. 90. gados, kad palielinājās datoru jauda un to izmantošanas loks, intensīvi tika krāti un veidoti gan vispārīgi, gan specializēti korpusi. Vienlaikus raisījās diskusija par to, ar ko valodas korpuss atšķiras no citiem elektronisko resursu veidiem (arhīva, elektroniskas bibliotēkas), kādām prasībām tam ir jāatbilst. Jau Brauna korpusa izveidotāji piedāvāja metodoloģiju, kā nodrošināt datu reprezentativitāti un atlasi, lai no korpusa varētu spriest un izdarīt vispārīgus secinājumus par valodu kopumā vai kādu tās daļu.

Valodas korpusus mēdz dalīt paaudzēs:

1) pirmās paaudzes korpusi, kuru paraugs bija Brauna korpuss, parasti bija vienu miljonu vārdlietojumu lieli angļu valodas korpusi; to atlases metodoloģija izveidota 20. gs. 60. gados;

2) otrās paaudzes korpusi tapa 20. gs. 90. gados, un to prototips ir 100 miljonu vārdlietojumu lielais BNC, arī The Bank of English, Brigema Janga Universitātes Amerikas angļu valodas korpuss (Brigham Young University Corpus of American English) un citi;

3) trešās paaudzes korpusi ir liela apjoma (pārsniedz vienu miljardu vārdlietojumu), lai varētu pētīt valodas lietojuma mainību, tie ir t. s. monitoringa korpusi, piemēram, Kembridžas angļu valodas korpuss, Oksfordas angļu valodas korpuss (Oxford English Corpus).

Lai pētītu valodā strauji ienākošo jauno parādību nosaukumus un sekotu pārmaiņām valodā, kas notikušas laika gaitā, 20. gs. beigās radās tādi korpusa veidi kā paraugkorpuss, kas sniedz statisku skatu uz valodu, un monitoringa korpuss, kas skata valodu dinamikā, ļauj pamanīt, piemēram, jaunvārdus.

Atsevišķi minams tīmeklis kā atsauces korpusa paveids. 21. gs. sākumā tīmeklis nereti kādai valodai bija vienīgais brīvi pieejamais valodas resurss, bet citām valodām tā ir iespēja savākt milzīgu vārdlietojumu skaitu (pārsniedzot, piemēram, BNC apjomu tūkstošiem reižu). Tomēr tīmeklī atspoguļotā valoda nav uzskatāma par reprezentatīvu valodas ainu.

20. gs. 90. gados tika publicēti vairāki pētījumi par vispārīgā korpusa reprezentativitāti, piemēram, Berilas Sjū Atkinsas (Beryl T. Sue Atkins), Džeremija Klīra (Jeremy Clear), Nikolasa Ostlera (Nicholas Ostler) publikācija “Korpusa izveides kritēriji” (Corpus design criteria, 1992), Daglasa Baibera (Douglas Biber) hrestomātiskais raksts “Reprezentativitāte korpusa dizainā” (Representativeness in corpus design, 1993).

Lai strādātu ar korpusu, nepieciešama korpusa analīzes rīkkopa, kas var būt individuāli izstrādāta konkrētam korpusam vai arī universāla, kurā lietotājs var aplūkot pieejamos korpusus vai veidot savu, piemēram, SketchEngine, AntConc. Rīkkopa parasti piedāvā konkordances programmu, biežumu un vārdformu sarakstus, iespēju noteikt kolokācijas, veikt paplašinātu meklēšanu marķētos datos, papildus tai ir pieejami arī dažādi statistikas rīki (piemēram, n-grammu rīks). Strādājot ar divu vai daudzvalodu korpusiem, var izmantot tekstu sastatītāju (alignator) un pētīt potenciālos tulkojuma ekvivalentus.

Nozīmīgākie autori, darbi

Pirmie mašīnlasāmie korpusi ir Brauna korpuss, kura galveni veidotāji ir Henrijs Kučera (Henry Kučera) un Nelsons Frānsiss (W. Nelson Francis), un Lankasteras-Oslo/Bergenas korpuss (Lancaster, Oslo and Bergen Corpus, LOB), kuru veidojuši Džefrijs Līčs (Geoffrey Leech) un Stīgs Johansons (Stig Johansson).

Londonas-Lundas runātās angļu valodas korpuss (The London-Lund Corpus of Spoken English, LLC), ko veidojis D. Baibers, Jans Svartviks (Jan Svartvik) un Rendolfs Kvirks (Randolph Quirk), ir pirmais runātās valodas korpuss.

Novērtējot BNC nozīmi britu angļu valodas pētniecībā, tika veidoti dažādu valodu nacionālie korpusi. 1999. gadā tika izveidots Amerikas Nacionālā korpusa konsorcijs, un 2003. gadā tika publicēta pirmā versija (ap 10 miljoniem vārdu), pēc dažiem gadiem – nākamā versija (ap 22 miljoniem vārdu). Nozīmīgākie citu valodu nacionālie korpusi ir Čehu nacionālais korpuss (Český Národní Korpus), Ungāru valodas nacionālais korpuss (Magyar Nemzeti Szövegtár), Grieķu valodas nacionālais korpuss (Εθνικός Θησαυρός Ελληνικής Γλώσσας), Itāļu valodas tekstu korpuss CORIS/CODIS (CORpus di Italiano Scritto), Vācu valodas korpuss (Deutsches Referenzkorpus, DeReKo), Poļu valodas nacionālais korpuss (Narodowy Korpus Języka Polskiego), Krievu valodas nacionālais korpuss (Национальный корпус русского языка). Daudzi no minētajiem korpusiem pārsniedz 100 miljonu apjomu.

Lai būtu vieglāk orientēties daudzveidīgajos specializētajos korpusos, informācija par tiem tiek apkopota īpašās vietnēs. Piemēram, Viseiropas Valodas resursu pētniecības infrastruktūra CLARIN vienkopus piedāvā 12 dažādu korpusu kopas (resource families): datorizētas saziņas korpusi, literatūras korpusi, akadēmisko tekstu korpusi, vēsturiskie korpusi, apguvēju korpusi, manuāli anotēti korpusi, laikrakstu korpusi, multimodāli korpusi, parlamentāro datu korpusi, atsauces korpusi, runas korpusi, paralēlie korpusi.

Multivide

Valodas korpusa sagatavošana: teksta digitalizācijas segmentēšanas posms. Latvijas Nacionālā bibliotēka, Rīga, 2020. gads.

Fotogrāfs Kristians Luhaers. Avots: Latvijas Nacionālā bibliotēka.

1. attēls. Ar Stenforda Universitātes (Stanford University) vārdšķiru marķētāju (Part-of-Speech Tagger) marķēts teikums. [https://parts-of-speech.info/]

2. attēls. Teikuma I prefer the morning flight through Denver attēlojums atkarību sintakses un frāzes struktūras sintakses pieejā.

3. attēls. Latviešu valodas FramenNet piemērs: pārdošanas situācijas (darbības vārds nopirkt) semantiskās lomas un piemēri.

valodas korpuss

Saistītie šķirkļi

Valodas korpusa sagatavošana: teksta digitalizācijas segmentēšanas posms. Latvijas Nacionālā bibliotēka, Rīga, 2020. gads.

Satura rādītājs

Satura rādītājs

Multivide

Autora ieteiktie papildu resursi

valodas korpuss

Saistītie šķirkļi

Valodas korpusa sagatavošana: teksta digitalizācijas segmentēšanas posms. Latvijas Nacionālā bibliotēka, Rīga, 2020. gads.

Satura rādītājs

Satura rādītājs

Multivide

Saistītie šķirkļi

Autora ieteiktie papildu resursi

Tīmekļa vietnes

Ieteicamā literatūra