Vispārīgs raksturojums Korpusu raksturo metadati, teksta strukturālais un lingvistiskais marķējums.
Metadati ir informācija par korpusā iekļautajiem datiem, t. s. dati par datiem. Piemēram, var norādīt informāciju par teksta autoru (dzimums, vecums, izglītība u. tml.), avota publicēšanas vietu un laiku, teksta valodu. Savukārt runas datiem var tikt pievienota informācija par ieraksta vietu un veidu, apstākļiem.
Jebkurš valodas korpuss var būt marķēts jeb anotēts, t. i., korpusa datiem var pievienot strukturālu, morfoloģisku, sintaktisku, semantisku vai cita veida marķējumu. Marķējot korpusa datus, tiek izmantota birku (tag) sistēma.
Strukturālais marķējums sniedz informāciju par dokumenta struktūru, piemēram, tiek norādīts katra teikuma, rindkopas u. tml. sākums un beigas, informācija par sadaļām un virsrakstiem. Lielākā daļa korpusu ir marķēti, izmantojot starptautiskās “Teksta kodēšanas vadlīnijas” (The Text Encoding Initiative, TEI). TEI iniciatīva izstrādā un uztur standartus tekstu attēlošanai digitālā formā un nosaka mašīnlasāmu tekstu kodēšanas metodes, galvenokārt humanitāro un sociālo zinātņu jomā. Izplatītākie formāti marķējuma realizācijai ir SGML (Standard Generalized Markup Language) un XML (eXtensible Markup Language).
Korpusa datus var marķēt atbilstoši valodas (analīzes) līmeņiem: ir morfoloģiski, sintaktiski un semantiski marķēti korpusi. Morfoloģiskajā marķējumā (part of speech tagging) tiek marķētas vārdšķiras, kā arī vārdformu gramatiskās kategorijas: dzimte, skaitlis, locījums, salīdzināmā pakāpe, kārta u. tml. (skatīt 1. attēlu).
![1. attēls. Ar Stenforda Universitātes (Stanford University) vārdšķiru marķētāju (Part-of-Speech Tagger) marķēts teikums. [https://parts-of-speech.info/]](https://enciklopedija.lv/api/image/thumbnail?name=09da17fe210f-185d3dfd-18c0-4fcd-aee5-78a45c72edda.jpg&size=inline)
1. attēls. Ar Stenforda Universitātes (Stanford University) vārdšķiru marķētāju (Part-of-Speech Tagger) marķēts teikums. [https://parts-of-speech.info/]
Sintaktiski marķētā korpusā tiek attēlota teikuma sintaktiskā struktūra. Sintaktiskās analīzes rezultāts katram teikumam parasti ir grafs – otrādi apgriezts koks (skatīt 2. attēlu).

2. attēls. Teikuma I prefer the morning flight through Denver attēlojums atkarību sintakses un frāzes struktūras sintakses pieejā.
Sintaktiskajā analīzē visbiežāk tiek izmantota kāda no divām pieejām: frāzes struktūras gramatika (phrase structure grammar), kas ir piemērotāka valodām ar saistītu vārdu secību, un atkarību gramatika (dependency grammar), kas ir piemērotāka valodām ar samērā brīvu vārdu secību, kāda ir arī latviešu valoda. Pasaulē pazīstami arī hibrīdi gramatikas modeļi, kur apvienotas abas minētās pieejas.
Semantiskajā marķējumā tiek marķētas vārdu nozīmes un semantiskās lomas jeb teikuma semantiskās struktūras komponenti. Semantiskās lomas parasti tiek aplūkotas atšķirīgā vispārinājuma pakāpē. Vispārīgākas lomas ir, piemēram, darītājs jeb agenss (ar apziņu apveltīts situācijas dalībnieks), cietējs jeb pacienss (dalībnieks, kas pakļauts darbībai). FrameNet pieejā lomas ir diezgan konkrētas, piemēram, pārdošanas situācijas lomas ir pircējs, pārdevējs, prece, nauda (skatīt 3. attēlu).

3. attēls. Latviešu valodas FramenNet piemērs: pārdošanas situācijas (darbības vārds nopirkt) semantiskās lomas un piemēri.
Runas korpusa datus var marķēt pēc dažādiem principiem, bet vispirms audiodati ir jāatšifrē mašīnlasāmā formā, t. s. ortogrāfiskajā transkripcijā (orthographic transcription), pierakstot visu runāto vārdiem, tostarp gan ciparus, gan arī saīsinājumus, norādot arī neverbālos elementus, pauzes. Padziļinātai analīzei runas korpusa dati tiek pierakstīti fonētiskajā transkripcijā.