Īsa vēsture Jau ilgi pirms korpuslingvistikas kā zinātnes nozares izveides leksikogrāfijā tika izmantoti eksperimentāli iegūti dati, piemēram, Londonas grāmatu tirgotājs Aleksandrs Krudens (Alexander Cruden) 18. gs. pirmajā pusē publicēja Bībeles vārdu indeksu (konkordances). Līdz pat 20. gs. otrajai pusei, pētot vārdu nozīmi un lietojumu un veidojot vārdnīcas, tika izmantotas kartotēkas, manuāli veidoti vārdu indeksi jeb saraksti.
20. gs. antropoloģiskās valodniecības pārstāvji, piemēram, Francis Boass (Franz Boas), kā arī strukturālisti, piemēram, Edvards Sepīrs (Edward Sapir), Leonards Blūmfīlds (Leonard Bloomfield), tāpat izmantoja korpuslingvistikas metodes valodas aprakstā.
Korpuslingvistika mūsdienu izpratnē jeb modernā korpuslingvistika, kas valodas analīzē izmanto apjomīgus datorizētus korpusus, izveidojusies 20. gs. 50. un 60. gados. Mūsdienu korpuslingvistikas teorētisko pamatu lika Henrija Kučeras (Henry Kučera) un Vintropa Nelsona Frensisa (Winthrop Nelson Francis) darbs “Mūsdienu amerikāņu angļu valodas datorizēta analīze” (Computational Analysis of Present-Day American English, 1976). Tas balstīts Brauna korpusa analīzē (Brown Corpus of Standard American English, 1961). Vēl viens nozīmīgs darbs bija Rendolfa Kvirka (Randolph Quirk) raksts “Ceļā uz angļu valodas lietojuma aprakstu” (Towards a Description of English Usage, 1960).
Pirmajiem mašīnlasāmajiem korpusiem kā zelta standarts tika izvēlēts lielums – miljons vārdlietojumu, tie bija vienvalodas korpusi, piemēram, Brauna korpuss, Lankasteras-Oslo/Bergenas korpuss (Lancaster-Oslo-Bergen Corpus, LOB), kas izstrādāts 1964. gadā, un Londonas-Lundas korpuss (London-Lund Corpus of Spoken Corpus), kura izstrāde sākta 1959. gadā un kas ir publicēts 1990. gadā. Tos dēvē arī par 1. paaudzes korpusiem.
Korpuslingvistikas aizsākumos raisījās asas diskusija starp korpuslingvistikas aizstāvjiem un tās pretiniekiem, kur viens no galvenajiem korpusa noliedzējiem bija amerikāņu valodnieks Noams Čomskis (Noam Chomsky). N. Čomskis pārmeta, ka jebkurš valodas korpuss ir nepilnīgs, jo tajos trūkst teikumu, kas ir acīmredzami, kas ir nepareizi vai kas ir nepieklājīgi; tādējādi valodas apraksts būs tikai nepilnīgs vārdu saraksts.
Kopš 20. gs. 50. gadiem dominējošais ģeneratīvās valodniecības viedoklis nesakrita ar galvenajām korpuslingvistikas tēzēm, kas uzsver valodas lietojumu, nevis dzimtās valodas runātāja kompetenci; pievēršas valodas aprakstam, nevis universālijām; pēta valodas kvantitatīvos un kvalitatīvos modeļus, izmantojot empīrisku, nevis racionālu pieeju. Tomēr šis pretstats ir visai vienkāršots, uzskatot, ka visi korpuslingvisti ir deskriptīvisti, kas pārņemti ar korpusā sastapto konstrukciju uzskaiti, bet ģeneratīvistus vispār neinteresē dati savu teoriju izstrādē.
Nozīmīgs bija amerikāņu valodnieka Čārlza Filmora (Charles Fillmore) 1991. gadā izvirzītais pretstatījums starp korpuslingvistu un ar datoru apbruņotu t. s. klubkrēsla valodnieku (corpus linguistics vs computer-aided armchair linguistics), kuri viens otram pārmet, kāpēc būtu jātic otram vai kāpēc tas ir interesanti citam. Č. Filmors secinājis, ka neviens korpuss, lai cik liels tas būtu, neietvers visu informāciju par angļu valodas leksiku un gramatiku, un ka jebkurš korpuss, lai cik mazs tas būtu, tomēr sniegs faktus, ko citādā veidā nevarētu iegūt. Tādējādi korpuslingvistika pēc asās N. Čomska kritikas tika “reabilitēta”.
20. gs. 80. gados korpuslingvistikas atdzimšana bija saistīta ar kvantitatīvo lingvistiku un korpusā balstītu valodas tehnoloģiju rašanos. Pirmie mašīnlasāmie korpusi bija daudzējādi ļoti noderīgi un tika izmantoti dažādiem pētījumiem, tomēr drīz vien izrādījās, ka noteiktiem uzdevumiem nepieciešamas plašākas datu kopas (piemēram, leksikogrāfijā un dabiskās valodas apstrādē).
Nozīmīgākie korpusi, kuru izveide sākta 20. gs. 80. gados: Britu Nacionālais korpuss un COBUILD korpuss. Nozīmīgi ir arī Longmena korpusi (Longman Corpus Network), uz kuru pamata tiek veidotas dažādas vārdnīcas, piemēram, “Longmena mūsdienu angļu valodas vārdnīca” (Longman Dictionary of Contemporary English, 1995), “Longmena kolokāciju vārdnīca un tēzaurs” (Longman Collocations Dictionary and Thesaurus, 2013) un citi.
Pateicoties datoru attīstībai, attīstās arī valodas tehnoloģiju izstrāde un valodas resursu uzkrāšana. 20. gs. 90. gados risinājās aktīvas diskusijas:
1) kas īsti ir valodas korpuss (ar ko tas atšķiras no citiem uzkrātiem datiem elektroniski, piemēram, elektroniskām bibliotēkām vai arhīviem, kādas valodas datorfonda un tamlīdzīgi);
3) kā sasniegt līdzsvaru un nodrošināt reprezentativitāti;
4) cik daudz papildu informācijas (metadatus un marķējumu) var un vajag pievienot korpusam (piemēram, Dž. Sinklers uzticējās “tīram” korpusam, turpretī daudzi novērtē morfoloģiski vai sintaktiski marķēta korpusa sniegtās iespējas).
Tāpat notika aktīvas diskusijas, vai korpuslingvistiku var uzskatīt par patstāvīgu valodniecības nozari vai tomēr tā ir metodoloģija (tas ir dominējošais viedoklis).
20. gs. 90. gados izveidojās divi atšķirīgi korpusu izveides principi: monitoringa jeb novērojumu korpuss (monitor corpus), kura apjoms pastāvīgi tiek paplašināts, laika gaitā iekļaujot tajā arvien jaunus tekstus, un līdzsvarotais jeb izlases korpuss (arī references korpuss, atsauces korpuss, reference corpus), kurā iekļauti konkrēta laika posma teksti vai tekstu fragmenti noteiktās proporcijā, veidojot līdzsvarotu un reprezentatīvu izlases kopu.
Iespējams, par trešās, t. i., jaunākās, paaudzes korpusiem var dēvēt tos, kuru apjoms mērāms simtos miljonu vārdlietojumu, kuri tiek veidoti, izmantojot tekstu apstrādes un analīzes tehnoloģijas, un tiek izmantoti valodas tehnoloģiju izstrādei, piemēram, OPUS (The Open parallel corpus) projekts, kas ir lielākā tulkoto tīmeklī atrodamo tekstu kolekcija, kurā tiek iekļauti arvien jauni brīvi pieejami tiešsaistes dati.