AizvērtIzvēlne
Sākums
Atjaunots 2023. gada 18. aprīlī
Ilze Birzniece

informācijas izguve, datorzinātnē

(angļu Information retrieval, vācu Informationsrückgewinnung, franču recherche d'information, krievu поиск информации)
atbilstošu datu meklēšana un atlase no datu krātuves

Saistītie šķirkļi

  • cilvēkcentrēta datorika
  • datorlingvistika
  • datorgrafika
  • informācijas drošība un privātums, datorzinātnē
  • informācijas sistēmu lietojumi
  • internets
  • mākoņdatošana
  • mākslīgais intelekts
  • modelēšana un simulācija, datorzinātnē
Ekrāns atspoguļo reāllaika satiksmes informāciju izgūtu ar lielo datu pakalpojumu platformas digitālajam transportam un jaunā veida lietu interneta (IoT) palīdzību. Čuncjina, Ķīna, 21.10.2020.

Ekrāns atspoguļo reāllaika satiksmes informāciju izgūtu ar lielo datu pakalpojumu platformas digitālajam transportam un jaunā veida lietu interneta (IoT) palīdzību. Čuncjina, Ķīna, 21.10.2020.

Fotogrāfs Chen Chao. Avots: China News Service via Getty Images, 1281601918.

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Vēsture
  • 3.
    Pētījumu virzieni un attīstība
  • 4.
    Jaunākās tendences II
  • 5.
    Galvenās pētniecības iestādes
  • 6.
    Svarīgākie periodiskie izdevumi
  • 7.
    Nozīmīgākie nozares darbinieki
  • Multivide 1
  • Saistītie šķirkļi
  • Tīmekļa vietnes
  • Ieteicamā literatūra
  • Kopīgot
  • Izveidot atsauci
  • Drukāt

Satura rādītājs

  • 1.
    Kopsavilkums
  • 2.
    Vēsture
  • 3.
    Pētījumu virzieni un attīstība
  • 4.
    Jaunākās tendences II
  • 5.
    Galvenās pētniecības iestādes
  • 6.
    Svarīgākie periodiskie izdevumi
  • 7.
    Nozīmīgākie nozares darbinieki

Terminu informācijas izguve (II) 1950. gadā ieviesa Kalvins Nortrups Mūerss (Calvin Northrup Mooers), kurš to attiecināja uz “problēmu, kā novirzīt lietotāju uz saglabātu informāciju, kura tam daļēji var būt sveša”.

Dažādas II definīcijas akcentē nedaudz atšķirīgus II aspektus.

  • II ir nestrukturētu un daļēji strukturētu materiālu (dokumentu) atrašana lielā kolekcijā, parasti datoros.
  • II ir liela nestrukturēta datu apjoma salīdzināšana ar vaicājumu (query).
  • II sistēmas atrod informāciju, kas ir atbilstoša (relevant) lietotāja vaicājumam.
  • II ir spēja ar vaicājumu palīdzību no datorsistēmas iegūt atbilstošus rezultātus.
  • II ir datu, parasti tekstuālu datu, organizēšanas un algoritmu konstruēšanas process, lai ar vaicājumu palīdzību atlasītu nepieciešamos datus.
  • II ir operāciju, metožu un procedūru kopums, ko izmanto noteiktas tematikas datu atlasei no datu bāzēm vai datnēm.
  • II ir aktīvs glabāto datu selektīvas iegūšanas process.
Vēsture

II kā pētījumu joma attīstījās, lai sniegtu risinājumus dažāda veida informācijas satura meklēšanai. Automātiskas izguves stratēģijas mērķis ir norādīt lietotājam uz visiem atbilstošajiem dokumentiem, tajā pat laikā norādot pēc iespējas mazāk neatbilstošu dokumentu. Sākotnēji II tika lietota zinātniskajās un bibliogrāfu aprindās, vēlāk to pārņēma arī citi ar informācijas apriti saistīti profesionāļi, piemēram, žurnālisti, juristi, ārsti.

Datorizētās meklēšanas sistēmas tika izveidotas 20. gs. 40. gadu beigās. Vajadzību pēc II sistēmām radīja dokumentu kolekcijas, kas sava apjoma dēļ nebija apstrādājamas ar tradicionālām katalogu metodēm. Tāpat kā daudzas citas datortehnoloģijas, arī informācijas meklēšana attīstījās līdz ar procesora ātruma un datu glabāšanas apjoma pieaugumu. II sistēmu attīstība ir mainījusi pieeju informācijas apstrādē, strauji samazinot manuālu darbību nepieciešamību un paplašinot automatizētu metožu iesaisti.

1945. gadā Vannevars Bušs (Vannevar Bush) publicēja rakstu “Kā mēs varam domāt” (As we may think), kurā parādījās idejas par automātisku piekļuvi lieliem glabātu zināšanu apjomiem. 20. gs. 50. gados šīs idejas materializējās konkrētos aprakstos par to, kā tekstuālas informācijas arhīvi varētu tikt automātiski pārmeklēti. Turpmākajos gados tika piedāvātas vairākas pieejas datorizētai teksta meklēšanai, un vienu no nozīmīgakajām metodēm 1957. gadā aprakstīja Hanss Pēters Lūns (Hans Peter Luhn). Tajā tika piedāvāts lietot vārdus kā dokumentu indeksācijas vienības, bet vārdu sakritības mērījumus – kā izguves kritēriju. 

Lai gan strukturētas II no nestrukturētiem datiem pirmsākumi ir 20. gs. 70. gados, plašāku interesi šis pētījumu temats ieguva līdz ar Ziņu izpratnes konferencēm (Message Understanding Conference, 1987–1997), kuru izveides mērķis bija veicināt II metožu izstrādi un pilnveidošanu. Sākotnēji II sistēmas balstījās uz likumiem. II šablonus teksta izguvei šajā gadījumā izstrādāja cilvēks darbietilpīga procesa rezultātā. Lai samazinātu cilvēku ieguldīto darbu un padarītu vienreiz izstrādātu metodi universāli lietojamu dažādām tematiskajām jomām, pētnieki pievērsās statistiskajām mašīnmācīšanās metodēm. II no daļēji strukturētām tīmekļa lapām ir bijis svarīgs pētījumu temats 21. gs. sākumā.

Mūsdienās būtiskākais II dzinējspēks ir globālais tīmeklis, kas atklāj piekļuvi vairākiem desmitiem miljonu informācijas satura rādītāju. Šis milzīgais publicētās informācijas apjoms būtu mazvērtīgs, ja lietotāji nevarētu atrast un analizēt tiem vajadzīgo informāciju. Pasaulē vispopulārākais meklētājrīks ir Google tīmekļa meklētājprogramma, bet pastāv arī citi. Tīmekļa lapas satur tekstus, saites, multimediju datus. Kad lietotājs tīmekļa meklētājprogrammā ieraksta meklējamos atslēgvārdus, tiek izgūts un parādīts saistīto tīmekļa lapu saraksts. Lai tas notiktu, jāatrod veids, kā atspoguļot tīmekļa lapas ar vaicājumu salīdzināmā veidā, t. i., reprezentēt dokumentu. Zinātniskās inovācijas, skaitļošanas tehnikas attīstība un komerciālas intereses tīmekļa meklejumos ļāvušas radīt meklētājprogrammas, kas izgūst kvalitatīvus rezultātus sekundes desmitdaļās simtiem miljonu lietojumu ik dienu.

Pētījumu virzieni un attīstība

Var izšķirt trīs veidu II sistēmas atkarībā no informācijas apjoma, ar ko tās operē. Visplašākās ir tīmekļa meklēšanas sistēmas, kam seko uzņēmuma līmeņa vai jomas specifiskas meklēšanas sistēmas un šaurāka loka personīgās II sistēmas.

II pētījumi pievēršas dažādu informācijas atspoguļojuma veidu izguves aspektiem, piemēram, tīmekļa izguvei, ģeogrāfiskās II, audio un grafiskās II, teksta dokumentu kopsavilkumu veidošanai, paplašināmās iezīmēšanas valodas jeb XML (eXtensible Markup Language) izguvei, dokumentu meklēšanas un rezultātu vērtēšanas pieejām, grafiskās saskarnes II atbalstam un interaktivitātei ar lietotāju, daudzvalodu un starpvalodu II, uz aģentiem balstītai II, mašīnmācīšanās lomai II, sāncensības (adversarial) II, kā arī citām sfērām.

Kā saistīta tēma ar II jāmin valodas apstrāde, jo II tiek lietotas valodu tehnoloģijas, dabiskās valodas apstrāde, piemēram, teksta apkopojumu veidošanā, terminu saistību noteikšanā. II nodrošina metodes manipulācijām ar tekstu un tekstizraces (text mining) pamata mehānismus. II ir viens no svarīgākajiem tekstizraces uzdevumiem. Iegūtais rezultāts parasti kalpo par pamatu tālākiem tekstizraces algoritmu lietojumiem. Salīdzinot ar vienkāršu tekstā esošu atsevišķu vārdu vai to sarakstu atlasīšanu, informācijas izgūšana par objektiem un to saistība ar pārējo tekstu var atklāt jēgpilnu semantisku informāciju. Parasti II ietilpst arī slēdzienu izdalīšana par zināšanām, kas aprakstītas tekstā.

Tekstizracē bieži lietota funkcija ir teksta dokumentu apkopojumu radīšana, lai iegūtu īsu pārskatu par garāku teksta dokumentu vai vairākiem dokumentiem, kas uzrakstīti par vienu un to pašu tēmu. Teksta apkopojumus tekstizracē var iedalīt divās kategorijās. Uz teksta izguvi balstīti apkopojumi ir informācijas vienības, kas tiek izgūtas no sākotnējā teksta, savukārt abstraktīvie apkopojumi var saturēt arī sintezētas informācijas vienības, kuras sākotnējos teksta dokumentos nav atrodamas.

Informācijas organizēšana un dokumentu reprezentācija

Lai informāciju varētu izgūt, to vajag organizēt. Bibliotēku katalogi ir viena no organizētas informācijas meklēšanas iespējām. Meklēšana un II no kataloga ir darbības, ko veic ar izguves sistēmu, lai iegūtu informāciju par dokumentiem. Ja dokumentu raksturojošās pazīmes ir pareizi izvēlētas, tad dokumentam, kas ir atbilstošs vai manuālā indeksēšanā, tiek piešķirti raksturojošie termini, līdzīgi kā vārdi, ko lietotājs varētu izmantot vaicājumā. H. P. Lūna pieeja, kas nosaka, ka biežāk sastopamie termini raksturo dokumentu, arī mūsdienās tiek attīstīta un izmantota par pamatu dokumentu reprezentācijai.

II modeļi

Informācijas izguvē radīti vairāku veidu izguves modeļi, bet plašāk zināmi ir divi virzieni. Viens virziens balstās uz Būla loģiku, kuras pamatlicējs ir 19. gs. angļu matemātiķis Džordžs Būls (George Boole). Otrs virziens piedāvā ranžētās (ranked) izguves modeļus, no kuriem izplatītākie ir vektoru telpas modelis, varbūtiskie (probabilistic) izguves modeļi un izveduma tīkla (inference network) modelis. Būla izguves modelis prasa precīzu apraksta valodu ar operatoriem, lai izveidotu vaicājumu, bet lietotājiem bieži vien ir ērtāk veidot brīva teksta vaicājumus dabīgajā valodā. Būla izguves modelis informācijas izguvē dominēja trīs desmitgades līdz 20. gs. 90. gadiem. Būla meklētājs izgūst tos dokumentus, kas atzīti par patiesiem uzdotajam vaicājumam. Vaicājums jāformulē terminos, kas saistīti ar loģiskajiem operatoriem AND 'un', OR 'vai' vai NOT 'nē'. Piemēram, vaicājumam V = (K1 AND K2) OR (K3 AND (NOT K4)) Būla meklētājs izgūs tos dokumentus, kuri satur terminus K1 un K2 (praktiski tas nozīmē, ka ir indeksēti termini K1 un K2), kā arī dokumentus, kas satur teminu K3 un nesatur terminu K4.

Papildu Būla izteikumiem (operatori AND, OR, NOT) paplašinātajos modeļos ir ieviesti citi operatori, kas spēj nodrošināt lietotāja informācijas vajadzības (information need), piemēram, tuvuma (proximity) operators. Tuvuma operators ir veids, kā specificēt to, ka diviem terminiem dokumentā jāatrodas netālu vienam no otra, t. i., noteikta vārdu skaita attālumā vai vienas rindkopas ietvaros. Tomēr, lai arī šīs meklēšanas iespējas atzinīgi novērtē meklēšanas profesionāļi, tās maz izmanto vairums meklētājprogrammu lietotāju, tādēļ tīmekļa meklētājprogrammu attīstības virzieni fokusējas citur. Būla modeļu ierobežojumi saistās ar vajadzību pilnveidot meklēšanas iespējas, arī brīva meklēšanas teksta ievades nepieciešamību, vārdnīcu lietošanu, lai meklētu sinonīmus, lielāku rakstības kļūdu toleranci un iegūto rezultātu prioretizēšanu. Būla vaicājumi izgūst atbilstošo dokumentu kopu, tomēr biežāk vajadzīga metode arī iegūto rezultātu ranžēšanai.

Izguves rezultātu novērtēšana

Vaicājuma rezultātā izgūto dokumentu ranžēšana ir viena no svarīgākajām problēmām II, kas prasa gan zinātnisko, gan praktisko ieguldījumu. Katram vaicājumam V un dokumentu kolekcijai D, kas atbilst vaicājumam, meklētājprogrammās jāizveido saraksts, kurā tie D dokumenti, kas ir nosacīti atzīti par labākajiem saskaņā ar kādu kritēriju, lietotājam tiek atspoguļoti augstāk rezultātu sarakstā. Tādēļ vajadzīgs mehānisms, lai noteiktu, cik lielā mērā dokuments atbilst vaicājumam. Šim nolūkam ir ieviests teminu biežuma uzskaitījums dokumentā, kā arī metodes dokumentu atbilstības skaitliskā novērtējuma (score) iegūšanai.

Terminu svarīgumu dokumentā bieži raksturo ar tf-idf mēru, kurš tiek lietots arī dabīgās valodas apstrādes un informācijas organizēšanas kontekstā. Tf–idf ir divu satistisku mēru – terminu biežuma (term frequency) un inversā dokumenta biežuma (inverse document frequency) – kombinācija. Tieši variācijas tf-idf shēmās nosaka būtiskas atšķirības dāžadu meklētājprogramu darbā. Tomēr pamatīpašība ir tā, ka augstu tf-idf vērtību saņem tie termini, kas bieži sastopami konkrētā dokumentā, bet reti sastopami dokumentu kolekcijā kopumā.

Meklētājprogrammu arhitektūra

Lai sameklētu dokumentu globālajā tīmeklī, iekštīklā un digitālajās bibliotēkās, jārealizē meklēšanas iespēja. Tipiska tīmekļa meklētāja arhitektūra nodrošina tīmekļa lapu priekšapstrādi, semantisko apstrādi un indeksēšanu, lai lietotāja vaicājuma saņemšanas laikā vaicājumu izanalizētu un salīdzinātu ar indeksētajām lapām. Pēc atbilstības noteikšanas tiek atspoguļoti iegūtie rezultāti.

Meklētājprogrammas, lai reprezentētu II rezultātus, lietotājam sniedz sarakstu ar dokumentiem un parasti arī papildinformāciju par tiem. Dokumentu fragmenti, ko atspoguļo lietotājam līdz ar izgūtajiem rezultātiem, tiek iegūti dažādos veidos. Statiskie fragmenti nav atkarīgi no vaicājuma un visbiežāk ir sagatavoti jau dokumenta indeksēšanas laikā, bet dinamiskie fragmenti tiek gatavoti atbilstoši ievadītajam vaicājumam, lai pilnīgāk atspoguļotu dokumenta saistību ar lietotāja informācijas vajadzībām. Fragmenta sagatavošanā tiek izmantoti gan dokumenta metadati, gan saturs, piemēram, pirmie divi teksta teikumi. Teksta fragmentu pilnveidošanā nozīmīgas ir dabīgās valodas apstrādes tehnikas, lai iegūtu reprezentatīvus dokumentu kopsavilkumus vai izvēlētos informatīvākos teikumus.

Izguves rezultātu uzlabošana

Būtisks pētījumu virziens II jomā ir izguves sistēmu efektivitātes (efficiency) un rezultativitātes (effectiveness) uzlabošana. Efektivitāte II kontekstā ir jēdziens, ar ko parasti apzīmē skaitļošanas resursu patēriņu. Rezultativitāte ir izgūto rezultātu kvalitātes, lietderības novērtējums. Par galvenajiem II un dokumentu reprezentācijas kvalitātes mēriem tiek uzskatīta precizitāte (precision) un atdeve (recall). Precizitāte tiek definēta kā atbilstošu trāpījumu proporcija pret visiem trāpījumiem, savukārt atdeve – atbilstīgu trāpījumu proporcija pret visiem atbilstīgiem dokumentiem.

Dokuments ir atbilstošs, ja tas apmierina lietotāja informācijas vajadzības (information need), nevis tikai satur visus vaicājumā prasītos vārdus. Informācijas vajadzība ir tēma, par kuru lietotājs vēlas uzzināt ko vairāk, savukārt vaicājums ir datorsistēmā ievadītie dati, lai formulētu lietotāja informācijas vajadzības.

Meklētājprogrammai nav viegls uzdevums izprast lietotāja vajadzības, ņemot vērā ievadīto vaicājumu. Interaktīva II, iesaistot sistēmas lietotāju, ir meklēšanas metode, kas, strādājot tiešsaistē ar izguves sistēmu, ļauj mainīt pieņemto meklēšanas stratēģiju. Jāņem vērā, ka vaicājumā lietotie termini var neatbilst dokumentu kopā biežāk izplatītajiem terminiem šim pašam semantiskajam jēdzienam un vaicājums var saturēt neviennozīmīgus terminus, kā arī pareizrakstības kļūdas. Metodes šo sarežģījumu risināšanai var iedalīt globālajās un lokālajās. Globālās metodes nodrošina vaicājuma paplašināšanu vai pārformulēšanu, izmantojot tēzauru, kā arī pareizrakstības kļūdu labotāju. Lokālās metodes pielāgo vaicājumu saskaņā ar sākotnēji iegūtajiem atbilstošajiem rezultātiem. Izplatītākās ir atbilstības atgriezeniskās saites (relvance feedback) metodes dažādās to izpildījuma versijās. Atbilstības atgriezeniskā saite iesaista lietotāju vaicājuma rezultātu uzlabošanā. Vienā vai vairākās iterācijās lietotājam tiek demonstrēti iegūtie rezultāti un lūgts novērtēt, kuri no tiem ir atbilstoši viņa informācijas vajadzībām. Balstoties uz novērtējumu, meklētājsistēma izskaitļo, kā izgūt lietotāja informācijas vajadzībām atbilstošākos dokumentus, piemēram, paplašinot vaicājumu un pielāgojot terminu svarus. Viens no pazīstamākajiem algoritmiem atbilstības atgriezeniskās saites nodrošināšanai ir Rokio (Rocchio) – 1971. gadā radīts algoritms, kuru var lietot vektora telpas izguves modeļa ietvaros. Varbūtiskas atbilstības atgriezensikās saites iegūšanai izplatīts ir Naivā Beijesa (Naive Bayes) varbūtiskais modelis. Atbilstības atgriezeniskās saites lietderības novērtēšanai lieto dažādus mērus, piemēram, precizitātes (precision) un atsaukuma (recalI) salīdzinājumu pirms un pēc lietotāja iesaistes vai mērot lietotāja patērēto laiku, lai iegūtu atbilstošu dokumentu, izmantojot viarākas stratēģijas. Aklās vai pseido atbilstības atgriezeniskās saites metodes cenšas iegūt līdzvērtīgus uzlabojumus izgūtajos rezultātos, neiesaistot lietotāju, bet pieņemot, ka daži visaugstāk ranžētie dokumenti ir atbilstošākie, un attiecīgi pielāgojot vaicājumu nākamajā iterācijā.

Lai veiktu teksta interpretāciju sarežģītāku informācijas izguves pieprasījumu gadījumā, II sistēmā jāintegrē padziļinātas valodas zināšanas. Eksperimenti, kuros izmantoti leksiskie resursi, piemēram, mašīnlasāmi tēzauri vai ontoloģiskie valodas resursi, pierāda, ka iespējami uzlabojumi dokumentu atrašanā, izmantojot vaicājumā uzdoto terminu sinonīmus vai netieši saistītus jēdzienus. Lai apstrādātu dabīgā valodā uzdotus vaicājumus, kas satur, piemēram, jautājuma teikumus, nevis vienkārši uzdotus atslēgvārdus, meklētājprogrammām jānodrošina sarežģītāku valodu tehnoloģiju lietojums. Tas iekļauj sintaktisko un semantisko analīzi, indeksēšanu, sintaktisko parsēšanu teikuma gramatiskās struktūras noteikšanai, tekstuālo apzīmējumu atpazīšanu.

Starpvalodu II

Starpvalodu informācijas izguve (cross-lingual information retrieval), kas ietver automātisku vaicājuma tulkošanu visās iespējamajās avota valodās un pēc tam rezultātu tulkošanu atpakaļ mērķa valodā, ir lielāks izaicinājums II sistēmām.

Eiropas Komisijas (EK) Piektās pamatprogrammas projektā CLARITY (Starpvalodu informācijas izguves un teksta, un audio dokumentu kārtošanas priekšlikums) izstrādāts starpvalodu II sistēmas prototips angļu, somu, zviedru, latviešu un lietuviešu valodai. Projektā izstrādāti arī latviešu un lietuviešu valodas II programmu portotipi. CLARITY ietvaros vaicājumu tulkošana tika veikta divos virzienos: no latviešu un lietuviešu valodas angļu, somu un zviedru valodā, lai izgūtu šajās valodās rakstītus dokumentus, un otrādi. II starp somu/zviedru un latviešu/lietuviešu valodu tika lietots transitīvs tulkojums (izmantojot starpniekvalodu). Baltu valodām vidējā precizitāte dokumentu izguvē, izmantojot vaicājumu tiešo tulkošanu, salīdzinot ar monolingvālo izguvi, var sasniegt vairāk nekā 70 %. Transitīvās tulkošanas gadījumā precizitāte ir zemāka – aptuveni 40 %.

Latvijas zinātnieku pētījumi II jomā notiek galvenokārt bibliotēku zinātnes un valodu, datorizētas teksta apstrādes pētījumu ietvaros. Uzņēmums “Tilde” veic ievērojamu ieguldījumu valodas tehnoloģiju attīstībā, kas ir būtiska daļa mūsdienīgai II sistēmai. Latvijas Universitātes Matemātikas un Informātikas institūts nodarbojas ar datorlingvistiku un semantiskā tīmekļa tehnoloģijām.

Rīgas Tehniskajā universitātē (RTU) 2013. gadā veiktais pētījums “Nestrukturēto datu avotu normalizācijas un strukturēšanas algoritmu izpēte” (autori Atis Kapenieks, Renāte Strazdiņa) kā daļu no pētījuma apraksta informācijas izguvi no nestrukturētiem datiem, konkrētāk, divus virzienus – nosaukto entītiju atpazīšanu (named entity recognition) un saistību ekstrakciju.

Pētījumos ir secināts, ka latviešu valodai trūkst sarežgītākām valodas tehnoloģijām paredzētu informācijas izguves rīku un resursu, bet ar dažādu pētījumu un projektu palīdzību pie tā tiek strādāts.

Dažāda formāta II

Lai arī informācijas meklēšana teksta dokumenos un saistītā tekstā ir ievērojamākais II darba lauks, jāņem vērā, ka dati ir sastopami ne tiekai teksta, bet arī citos formātos – attēlos, audio un video datnēs. Šādu multivides datņu apstrādei vajadzīgi papildu pakalpojumi. Audio un video datu gadījumā runas atpazīšanas modulis var konvertēt runas saturu tekstā vai tā fonētiskajā atveidojumā, lai meklētu atbilstību lietotāja vaicājumam. Attēlu izguvē pamatā tiek izmantotas divas metodes – saturā balstīta (content-based) izguve un aprakstā balstīta (concept-based) izguve. Pieaugot multimediju saturam globālajā tīklā un citos digitāli uzkrātās informācijas avotos kopumā, II loma palielinās ne tikai tekstuālu datu meklēšanā un apstrādē.

Meklētājprogrammas prototips, kas tika izstrādāts EK Sestās pamatprogrammas projektā TRIPOD (Trīspusējs multivides objektu apraksts), nodrošina iespēju atrast attēlus, izmantojot atslēgvārdus, jēdzienisko un telpisko vaicājumu konstruktorus. Tas ir īstenots, izmantojot starpdisciplināru pieeju, – apvienojot ģeogrāfiskās informācijas zinātni, informācijas izguves un vairāku dokumentu apkopošanas metodes kopā ar attēlu kontekstuālo izguvi. TRIPOD rīki papildina attēlus ar telpiskiem datiem, lai izskaitļotu kontekstuālu informāciju par atrašānas vietu un attēlā redzamās ainavas raksturīgajām pazīmēm. Telpiskie dati tiek izmantoti, lai iegūtu semantisku papildinformāciju par fotoattēlā redzamo vietu. Lai atomātiski izveidotu fotoattēlu aprakstus, tiek izmantotas dažādas metodes, piemēram, meklēšana internetā, teksta apkopošana.

Jaunākās tendences II

21. gs. sākumā informācijas izguves jēdziens ir sasaistīts ar daudzām jomām, piemēram, ontoloģiju izmantošanu un modelēšanu, dabīgās valodas apstrādi, ieteikumu sistēmām (recommendation systems), tekstizraci, klasifikāciju, klasterizāciju, noskaņojuma analīzi (opinion mining). II lieto žurnālistikā, sekojot līdzi jaunumiem plašā informātīvajā telpā, retrospektīvai ziņu notikumu attīstībai, monitorējot medijus. Arvien plašāk II saistīta ar personalizētu un interaktīvu mijiedarbību starp lietotāju, vietu, laiku un lietotāja sociālo vidi, t. sk. proaktīvu lietotāja informācijas vajadzību paredzēšanu.

Mūsdienās daudzi pētniecības un II lietojumi ir saistīti ar bioinformātiku un medicīnu. Praktiski nozīmīgi pētījumi tiek veltīti II ātruma palielināšanai, pilnveidojot datu glabāšanu un apstrādi. Arvien vairāk II tematikas tiek saistīts ar lielo datu (big data) apstrādi, mašīnmācīšanās un dziļās mācīšanās (deep learning) iespējām, piemēram, attēlu anotēšanā, ar automātisku iezīmju (tag) noteikšanu, ar ģeogrāfiskās informācijas atpazīšanu.

Galvenās pētniecības iestādes

Nozīmīgi II pētniecības centri ir Stenforda Universitātē (Stanford University), Masačūsetas Universitātē Amerstā (University of Massachusetts Amherst), Glāzgovas Universitātē (University of Glasgow), Amsterdamas Universtitātē (Universiteit van Amsterdam), Kornela Universitātē (Cornell University).

Kā būtiska profesionālā organizācija ir minama Datortehnikas asociācijas (Association for Computing Machinery, ACM) Speciālā interešu grupa informācijas izguvē (Special Interest Group on Information Retrieval), kas kopš 1963. gada veicina pētījumus, izstrādnes un izglītojošus pasākumus jomās, kas saistītas ar informācijas meklēšanas un piekļuves tehnoloģijām.

Svarīgākie periodiskie izdevumi

Information Retrieval Journal (izdevējs Springer Netherlands, kopš 1999. gada), agrāk pazīstams kā Information Retrieval, publicē starptautiskus rakstus par teoriju, algoritmiem, analīzi un eksperimentiem II jomā. Aptvertās tēmas ir meklēšana, indeksēšana, analīze un novērtējums lietojumprogrammām, piemēram, tīmeklim, sociāliem un straumējošiem medijim, ieteikumu sistēmām un teksta arhīviem. Žurnāls pievērš vērību arī cilvēka faktoram meklēšanā, mākslīgā intelekta un II sasaistei, kā arī speciālā lietojuma meklēšanas rīkiem.

Foundations and Trends in Information Retrieval (izdevējs now publishers, kopš 2006. gada) publicē plašus apskata rakstus (e-grāmatas) par dažādām II tēmām un jomām, arī par citviet mazāk pārstāvēto audio izguvi.

International Journal of Information Retrieval Research (izdevējs IGI Global, kopš 2011. gada) ir veltīts II teorijai un metodēm uzņēmuma līmenī, un tajā apskatītas starpdisciplināras un daudznozaru programmas datu, teksta un dokumentu izguvei. 

ACM Transactions on Information Systems (izdevējs Association for Computing Machinery, kopš 2010. gada) publicē informācijas sistēmu pētījumus, koncentrējoties uz zinātniskajiem darbiem, kas piedāvā oriģinālus pētījumus, izstrādājot, novērtējot un pārvaldot informācijas tehnoloģijas un sistēmas organizācijās, uzņēmumos un sabiedrībās.

Information Processing & Management (izdevējs Elsevier, kopš 1975. gada), agrāk pazīstams kā Information Storage and Retrieval, aptver plašus digitālas informācijas apstrādes aspektus un publicē pētījumus, kas saistīti ar datu apstrādi un informācijas zinātni dažādās jomās, piemēram, reklāmās, uzņēmējdarbībā, veselībā, mārketingā un sociālajā skaitļošanā, jaunākajos izdevumos koncentrējoties uz kontekstuālas semantiskas informācija apstrādi, dabīgās valodas lietojumu, II sociālajos tīklos un internetā kopumā.

International Journal on Digital Libraries (izdevējs Springer Berlin Heidelberg, kopš 1997. gada)  tiek apskatīta digitālās informācijas iegūšanas, definēšanas, organizācijas, pārvaldības un izplatīšanas teorija un prakse. Apraksta digitālās informācijas ražošanas, pārvaldības un izmantošanas jautājumus, tīklu un tehnoloģiju savietojamību, aģentu tehnoloģiju lietojumus u. c. ar digitālo bibliotēku nodrošināšanu saistītas tēmas.

Nozīmīgākie nozares darbinieki

V. Bušs ar rakstu “Kā mēs varam domāt” radīja pamatu idejām un risinājumiem automātiskai piekļuvei lieliem glabātu zināšanu apjomiem. K. N. Mūerss 1950. gadā ieviesa terminu “informācijas izguve” un veltīja darbu informācijas teorijai un mākslīgajam intelektam. H. P. Lūns lika pamatus daudzām informācijas zinātnes tehnikām, ieviesa selektīvas informācijas izplatīšanas (selective dissemination of information) konceptu un 1957. gadā aprakstīja dokumentu indeksāciju, izmantojot vārdus, bet vārdu sakritības mērījumus lietojot kā izguves kritēriju. Džerārds Saltons (Gerard Salton) ir viens no SMART informācijas izguves sistēmas iniciatoriem un izstrādātājiem Kornela Universitātē 19. gs. 60. gados. Šīs sistēmas ietvatos tika izstrādātas daudzas svarīgas II tehnikas, ieskaitot vektora telpas modeli un atbilstības atgriezenisko saiti. Karena Sparka Džonsa (Karen Spärck Jones) ir pazīstama ar darbu pie informācijas izguves un dabiskās valodas apstrādes. Viens no viņas vissvarīgākajiem ieguldījumiem ir inversā dokumenta biežuma (idf) koncepcija, ko viņa ieviesa 1972. gadā. Inversais dokumentu biežums mūsdienās tiek izmantots lielākajā daļā meklētājprogrammu, parasti kā daļa no tf-idf shēmas. Korneliss Josts fon Rejsbergens (Cornelis Joost van Rijsbergen) ir viens no Glāzgovas Universitātes informācijas izguves grupas dibinātājiem, II pētījumu un grāmatu autors. Kristofers Menings (Christopher Manning) ir Stenforda Universitātes dabīgās valodas apstrādes grupas dibinātājs, II pētījumu un grāmatu autors.

Multivide

Ekrāns atspoguļo reāllaika satiksmes informāciju izgūtu ar lielo datu pakalpojumu platformas digitālajam transportam un jaunā veida lietu interneta (IoT) palīdzību. Čuncjina, Ķīna, 21.10.2020.

Ekrāns atspoguļo reāllaika satiksmes informāciju izgūtu ar lielo datu pakalpojumu platformas digitālajam transportam un jaunā veida lietu interneta (IoT) palīdzību. Čuncjina, Ķīna, 21.10.2020.

Fotogrāfs Chen Chao. Avots: China News Service via Getty Images, 1281601918.

Ekrāns atspoguļo reāllaika satiksmes informāciju izgūtu ar lielo datu pakalpojumu platformas digitālajam transportam un jaunā veida lietu interneta (IoT) palīdzību. Čuncjina, Ķīna, 21.10.2020.

Fotogrāfs Chen Chao. Avots: China News Service via Getty Images, 1281601918.

Saistītie šķirkļi:
  • informācijas izguve, datorzinātnē
Izmantošanas tiesības
Skatīt oriģinālu

Saistītie šķirkļi

  • cilvēkcentrēta datorika
  • datorlingvistika
  • datorgrafika
  • informācijas drošība un privātums, datorzinātnē
  • informācijas sistēmu lietojumi
  • internets
  • mākoņdatošana
  • mākslīgais intelekts
  • modelēšana un simulācija, datorzinātnē

Autora ieteiktie papildu resursi

Tīmekļa vietnes

  • Croft, B., D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice, Pearson Education, 2011.
  • Informācijas izguves procesa vispārīga shēmaangļu valodā (Information Retrieval)
  • Meklētājprogrammu uzbūve un pilnveide iesācējiem (The Beginner's Guide to SEO)
  • Stenforda Universitātes ((Stanford University) dabīgās valodas apstrādes grupas tīmekļa vietne ar dažādiem resursiem
  • “What is Information Retrieval” – informācijas izguves definīcijas angļu valodā

Ieteicamā literatūra

  • Bush, V., ‘As We May Think', The Atlantic, vol. 176, no. 1, 1945.
  • Büttcher, S., L.A.Ch. Clarke and V.G. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, Cambridge, Mass., MIT Press, 2010.
  • Manning, C.D., P. Raghavan P. and H. Schütze, Introduction to Information Retrieval, New York, Cambridge University Press, 2008.
    Skatīt bibliotēku kopkatalogā
  • Mooers, C., ‘Information retrieval viewed as temporal signaling’, Proceedings of the International Congress of Mathematicians, vol. 1, 1950, pp. 572–573.
  • Rijsbergen van, C.J., Information Retrieval, 2nd edn. London, Butterworths, 1979.
  • Sanderson, M. and W. Croft, The history of information retrieval research, Proceedings of the IEEE, vol. 100, no. 13, 2012. pp. 1444–1451.
  • Singhal, A., Modern Information Retrieval: A Brief Overview, IEEE Data Engineering Bulletin, vol. 24, no. 4, 2001, pp. 35–43.
  • Skadiņa, I. et al., The Latvian Language in the Digital Age/Latviešu valoda digitālajā laikmetā, Berlin, Springer, 2012.
    Skatīt bibliotēku kopkatalogā

Ilze Birzniece "Informācijas izguve, datorzinātnē". Nacionālā enciklopēdija. https://enciklopedija.lv/skirklis/92824-inform%C4%81cijas-izguve,-datorzin%C4%81tn%C4%93 (skatīts 26.09.2025)

Kopīgot


Kopīgot sociālajos tīklos


URL

https://enciklopedija.lv/skirklis/92824-inform%C4%81cijas-izguve,-datorzin%C4%81tn%C4%93

Šobrīd enciklopēdijā ir 0 šķirkļi,
un darbs turpinās.
  • Par enciklopēdiju
  • Padome
  • Nozaru redakcijas kolēģija
  • Ilustrāciju redakcijas kolēģija
  • Redakcija
  • Sadarbības partneri
  • Atbalstītāji
  • Sazināties ar redakciju

© Latvijas Nacionālā bibliotēka, 2025. © Tilde, izstrāde, 2025. © Orians Anvari, dizains, 2025. Autortiesības, datu aizsardzība un izmantošana