Atjaunots 2025. gada 8. jūnijā
Nils Rostoks,Vita Rovīte

bioinformātika

(grieķu βίος, bios ‘dzīve’ + informātika; angļu bioinformatics, vācu Bioinformatik, franču bio-informatique, krievu биоинформатика)

starpdisciplināra zinātnes nozare, kas izmanto statistikas, matemātikas un informāciju tehnoloģijas metodes bioloģisko datu analīzei

Termins “bioinformātika” radās 1970. gadā, kad Nīderlandes zinātnieki Paulīna Hogevēga (Paulien Hogeweg) un Bens Hespers (Ben Hesper) to izmantoja, lai apzīmētu pētījumus, kas saistīti ar informācijas procesiem bioloģiskās sistēmās. Mūsdienās ar terminu “bioinformātika” saprot datorzinātnes, statistikas un informācijas tehnoloģiju metožu izmantojumu genomu un ar tiem saistīto datu analīzei. Radniecīga bioinformātikai ir skaitļošanas bioloģija (computational biology). Bioinformātika ir saistīta ar praktiskiem analīzes rīkiem, bet skaitļošanas bioloģija – ar bioloģisko datu analīzes algoritmu izstrādi.

Praktiskā un teorētiskā nozīme

Bioinformātika ir būtiska molekulārās bioloģijas, kā arī citu starpnozaru zinātņu virzienu daļa. Tā nodrošina bioloģiskas izcelsmes datu apstrādes, analīzes un interpretācijas sistēmas. Jaunas augstas caurlaides spējas tehnoloģijas, piemēram, masīvā paralēlā sekvencēšana (massive parallel sequencing), veido lielu datu apjomu, ko manuāli nav iespējams apstrādāt. Šādu lielapjoma datu analīzei un interpretācijai izmanto informācijas tehnoloģiju apstrādes sistēmas. Bioinformātiku pielieto fundamentālu zinātnisku pētījumu veikšanā ģenētikā un gēnu darbības pētniecībā, bioloģisko makromolekulu struktūru noteikšanā un analīzē, dažādu sistēmu bioloģisko procesu raksturošanā, bioloģisko procesu mijiedarbības tīklu vizualizācijā. No praktiskā viedokļa šie atklājumi nodrošina medicīnas un veselības aprūpes nozaru industriju attīstību, piemēram, jaunu medikamentu, terapiju, diagnostikas rīku izveidi, kā arī vispārēju bioloģisko, bioķīmisko un biofizisko procesu izpēti, sākot no bioloģisko makromolekulu, organellu un šūnu struktūru raksturojuma līdz vispārīgu procesu izpratnei.

Vieta zinātnes klasifikācijā

Bioinformātika ir starpdisciplināra zinātnes nozare, kas papildina dzīvības zinātņu pētniecību, palīdz raksturot bioloģisko procesu vadīto informācijas apriti bioloģiskajās sistēmās molekulārā līmenī. Informācijas analīzes un interpretācijas nolūkos lieto bioloģisko makromolekulu sekvenču (virkņu) motīvu atpazīšanas (pattern recognition), interpretācijas un vispārināšanas pamatprincipus, datizraci (data mining), mašīnmācīšanās (machine learning) algoritmus un vizualizāciju. Attiecīgi bioinformātika ietver matemātikas, datorikas, statistikas un inženierzinātņu sastāvelementus.

Galvenās teorijas

Bioinformātikā pētītās makromolekulas, piemēram, dezoksiribonukleīnskābe (DNS), tiek uztvertas kā informācijas nesējas noteiktas nukleotīdu secības veidā, mazāk uzmanības pievēršot to fizikālķīmiskajām īpašībām. Ribonukleīnskābes (RNS) un proteīnu funkcija atkarīga no molekulu telpiskās struktūras, kas savukārt atkarīga no primārās struktūras (nukleotīdu vai aminoskābju secības). Proteīnu aminoskābju secības un DNS vai RNS nukleotīdu secības apzīmē kā sekvences (sequence). Makromolekulu telpiskās struktūras analīzi veic gan eksperimentāli (rentgenstruktūras analīze, kodolmagnētiskā rezonanse u. c.), gan modelējot. Makromolekulu telpisko struktūru iespējams paredzēt, izmantojot informāciju par primāro struktūru. Specifisku bioloģisko elementu un procesu pētniecībai izmanto metodes, kas vērstas uz genoma sekvenču un gēnu darbības analīzi, struktūrbioloģijas un bioloģisko sistēmu raksturošanu.

Pētniecības metodes

Genomu sekvenču iegūšana un analīze. Attīstoties sekvencēšanas tehnoloģijām un pieaugot pieejamo DNS un proteīnu aminoskābju sekvenču skaitam, radās nepieciešamība tās apstrādāt, uzglabāt un analizēt. Tādēļ bioinformātikas pētījumi genomu analīzes kontekstā izmanto metodes, kas vērstas uz genomu sekvenču savākšanu (assembly), genomu anotāciju, genomu un ar tiem saistītās informācijas datu bāzu izveidi un uzturēšanu, datubāzu meklēšanas sistēmu un dažādu genomu analīzes rīku izveidi. Viena no pirmajām datorprogrammām, kas izmantota DNS sekvenču savākšanai un kuru bija iespējams izmantot personālajā datorā, bija Steidena pakete (Staden package, 1977). Mūsdienās genoma sekvencēšanas dati tiek apstrādāti ar jaudīgām datorsistēmām. Piemēram, ASV kompānijas Celera, kas paralēli Cilvēka genoma projektam noteica cilvēka genoma sekvenci, rīcībā 1999. gadā bija pasaulē trešā lielākā un civilajām vajadzībām lielākā izmantotā datorsistēma. Proteīnu aminoskābju un DNS nukleotīdu sekvences, sākot no 20. gs. 80. gadiem, tika uzglabātas publiski pieejamās datu bāzēs. Pasaulē ir trīs primārās DNS datu bāzes: ASV Nacionālā biotehnoloģijas informācijas centra GenBank (National Center for Biotechnology Information GenBank) datu bāze, Eiropas Bioinformātikas institūta Eiropas nukleotīdu arhīvs (European Bioinformatics Institute European Nucleotide Archive) un Japānas DNS Datu banka (DNA Data Bank of Japan). Datubāzu saturs tiek regulāri sinhronizēts, un tas ir publiski pieejams internetā. Statistikas dati par GenBank datu bāzi 2017. gada oktobrī rāda, ka tā satur 203 953 682 sekvences ar kopējo garumu 244 914 705 468 nukleotīdi.

Gēnu darbības regulācijas un ekspresijas analīze. Attīstoties augstas caurlaides spējas analītiskajām metodēm, kļuva iespējams vienlaicīgi analizēt kopējo gēnu ekspresijas dinamiku un atšķirības atkarībā gan no ārējiem, gan iekšējiem stimuliem un faktoriem – radās transkriptomas analīze (transcriptomics). Galvenais marķieris gēnu ekspresijas izmaiņām ir matricas RNS (mRNS) daudzums. mRNS kvantitatīvai analīzei tiek izmantotas dažādas augstas caurlaides spējas metodes un to kombinācijas – mikrorindu analīze (microarray), masīvā paralēlā sekvencēšana un RNS-sekvencēšana. Metožu jutības un tehnoloģisku ierobežojumu dēļ šīs metodes ietver lielu fona līmeņa klātbūtni. Viena no pirmajām transkriptomas platformām, kas ļāva veikt vienlaicīgu vairāku tūkstošu vai pat desmitu tūkstošu gēnu ekspresijas analīzi, bija ASV uzņēmuma Affymetrix 20. gs. 90. gados komercializētā GeneChip platforma, kas vienā paketē apvienoja gan pašu GeneChip mikrorindu, gan hibridizācijas iekārtas un GeneChip skeneri, gan arī bioinformātikas rīkus gēnu ekspresijas analīzei. Bioinformātikas pieeja tiek izmantota gan eksperimentālajam dizainam (lietoto zondu konstrukcijai), gan datu analīzei (fona atfiltrēšanai). Mikrorindu metožu pielietošanai izveidoti brīvpieejas interneta resursi, kas nosaka vienotu standartu eksperimentiem un datu interpretācijai. Tā kā gēnu ekspresijas pamatā ir DNS (gēnu ekspresijas regulācijas elementu) un proteīnu (transkripcijas faktoru) mijiedarbība, izveidotas metodes, kas palīdz noteikt, kādi proteīni piesaistīti DNS, kādā funkcionālā stāvoklī un kuri no tiem var mijiedarboties ar noteiktiem DNS reģioniem. Šo metožu pamatā ir hromatīna imunoprecipitācijas metodes (chromatin imunoprecipitation – ChIP) variācijas.

Bioinformātikas izmantojums struktūrbioloģijā palīdz noteikt un prognozēt proteīnu struktūru un spriest par analizēto proteīnu funkcijām. Biežāk izmantotās eksperimentālās metodes, kas datus analizē struktūrbioloģijā, ir rentgenstaru kristalogrāfija un kodolmagnētiskā rezonanse. Eksperimentālie dati tiek izmantoti, lai noteiktu proteīna sekundāro, terciāro un kvartāro struktūru. Proteīnu trīsdimensiju struktūras tiek apkopotas un publicētas interneta brīvpieejas resursos, piemēram, Proteīnu datu bankā (Protein Data Bank, PDB). Paralēli eksperimentālo datu analīzei struktūrbioloģijā tiek izmantotas arī bioinformātikas metodes, kas ļauj prognozēt proteīna telpisko struktūru, balstoties uz primāro aminoskābju sekvenci. Izplatītākā un precīzākā ir homoloģijas modelēšana (homology modeling), kad, zinot proteīnu kodējošo aminoskābju sekvenci, iespējams šo sekvenci pielāgot (threading) evolucionāri vai molekulāri radnieciskam proteīnam ar zināmu struktūru un tādējādi paredzēt pētāmā proteīna struktūru. Tiek izmantotas arī de novo (latīņu ‘no jauna’) vai ab initio (latīņu ‘no sākuma’) metodes, kas balstās uz struktūras paredzēšanu tikai atkarībā no aminoskābju secības proteīnā, neizmantojot eksperimentālos vai homoloģijas datus. Pamatā visām struktūrbioloģijas pieejām ir termodinamiskā hipotēze, ka aminoskābju virkne proteīnā cenšas ieņemt stāvokli ar minimālu iekšējo brīvo enerģiju. Bioinformātikas metodes šajā gadījumā palīdz aprēķināt iespējamos brīvās enerģijas variantus potenciālajās struktūrās un atrast struktūras modeli ar potenciāli zemāko brīvo enerģiju. Šādas programmas (SWISS-MODEL, PSIPRED u. c.) pieejamas interneta resursos.

Sistēmbioloģija ir bioloģisko sistēmu matemātiska modelēšana, kas cenšas iegūt priekšstatu par bioloģisko sistēmu kā vienotu veselumu. Attīstoties analītiskajām augstas caurlaides spējas metodēm, iespējams iegūt pilnīgu informāciju par organisma genoma sekvenci, visu gēnu ekspresijas līmeni noteiktās šūnās un audos, kā arī par proteīnu un metabolītu līmeņiem šūnās. Lai integrētu un analizētu eksperimentālos datus no dažādiem avotiem vai par vairākiem molekulārās bioloģijas pamatelementiem (DNS, RNS, proteīniem), tiek lietotas specifiskas sistēmbioloģijas pētniecības metodes. Parasti bioinformātikas pieeja sistēmbioloģijai ietver signālceļu, tīklu un mijiedarbību identifikāciju lielā datu apjomā. Šādā veidā tiek pētītas proteīnu-proteīnu un citu pamatelementu mijiedarbības, metabolisma ceļi, gēnu ekspresijas un regulācijas tīkli, kā arī šūnas signālu pārnese. Bioinformātikas metodes sistēmbioloģijā tiecas veidot virtuālu šūnas, tās funkcijas vai organisma modeli, integrējot eksperimentālo un informācijas tehnoloģiju pieeju, lai spriestu par sistēmas kopējiem darbības principiem un identificētu būtisko pamatelementu un funkciju virkni, kā arī lai prognozētu sistēmas funkcionēšanu konkrētos apstākļos.

Informācijas meklēšanas sistēmas. Sākotnēji publiskajās genoma datu bāzēs pieejamā informācija tika izplatīta lielākajām pasaules universitātēm un bibliotēkām datoru diskešu un kompaktdisku formā, taču globālā tīmekļa izveide atļāva tām piekļūt katram interneta lietotājam. Lai atvieglotu informācijas meklēšanu un datu analīzi, NCBI un EBI izveidotas integrētas meklēšanas sistēmas, kas ļauj meklēt informāciju gan pēc atslēgas vārdiem, gan pēc sekvenču homoloģijas vienlaicīgi visās saistītajās datu bāzēs. Piemēram, DNS sekvenču datu bāzes ir saistītas ar proteīnu aminoskābju sekvenču, atbilstošo proteīnu telpisko struktūru, DNS variācijas, gēnu ekspresijas, zinātniskās literatūras u. c. datubāzēm. Meklējot kādas sugas organisma noteiktu gēnu, iespējams atrast arī saistīto informāciju par šī gēna kodēto proteīnu un atbilstošo zinātnisko literatūru. Meklēšanu iespējams veikt, izmantojot atslēgas vārdus vai meklējot datu bāzē DNS vai proteīnu aminoskābju sekvencei homologās sekvences. DNS un to kodētās proteīnu aminoskābju sekvences dažādos dzīvos organismos ir ar kopīgu izcelsmi, attiecīgi tās var būt līdzīgas (homologas). Populārākie homoloģijas meklēšanas rīki ir BLAST (Basic Local Sequence Alignment Tool) un FASTA. Mūsdienās daudzi saistītie datu resursi gan struktūru bioloģijā, gan sistēmbioloģijā atrodami interneta brīvpieejas meklēšanas sistēmās, kas ļauj brīvu datu apriti un veicina pētniecības attīstību.

Īsa vēsture

Bioinformātikas attīstība saistīta ar bioloģisko makromolekulu, proteīnu, DNS un RNS struktūras analīzi. 20. gs. 50. gados tika izstrādātas metodes proteīnu primārās struktūras (aminoskābju secības) noteikšanai. Par šo atklājumu 1958. gadā britu bioķīmiķis Frederiks Sengers (Frederick Sanger) saņēma Nobela prēmiju ķīmijā. 20. gs. 60. gados, uzkrājoties informācijai par proteīnu aminoskābju sekvencēm, tika veidotas metodes matemātiskai aminoskābju sekvenču analīzei. Amerikāņu fizikālā ķīmiķe Mārgareta Deihofa (Margaret Oakley Dayhoff) bija viena no pirmajiem zinātniekiem, kas sāka veidot šo sekvenču datu bāzes un programmas aminoskābju sekvenču salīdzināšanai, paredzēšanai un proteīnu homoloģijas identifikācijai molekulārās evolūcijas pētniecībai. 20. gs. 70. gados tika izstrādātas gēnu inženierijas un DNS primārās struktūras (nukleotīdu secības) noteikšanas metodes. Par šo atklājumu 1980. gadā F. Sengers un Volters Gilberts (Walter Gilbert) saņēma Nobela prēmiju ķīmijā. Uzkrājot informāciju par bioloģiskajām pamatvienībām (proteīnu, RNS un DNS) katalogos un datu bāzēs, sākot no 20. gs. 90. gadiem, tiek veidoti daudzveidīgi eksperimentāli iegūto datu analīzes rīki (National Center for Biotechnology, Information European Bioinformatics Institute u. c. institūciju brīvpieejas rīki), kas integrē internetā pieejamo informāciju ar jauniegūtiem rezultātiem, nodrošinot datu analīzes sistēmas.

Pašreizējais attīstības stāvoklis

Mūsdienās būtiskākais bioinformātikas zinātnes nozares uzdevums ir nodrošināt lielapjoma datu analīzi, kas iegūti, izmantojot modernākās augstas caurlaides spējas molekulārās bioloģijas metodes, vienlaicīgi attīstot datu iegūšanas, uzkrāšanas un analīzes algoritmus un attīstot šim nolūkam nepieciešamos datortehnikas resursus, kas nepieciešami gan vērienīgu datu daudzuma uzglabāšanai, gan skaitļošanas jaudai datu apstrādes procesos. Datortehnisko resursu nodrošināšanai bioinformātikas procesiem mūsdienās tiek veidotas dažādas starptautiskas resursu infrastruktūras.

Vadošās pētniecības iestādes

Nacionālais Biotehnoloģijas informācijas centrs (National Center for Biotechnology Information, NCBI) Betesdā, ASV; Eiropas Bioinformātikas institūts (European Bioinformatics Institute, EMBL-EBI) Hinkstonā, Lielbritānijā, Skripsa Pētniecības institūts (Scripps Research Institute, TSRI) Lahollā, ASV, Velkoma Fonda Sengera institūts (Wellcome Trust Sanger Institute, WTSI) Hinkstonā, Lielbritānijā, Maksa Planka Molekulārās šūnu bioloģijas un ģenētikas institūts (Max-Planck-Institut für molekulare Zellbiologie und Genetik, MPI-CBG) Drēzdenē, Vācijā.

Nozīmīgākie periodiskie izdevumi

Nozīmīgākie periodiskie izdevumi: Bioinformatics (kopš 1985. gada, Oxford Academic), BMC Bioinformatics (kopš 2000. gada; Springer Nature), Computational and Structural Biotechnology Journal (kopš 2012. gada; Elsevier), Computational Biology and Chemistry (kopš 1976. gada; Elsevier), Journal of Biomedical Informatics (kopš 1967. gada; Elsevier), PloS Computational Biology (kopš 2005. gada; Public Library of Science).

Ievērojamākie pētnieki

Britu bioķīmiķis F. Sengers – ieguva Nobela prēmiju 1958. gadā par insulīna struktūras noteikšanu un 1980. gadā par DNS sekvences noteikšanas metodes izstrādi; amerikāņu ķīmiķe M. Deihofa – veicināja skaitļošanas metožu izmantojumu bioloģijā un medicīnā, proteīnu un nukleīnskābju datu bāzu izveidi, kā arī izveidoja vienu no pirmajām aminoskābju aizvietošanas matricām un viena burta aminoskābju kodu; britu zinātnieks Rodžers Stadens (Roger Staden) – izveidoja vienu no pirmajām DNS sekvenču analīzes paketēm personālajiem datoriem, kā arī virkni standarta failu formātu un DNS sekvenču kvalitātes novērtēšanas parametru; amerikāņu matemātiķis Stīvens Altšūls (Stephen Frank Altschul) – piedalījās homoloģijas meklēšanas algoritma izveidošanā BLAST programmai; amerikāņu biologs Deivids Lipmans (David J. Lipman) – viens no BLAST programmas līdzautoriem, ASV Nacionālā biotehnoloģijas informācijas centra direktors (1989–2017); amerikāņu fiziķis Templs Smits (Temple Ferris Smith) un amerikāņu matemātiķis Maikls Votermans (Michael Spencer Waterman) – izstrādāja Smita-Votermana algoritmu lokālam sekvenču salīdzinājumam; amerikāņu ģenētiķis Džordžs Čērčs (George Church) – izstrādāja genomu sekvencēšanas stratēģijas, kā arī sintētiskās bioloģijas un genomu inženierijas koncepcijas.

bioinformātika

Saistītie šķirkļi

Nozares un apakšnozares

Satura rādītājs

Satura rādītājs

Autora ieteiktie papildu resursi

bioinformātika

Saistītie šķirkļi

Nozares un apakšnozares

Satura rādītājs

Satura rādītājs

Saistītie šķirkļi

Autora ieteiktie papildu resursi

Tīmekļa vietnes

Ieteicamā literatūra