Egzamino temos

Download Report

Transcript Egzamino temos

Bioinformatika

Egzamino temos

Doc. Robertas Damaševičius

KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected]

Egzamino sąlygos



Raštu



Trukmė: 90 min.



30 % galutinio pa žymio

Egzamino klausimai

          1. Bioinformatikos mokslo samprata. Kryptys ir šakos. ( 1 paskaita ) 2. Genetinės informacijos kodavimas ir dekodavimas. ( 2 paskaita ) 3. Bioinformacinės duomenų bazės. Duomenų formatai. ( 3 paskaita ) 4. Porinis sekų sugretinimas. (5 paskaita) 5. Globalus sekų sugretinimas. (5 paskaita) 6. Lokalus sekų sugretinimas. (5 paskaita) 7. Sugretinimo matricos. Optimalios sugretinimo sekos. (... paskaita) 8. Evoliuciniai (filogenetiniai medžiai). Newick formatas. (11 paskaita) 9. Baltymų struktūra. Baltymų modeliavimas. (6 paskaita) 10. Bioinformatikos taikymai. (1 paskaita)

1. Bioinformatikos mokslo samprata. Kryptys ir šakos.

Bioinformatikos apibrėžimai (1)

 Mokslas, kuriame biologija, kompiuterių mokslas ir informacinės technologijos susijungia į vieną discipliną  Mokslas apie biologijoje naudojamų kompiuterinių technologiją kūrimą ir taikymą  Matematinių, statistinių ir kompiuterinių metodų naudojimas biologinių duomenų (DNR, amino rūgščių sekų ir pan.) analizei  Mokslas apie biologinių duomenų bazes, jų kūrimą, valdymą, pildymą nauja informacija ir duomenų paieškos metodų taikymą Bioinformatika (B110M100) 5

Bioinformatikos apibrėžimai (2)



Biologinių sistemų informacinis modeliavimas



Mokslas apie biologinėse sistemose vykstančius informacinius procesus bei tų procesų mechanizmus, informatikos požiūriu aiškinančius gyvųjų organizmų funkcinę organizaciją, sandarą ir elgseną

Bioinformatika (B110M100) 6

Bioinformatikos termino naudojimas



Siaurąja prasme:

 Bioinformatika yra biomolekulinių sekų, saugomų genetinių duomenų bazėse, apdorojimo metodus tiriantis mokslas 

Plačiąja prasme:

 Bioinformatika yra mokslas tiriantis informacinių procesus vykstančius gyvuosiuose organizmuose (įskaitant ir „dirbtinę gyvybę“) Bioinformatika (B110M100) 7

Bioinformatikos kryptys



1.

Bioinformacinių duomenų organizavimas ir valdymas  bioinformacinių duomenų standartizavimas,  duomenų bazių struktūra ir valdymas,  bioinformacinių duomenų bazių ir įrankių integravimas 

2.

Biomolekulinių sekų analizės metodų ir algoritmų kūrimas 

3.

Biomolekulių struktūros numatymas ir modeliavimas 

4.

Biosistemų kompiuterinis modeliavimas Bioinformatika (B110M100) 8

Bioinformatikos šakos

 Genoinformatika arba genomika  tiria genetinės informacijos organizavimą įvairių rūšių organizmų genomuose  Proteomika (baltymų mokslas)  tiria baltymų sekas, struktūrą ir funkcijas  Kladistika arba filogenetika  nagrinėja algoritmų ir programų taikymą genomo evoliucijos tyrimui 

Neuroinformatika

 tiria nervų sistemos organizavimą Bioinformatika (B110M100) 9

2. Genetinės informacijos kodavimas ir dekodavimas.

Genetinis kodas

 Informatikoje kodas suprantamas kaip taisyklių rinkinys, lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją  Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką  Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę  Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių) kodą Bioinformatika (B110M100) 11

DNR/RNR sekų abėcėlės kodai

1 simbolio kodas

A C G T U

Pavadinimas

Adeninas Citozinas Guaninas Timinas Uracilas

Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje

Bioinformatika (B110M100) 12

Amino rūgščių kodai

Amino rūgštis 3 simbolių kodas

Alaninas Argininas Aspartinė rūgštis Asparaginas Cisteinas Glutamino rūgštis Glutaminas Glicinas Histidinas Izoleucinas Leucinas Lisinas Metioninas Fenilalaninas Prolinas Serinas Treoninas Triptofanas Tirozinas Valinas ALA ARG ASP ASN CYS GLU GLN GLY HIS ILE LEU LYS MET PHE PRO SER THR TRP TYR VAL Bioinformatika (B110M100)

1 simbolio kodas

A R D N C E Q G H I L K M F P S T W Y V 13

Genetinės informacijos kodavimas/dekodavimas

Antroji kodono pozicija C A T T

TTT [F] TTC [F] TTA [L] TTG [L] TCT [S] TCC [S] TCA [S] TCG [S] TAT [Y] TAC [Y] TAA [STOP] TAG [STOP]

TGT [C] TGC [C] TGA [STOP] TGG [W]

C Pirmoji kodono pozicija A G

CTT [L] CTC [L] CTA [L] CTG [L] ATT [I] ATC [I] ATA [I] ATG [M] CCT [P] CCC [P] CCA [P] CCG [P] ACT [T] ACC [T] ACA [T] ACG [T] GTT [V] GTC [V] GTA [V] GTG [V] GCT [A] GCC [A] GCA [A] GCG [A] Bioinformatika (B110M100) CAT [H] CAC [H] CAA [Q] CAG [Q] AAT [N] AAC [N] AAA [K] AAG [K] GAT [D] GGAC [D] GAA [E] GAG [E] CGT [R] CGC [R] CGA [R] CGG [R] AGT [S] AGC [S] AGA [R] AGG [R] GGT [G] GGA [G] GGA [G] GGG [G]

A G T C A G T C A G T C A G T C Trečioji kodono pozicija

Kodavomo/ dekodavimo procedūros savybės (1)



Pertekliškumas.

 Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius.  Realiai koduojama tik 20 skirtingų amino rūgščių.  Tai reiškia kad tai pačiai amino rūgščiai koduoti yra naudojamas daugiau kaip vienas kodonas (trijų simbolių seka).  Tuo genetinės sekos yra panašios į programavimo kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais. Bioinformatika (B110M100) 15

Kodavomo/ dekodavimo procedūros savybės (2)

 Dekodavimo procedūra yra vienareikšmė, t.y.  pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką:  Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas.  Kodavimo procedūra nėra vienareikšmė, t.y.  turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką.  Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais.

Bioinformatika (B110M100) 16

3. Bioinformacinės duomenų bazės. Duomenų formatai.

Bioinformacinių duomenų bazės (1)

 Duomenų bazė: organizuotas (sutvarkytas) duomenų rinkinys, kuriuo galima individualiai naudotis elektroniniu ar kitu būdu  Gali būti vienas failas, talpinantis daug įrašų, kurių kiekvienas turi tokią pačią informacijos struktūrą  Dažniausiai susietos su specialia programa (Duomenų bazių valdymo sistema - DBVS) skirta atnaujinti, ieškoti ir atrinkti saugomus duomenis Bioinformatika (B110M100) 18

Bioinformacinių duomenų bazių tipai

 Viešos ir privačios (tarnybinės stotys, paieškos programos, bioinformatikos įrankiai)  Pirminės (saugomi „žali“ duomenys) ir antrinės (saugoma informacija gauta apdorojant „žalius“ duomenis)  Nesidubliuojančios (saugo tik skirtingus duomenų įrašus)  Makromolekulių (DNR sekos, amino rūgščių sekos, baltymų trimatės struktūros) ir mažų molekulių  Orientuotos tekstui (bibliografinės taksonominės) (straipsnių), Bioinformatika (B110M100) 19

Duomenų bazės

          Nukleorūgščių (DNR, RNR) sekų bankai - saugoma visa šiuo metu turima informacija apie gyvųjų organizmų biomolekulinės sekas.

Genomų sekų bankai.

Baltymų sekų bankai.

Genomo naršyklės – leidžia peržiūrėti anotuotus genų prognozavimo ir struktūros, baltymų, ir lyginamosios analizės duomenis.

Specializuotos duomenų bazės.

Metabolinių kelių duomenų bazės.

Baltymų struktūros duomenų bazės.

Mikromatricų duomenų bazės.

Baltymų-baltymų sąveikos duomenų bazės.

Metaduomenų bazės yra duomenų bazės, kurios renka informaciją iš įvairių šaltinių ir pateikia ja patogesne forma.

Bioinformatika (B110M100) 20

Duomenų formatai

 Amino rūgščių sekos, baltymų struktūros paveikslėliai, trimačių struktūrų skirtingi vaizdai ir baltymų hidrofobiškumo duomenys, ir kt.  Nukleotidų arba amino rūgščių sekų formatai   Kiekviena seka simbolizuoja atitinkamai tam tikrą geną ar baltymą. Sekos sudaromos naudojant vienos raidės pažymėjimus.  Tai sumažina saugomos informacijos kiekį ir pagreitina sekos analizę. Bioinformatika (B110M100) 21

Nukleotidų sekų DB įrašas

 Ryšio tipas  Įvesties seka, kartu su molekulės tipo aprašymu  Šaltinio (organizmo), iš kurio ji buvo išskirta mokslinis pavadinimas  Literatūros nuorodos apie seką Bioinformatika (B110M100) 22

FASTA duomenų formatas

  Tekstinis duomenų formatas skirtas nukleorūgščių sekų arba baltymų sekų atvaizdavimui.         Seka prasideda aprašymo eilute (prasideda „>“ simboliu). Pirmas žodis po „>“ simbolio yra sekos pavadinimas. Toliau eilutėje yra sekos aprašymas (nebūtinas). Sekančiose eilutėse pateikiama pati seka. Nukleotidai ir amino rūgštys yra žymimos vienos raidės kodu. Sekos pabaiga laikomas kitas „>“ simbolis. Komentarų eilutės pradedamos kabliataškio (;) simboliu. Eilučių ilgis turi neviršyti 80 simbolių. Pranašumai:   Paprastumas Duomenų apdorojimui galima naudoti teksto apdorojimo įrankius ir scenarijų kalbas, pvz., Perl.

Bioinformatika (B110M100) 23

FASTA: pavyzdys

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] ;komentarai LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Bioinformatika (B110M100) 24

FASTA sekos užrašymo formatas

 Sekos yra užrašomos naudojant standartinius IUB/IUPAC amino rūgščių ir nukleorūgščių kodus su šiomis išimtimis:   mažosios raidės taip pat naudojamos; minusas (-) reiškia spragą (praleidimą) sekoje;    žvaigždutė (*) reiškia transliavimo pabaigą; X reiškia bet kokią amino rūgštį; skaičiai kai kuriuose duomenų bazėse naudojami vietai sekoje parodyti.

Bioinformatika (B110M100) 25

FASTA formato nukleorūgščių kodai

Nukleorūgšties kodas

A C G T U R Y K M S W B D H V N Bioinformatika (B110M100)

Reikšmė

Adeninas Citozinas Guaninas Timinas Uracilas G arba A (purino funkcinė grupė) T arba C (pirimidino funkcinė grupė) G arba T (ketono funkcinė grupė) A arba C (amino funkcinė grupė) G arba C (stiprus ryšys) A arba T (silpnas ryšys) G arba T arba C (ne A) G arba A arba T (ne C) A arba C arba T (ne G) G arba C arba A (ne T, ne U) A arba G arba C arba T (bet koks) nenustatyto ilgio spraga 26

Kiti duomenų formatai

 EMBL  GCG  GCG-RSF  GenBank  IG  Genomatix Bioinformatika (B110M100) 27

4. Porinis sekų sugretinimas.

Porinis sekų sugretinimas

    Sekų sugretinimas:  sekų išdėstymas taip, kad nustatyti panašius sekų fragmentus, kurių priežastis yra funkciniai, struktūriniai arba evoliuciniai ryšiai tarp sekų. Interpretacija:  Jei abi sekos turi bendrą protėvį, tada sekų nesutapimus galima interpretuoti kaip mutacijų vietas, o tarpus – kaip įterpimo arba ištrynimo (indel) mutacijas, kurios atsirado skirtingose protėvio palikuonių šakose Panašumas tarp tam tikrą vietą sekoje užimančių amino rūgščių gali būti interpretuojamas kaip sekos motyvas arba tam tikro sekos fragmento konservatyvumas Pakyčių nebuvimas arba tik labai konservatyvūs pokyčiai (t.y., vienos amino rūgštys pakeistos kitomis amino rūgštimis, kurios turi panašias biochemines savybes) tam tikrame sekos fragmente reiškia, kad šis fragmentas yra svarbus funkcine arba struktūrine prasme Bioinformatika (B110M100) 29

Porinio sugretinimo uždavinys



Duota:

 2 sekos,  Dviejų sekos simbolių sutapimo (arba nesutapimo) įvertinimo sistema,  Baudos funkcija už tarpus sekoje.



Rasti:

 optimalų sekų poros išdėstymą leidžiant į sekas įterpti tarpus taip, kad būtų gaunama maksimali įvertinimo reikšmė.

Bioinformatika (B110M100) 30

Sutapimo įvertinimas

score



i N

  1  

taškai

bauda

S

1 ,



S

2 ,

S

1 ,

S

1 ,

S

2 ,

 

S

2 ,

tarpai

Čia: S 1 ir S 2 – gretinamos sekos Bioinformatika (B110M100) 31

5. Globalus sekų sugretinimas

Globalus sekų sugretinimas

 Globalaus sugretinimo algoritmai priklauso globalaus optimizavimo algoritmų klasei.  Jie ieško panašumo visame sekų ilgyje ir yra naudojami, kai sekos yra beveik lygios ir apytiksliai tokio paties ilgio.  Plačiausiai naudojamas globalaus sugretinimo metodas yra Needleman-Wunsch algoritmas (1970 m. pasiūlė S. Needleman ir C. Wunsch)  Šio algoritmo sudėtingumas yra O(nm), kur n ir m – gretinamų sekų ilgiai.

Bioinformatika (B110M100) 33

Needleman-Wunsch algoritmas

1) Sukuriama ir užpildoma sugretinimo matrica (

F-

matrica). Pirmoji matricos eilutė ir pirmasis stulpelis užpildomi spragos baudos daugikliais. Toliau matrica užpildoma naudojant rekurentinę lygtį:

F ij

= max(

F i

− 1,

− 1 +

(

A i

B j

F i

− 1 +

F i

− 1,

)

F – sugretinimo matrica, S – sutapimo funkcija, d – spragos bauda.

2) Randame geriausią įvertinimo reikšmę paskutinėje eilutėje arba paskutiniame stulpelyje. 3) Sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę. Bioinformatika (B110M100) 34

6. Lokalus sekų sugretinimas (Smith-Waterman algoritmas).

Lokalus sugretinimas

 Globalus sugretinimas ne visada leidžia pasiekti norimus rezultatus, kadangi sudėtinga gauti teisingus sugretinimus tarp tolimai susijusių sekų  Lokalaus sugretinimo algoritmai naudojami lyginant ilgas nepanašias sekas, kuriose gali būti panašių fragmentų  Smith-Waterman algoritmas  Dinaminio programavimo algoritmas  Globalaus Needleman-Wunsch algoritmo variantas  garantuotai suranda optimalų lokalų sugretinimą duotai vertinimo sistemai Bioinformatika (B110M100) 36

Smith-Waterman algoritmas

 Gaunamas iš globalaus sugretinimo algoritmo atlikus šiuos pakeitimus:   Matricoje negali būti neigiamų reikšmių. Jeigu reikšmė yra neigiama, vietoje jos yra rašomas 0.

Didžiausias įvertinimas ieškomas visoje sugretinimo matricoje, o ne tik paskutinėje eilutėje arba paskutiniame stulpelyje.  Dalinis sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę.  Sudėtingumas: O(mn), kur m ir n yra gretinamų sekų ilgiai.  Praktiškai vietoje Smith-Waterman algoritmo naudojamas BLAST algoritmas, kuris yra žymiai efektyvesnis, nors ir negarantuoja optimalaus sprendinio suradimo.

Bioinformatika (B110M100) 37

7. Sugretinimo matricos. Optimalios sugretinimo sekos.

Praktinis algoritmų išbandymas

  B.A.B.A.

http://baba.sourceforge.net/ Bioinformatika (B110M100) 39

8. Evoliuciniai (filogenetiniai medžiai). Newick formatas.

Filogenetinė analizė

(1)   Tikslas: nustatyti evoliucinius sąryšius tarp organizmus ir atvaizduoti juos kaip filogenetinį medį.

Filogenetinis

(evoliucinis) medis: medis parodantis evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi bendrą protėvį   Kiekvienas mazgas atitinka jo šakų protėvį šakų ilgis kartais atitinka laiko vienetus. Bioinformatika (B110M100) 41

Filogenetinė analizė

(2)   Filogenetinių medžių tipai:  šakninis medis yra kryptinis medis su unikaliu mazgu, atitinkančiu bendrą visų medžio lapų protėvį;  bešaknis medis tik iliustruoja medžio lapų panašumą, tačiau nedaro prielaidų apie jų protėvius. Filogenetinių medžių vaizdavimui naudojamos diagramos:  Dendrograma yra bet kokio tipo filogenetinį medį vaizduojanti diagrama.

  Kladograma yra diagrama, kurioje vaizduojamas tik medžio šakojimasis, tačiau nėra vaizduojamas laikas.

Filograma – diagrama, kurioje vaizduojamas evoliucinių pasikeitimų skaičius.

Bioinformatika (B110M100) 42

Evoliucinių medžių sudarymas

 Filogenetinių medžių sudarymą tiria skaičiuojamoji

filogenetika

  Nagrinėja skaičiavimo algoritmų, metodų ir programų taikymą filogenetinei analizei atlikti. Tikslas: sukonstruoti filogenetinį medį, atvaizduojantį hipotetinį evoliucinį ryšį tarp genų arba atskirų rūšių.  Problemos:  Daugybinis sekų sugretinimas tarp genų arba amino rūgščių sekų.   Godumo (parsimony) principas  Panašumo (homologijos) tarp sekų apibrėžimas. trumpiausias hipotetinis pokyčių kelias, kuris paaiškina dabartinį fenotipą laikomas tikėtiniausiu evoliuciniu keliu. Bioinformatika (B110M100) 43

Newick formatas



Filogenetiniai medžiai gali būti atvaizduojami grafiškai naudojant Newick formatą:

 skliaustai ( ... ) – reiškia visą medį arba atskirą pomedį;  kablelis – atskiriamos medžio šakos;  dvitaškis – naudojamas šakos ilgiui nurodyti;  kabliataškis – žymi medžio pabaigą.

Bioinformatika (B110M100) 44

9. Baltymų struktūros tipai ir savybės. Baltymų modeliavimas.

Baltymų struktūros tipai

   Pirminė struktūra - amino rūgščių seka baltymo polipeptidinėje grandinėje Antrinė struktūra - paprasčiausi erdvinės struktūros elementai (α- spiralės, β-struktūros, vingiai). Palaiko polipeptidinės grandinės skeletinės dalies >C=O ir >N-H grupės Tretinė struktūra - visos peptidinės grandinės ir šoninių grandinių išsidėstymas erdvėje. Ją palaiko šoninių R-grupių tarpusavio sąveikos ir sąveikos su vandeniu  Ketvirtinė struktūra - iš dviejų ir daugiau narių (baltymų grandinių) sudaryti stambesni junginiai (asociatai) Bioinformatika (B110M100) 46

Baltymo struktūros savybės

   Baltymų struktūros numatymas remiasi taip vadinamu

Anfinsen

postulatu: Baltymo struktūrą visiškai apsprendžia jo amino rūgščių seka. Baltymo struktūros savybės: 

Unikalumas

– seka neturi kitos struktūros su palyginamo dydžio laisvąja energija.

 

Stabilumas

– esant mažiems aplinkos sąlygų pokyčiams baltymo struktūra nesikeičia.

Kinetinis prieinamumas

– struktūros formavimasis neapima sudėtingų struktūros pokyčių.

Bioinformatika (B110M100) 47

Baltymų struktūros numatymas

 Tikslas: nustatyti trimatę (tretinę) baltymų struktūrą iš jų amino rūgščių sekų informacijos (pirminės struktūros)  Motyvacija: eksperimentinis baltymų struktūros nustatymas naudojant rentgeno kristalografiją arba branduolinį magnetinį rezonansą yra brangus ir reikalauja daug laiko. Bioinformatika (B110M100) 48

Problemos sudėtingumas

 Galimų baltymų struktūros variantų yra labai daug (10 143 eilės) – Levinthal paradoksas  Fizikiniai baltymų struktūrinio stabilumo mechanizmai dar nėra visiškai suprantami  Tretinės baltymų struktūros susiformavimui gali reikėti išorinių faktorių (pvz., kitų baltymų) pagalbos  Seka gali įgyti įvairias struktūras ir nebūtinai pačias optimaliausias termodinaminiu požiūriu Bioinformatika (B110M100) 49

Baltymų struktūros modeliavimas

   

Šablono pasirinkimas

 

sekų sugretinimo metodai

paieška duomenų bazėse, pvz., FASTA arba BLAST.

Tikslinio baltymo ir šablono sugretinimas.

Modelio konstravimas

   Sugeneruojamas trimatis struktūrinis baltymo modelis. fragmentų surinkimo metodas (modelis surenkamas iš pastovių struktūrinių fragmentų žinomose panašiose struktūrose), segmentų suderinimo metodas (baltymas sudalinimas į trumpus segmentus remiantis biocheminiais parametrais, pvz. alfa anglies atomų koordinatės, ir atliekama šablonų paieška segmentams duomenų bazėje) Modelio įvertinimas –   statistinių potencialų metodas arba

fizikiniai energijos skaičiavimai.

Bioinformatika (B110M100) 50

10. Bioinformatikos taikymai

Bioinformatikos taikymai

Sausrai atsparių javų rūšių ieškojimas Atsparumas antibiotikams Genų terapija Veterinarijos studijos kokybės gerinimas Molekulin medicina Maisto ė Biotechnologija Alternatyvūs energijos šaltiniai Profilaktinė medicina Atliekų valymas Asmeninė medicina Apsauga nuo kenkėjų Palyginamosios studijos Klimato keitimo studijos Bioginklo sukūrimo realybė Vaistų kūrimas, tobulinimas Mikrobų genomų taikymai Evoliucijos studijos

Egzamino temos

Transcript Egzamino temos

Bioinformatika

Egzamino temos

Doc. Robertas Damaševičius

Egzamino sąlygos

Raštu

Trukmė: 90 min.

30 % galutinio pa žymio

Egzamino klausimai

1. Bioinformatikos mokslo samprata. Kryptys ir šakos.

Bioinformatikos apibrėžimai (1)

Bioinformatikos apibrėžimai (2)

Bioinformatikos termino naudojimas

Bioinformatikos kryptys

1.

2.

3.

4.

Bioinformatikos šakos

2. Genetinės informacijos kodavimas ir dekodavimas.

Genetinis kodas

DNR/RNR sekų abėcėlės kodai

Amino rūgščių kodai

Genetinės informacijos kodavimas/dekodavimas

Kodavomo/ dekodavimo procedūros savybės (1)

Kodavomo/ dekodavimo procedūros savybės (2)

3. Bioinformacinės duomenų bazės. Duomenų formatai.

Bioinformacinių duomenų bazės (1)

Bioinformacinių duomenų bazių tipai

Duomenų bazės

Duomenų formatai

Nukleotidų sekų DB įrašas

FASTA duomenų formatas

FASTA: pavyzdys

FASTA sekos užrašymo formatas

FASTA formato nukleorūgščių kodai

Kiti duomenų formatai

4. Porinis sekų sugretinimas.

Porinis sekų sugretinimas

Porinio sugretinimo uždavinys

Sutapimo įvertinimas

score

taškai

taškai

bauda

S

S

S

S

S

S

tarpai

5. Globalus sekų sugretinimas

Globalus sekų sugretinimas

Needleman-Wunsch algoritmas

6. Lokalus sekų sugretinimas (Smith-Waterman algoritmas).

Lokalus sugretinimas

Smith-Waterman algoritmas

7. Sugretinimo matricos. Optimalios sugretinimo sekos.

Praktinis algoritmų išbandymas

8. Evoliuciniai (filogenetiniai medžiai). Newick formatas.

Filogenetinė analizė

Filogenetinė analizė

Evoliucinių medžių sudarymas

Newick formatas

9. Baltymų struktūros tipai ir savybės. Baltymų modeliavimas.

Baltymų struktūros tipai

Baltymo struktūros savybės

Baltymų struktūros numatymas

Problemos sudėtingumas

Baltymų struktūros modeliavimas

10. Bioinformatikos taikymai

Bioinformatikos taikymai

Directory