Transcript 5 paskaita

Doc. Robertas Damaševičius

KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected]

Informacijos apie sekas analizė

 Apima:    Įvairių organizmų genų paiešką DNR sekose.

Metodų sukūrimą neseniai atrastų baltymų ir struktūrinės RNR sekų struktūros ir/arba funkcijos prognozavimui.

Baltymų sekų grupavimą į artimų sekų šeimas ir baltymų modelių kūrimą.

 Panašių baltymų palyginimą ir filogenetinių medžių generavimą siekiant nustatyti evoliucinius ryšius tarp organizmų.

Bioinformatika (B110M100) 2

Biomolekulinių sekų kitimas

     Priežastys: mutacijos, natūrali atranka ir genų dreifas Mutacija informacine prasme yra tiesiog DNR sekos pokytis  Mutacijos priežastis gali būti mutagenai (cheminės medžiagos kenksmingos DNR molekulei) arba yra pats DNR replikacijos procesas, kurio metu neišvengiamos klaidos Natūrali atranka yra procesas, kurio metu dėl ekologinių veiksnių poveikio keičiasi biologinės populiacijos individų su tam tikrais paveldimais bruožais (genotipu) dažnis dėl organizmo požymių (fenotipo) įtakos išlikimui ir dauginimuisi  Sąlygos natūraliajai atrankai susidaro dėl genetinių skirtumų tarp individų, o genetiniai skirtumai atsiranda dėl atsitiktinių mutacijų Genų dreifas yra atsitiktinis alelių (genų variantų) dažnio pokytis Pasireiškia: simboliu įterpimu, ištrynimu ir pakeitimu biomolekulinėse sekose Bioinformatika (B110M100) 3

Biomolekulinių sekų panašumas

 Homologija  Skirtingų organizmų biomolekulinių sekų panašumas dėl evoliucinių ryšių tarp organizmų (homologija)  Homoplazija  Organizmų panašumas atsiradęs dėl kitokių priežasčių, pavyzdžiui dėl organizmų supanašėjimo (konvergencijos). 

Homologinės sekos

 Sekos, kurios yra panašios dėl organizmų homologijos  Praktiškai: jei sekos ilgesnės negu 100 nukleotidų (amino rūgščių) yra panašios > 25% Bioinformatika (B110M100) 4

Panašumų paieška

Panašumų paieška

 Panašumų biomolekulinėse sekose paieškos biomolekulinės informacijos duomenų bazėse procesas 

Panašumų paieškos rezultatas yra:

 Tikimybės reikšmė (E-reikšmė), kuri apibūdina atsitiktinio panašumo tarp dviejų lyginamų sekų reikšmę.

 Panašaus segmento tarp dviejų sekų ilgis.

 Konvertavimo į amino rūgštis šablonai.

 Simbolių įterpimų/ištrynimų skaičius.

Bioinformatika (B110M100) 5

Praktinė panašumų paieškos nauda

 Informacijos perdavimo tarp artimų baltymų nustatymas.  Pavyzdžiui, duotam baltymui, apie kurį žinome labai mažai, galima bandyti surasti atitikmenų, kurie jau būtų mums geriau pažįstami, ir turimas žinias pritaikyti pirmajam  Sekų grupavimas į medžius, kurie atspindi panašumo laipsnį tarp kiekvienos sekos, parodo evoliucijos ryšius.  Homologų nustatymas kiekvienam genui gerai išreikštuose metaboliniuose keliuose teikia informaciją apie tokio kelio vyravimą kituose organizmuose Bioinformatika (B110M100) 6

Sekų analizės algoritmai

     Taškų matricos metodas Porinis sekų sugretinimas Globalus ir lokalus sekų sugretinimas   Needleman-Wunch algoritmas Smith-Waterman algoritmas  Hibridiniai sugretinimo metodai  Žodiniai sugretinimo metodai BLAST Daugybinio sekų sugretinimo metodai  Progresyviniai metodai  Iteraciniai metodai  Paslėpti Markovo Modeliai Bioinformatika (B110M100) 7

Taškų matricos metodas (1)

  Taškų matricos (Dot-Matrix) sudarymas:     Dvi lyginamos sekos yra surašomos atitinkamai viršutinėje eilutėje ir kairiausiame dvimatės matricos stulpelyje. Kai sekų simboliai sutampa, atitinkamame stulpelyje ir eilutėje padedamas taškas. Labai panašios sekos taškiniame grafike atrodys kaip ištisinė linija išilgai pagrindinės matricos įstrižainės. Kitos įstrižos linijos arba įstrižos taškų grupės rodo, kad sekos turi panašių fragmentų.

Taškų matricos gali būti naudojamos pasikartojamumui vienoje sekoje įvertinti   Tuomet abscisėje ir ordinatėje atidedama ta pati seka Panašūs sekos fragmentai grafike matosi kaip ne pagrindinėje matricos įstrižainėje esančios linijos Bioinformatika (B110M100) 8

Taškų matricos metodas (2)

Metodo modifikacija:

 Pradiniai duomenys filtruojami naudojant slenkančio lango algoritmą  Vienu metu lyginami keli sekos simboliai  Jeigu sutampančių simbolių skaičius lange viršija tam tikrą slenkstinę reikšmę, matricoje padedamas taškas, o langas pasislenka per vieną simbolį į priekį  Naudojamas gretinant labai ilgas sekas Bioinformatika (B110M100) 9

Taškų matricos metodas (3)

   Sudėtingumas 

Kvadratinis O(n 2

), kur n yra sekos ilgis, nes jame palyginamas kiekvienas vienos sekos simbolis su kiekvienu kitos sekos simboliu Pranašumai   Labai paprastas Leidžia vizualiai nustatyti tam tikrus sekų bruožus – įterpimus, ištrynimus, pasikartojimus arba invertuotus pasikartojimus Trūkumai:     taškų matricos analizę vizualiai atlieka žmogus sunku surasti optimalų sekų sugretinimą sunku įvertinti sugretinimo kokybę didelių sekų sugretinimui reikia daug laiko Bioinformatika (B110M100) 10

Taškų matricos pavyzdys

Bioinformatika (B110M100) 11

Porinis sekų sugretinimas

    Sekų sugretinimas:  sekų išdėstymas taip, kad nustatyti panašius sekų fragmentus, kurių priežastis yra funkciniai, struktūriniai arba evoliuciniai ryšiai tarp sekų. Interpretacija:  Jei abi sekos turi bendrą protėvį, tada sekų nesutapimus galima interpretuoti kaip mutacijų vietas, o tarpus – kaip įterpimo arba ištrynimo (indel) mutacijas, kurios atsirado skirtingose protėvio palikuonių šakose Panašumas tarp tam tikrą vietą sekoje užimančių amino rūgščių gali būti interpretuojamas kaip sekos motyvas arba sekos fragmento konservatyvumas Pakyčių nebuvimas arba tik labai konservatyvūs pokyčiai (t.y., vienos amino rūgštys pakeistos kitomis amino rūgštimis, kurios turi panašias biochemines savybes) reiškia, kad šis fragmentas yra svarbus funkcine arba struktūrine prasme Bioinformatika (B110M100) 12

Porinio sugretinimo uždavinys

Duota:

 2 sekos,  Dviejų sekos simbolių sutapimo (arba nesutapimo) įvertinimo sistema,  Baudos funkcija už tarpus sekoje.

Rasti:

 optimalų sekų poros išdėstymą leidžiant į sekas įterpti tarpus taip, kad būtų gaunama maksimali įvertinimo reikšmė.

Bioinformatika (B110M100) 13

Sutapimo įvertinimas

score

i N

  1  

taškai

,

taškai

,

bauda

,

S

1 ,

i

S

2 ,

i

S

1 ,

i

,

S

1 ,

i

S

2 ,

i

 

S

2 ,

i

tarpai

Čia: S 1 ir S 2 – gretinamos sekos Bioinformatika (B110M100) 14

Taškų matricos reikšmių parinkimas

  M. O. Dayhoff metodas Apskaičiuojamas kiekvieno simbolio ir jų poros dažnis sekoje: 

S ij

 log

q ij p i p j

i ir j – simboliai,

p i

ir p

j

– jų dažnis sekoje,

q ij

i ir j simbolių poros dažnis sekoje,

S ij

– vertinimo matricos elemento reikšmė  Teigiama S

ij

reikšmė reiškia, kad ši simbolių pora yra dažna sekoje, o neigiama – kad simbolių pora yra reta.

Bioinformatika (B110M100) 15

PAM matricos

   PAM (Percent Accepted Mutation) matricos  Amino rūgščių vertinimo matricos sudarytos pagal Dayhoff metodą   Matricos elementai reiškia tikimybę, kad stulpelio amino rūgštis bus pakeista eilutės amino rūgštimi 1 PAM vienetas atitinka apie 1% baltymo pokytį Standartinės PAM matricos   PAM1: sudaryta analizuojant 85% panašią baltymų aibę PAM100 matrica gauta 100 kartų sudauginus PAM1 matricą Panašumai  PAM120: 40% panašumas   PAM80: 50% panašumas PAM60: 60% panašumas Bioinformatika (B110M100) 16

PAM-250 matrica

BLOSUM matricos

      BLOSUM (BLOcks SUbstitution Matrix) Realiai daugiausiai naudojamos Gautos ištyrus didelius baltymų sekų duomenų kiekius. Sukonstruotos atlikus daugybinį proteinų šeimynų palyginimą ir išskyrus sekų fragmentus be pertrūkio. Išskirti sekų fragmentai buvo toliau apjungiami remiantis jų procentiniu panašumu. BLOSUM su mažesniu skaičiumi naudojamos labiau nutolusionms sekoms gretinti Bioinformatika (B110M100) 18

BLOSUM62 matrica

   Naudojama BLAST programoje Turi mažiausiai 62% tarpusavio panašumą Analogas yra PAM160 matrica Bioinformatika (B110M100) 19

BLOSUM ir PAM matricų palyginimas

 BLOSUM: pagrįstas trumpais konservatyviais sekų fragmentais  Pagrįstas keliais evoliuciniais periodais    Kiekviena marica konstruojama atskirai Susijusių mutacijų tikimybės padidintos Overcounts related mutations  PAM: evoliucinis modelis    Pagrįstas trumpo evoliucijos periodo ekstrapoliavimu Matricų daugyba didina paklaidas Laikoma kad evoliucija yra tikimybinis Markovo procesas  Sekų sudėtis gali labai skirtis  Retų pakeitimų tikimybės užfiksuotos netiksliai

Kokio tipo matricą naudoti

PAM-1 BLOSUM-100 PAM-250 BLOSUM-20

Mažas evoliucinis atstumas

Didelis sutapimas tarp trumpų sekų

• •

Didelis evoliucinis atstumas Mažas sutapimas tarp ilgų sekų

Sugretinimo įvertinimas

    Normalizuojant suminis įvertinimą naudojama speciali konstanta λ, kurios reikšmė apskaičiuojama sprendžiant lygtį:

i n



i

 1

j

 1

q ij

Normalizuotas įvertinimas:

S

'   

S

i

 1

j i n

  1

p i p j e

S ij

 1 Tikimybė, kad surastas sekų sugretinimas yra atsitiktinis (E-reikšmė) apskaičiuojama pagal Karlin-Altschul formulę:

E

K

m

n

e

 

S

K – konstanta, m – gretinamos sekos ilgis, n – duomenų bazės dydis.

Bioinformatika (B110M100) 22

Sugretintų sekų vaizdavimo formatas

 Vaizduojama grafiškai arba tekstiniu formatu  Tekstiniame formate:     Tarpai įterpiami taip, kad panašūs fragmentai būtų tose pačiuose matricos stulpeliuose Žvaigždutė arba vertikalus brūkšnelis rodo vienodus fragmentus. Dvitaškis rodo konservatyvius amino rūgščių pakeitimus, Taškas rodo pusiau konservatyvius amino rūgščių pakeitimus.  Spalvos gali būti naudojamos parodyti įvairias amino rūgščių savybes  Gale rodoma apskaičiuota sugretinimo įvertinimo reikšmė Bioinformatika (B110M100) 23

Clustal

    Populiariausia daugybinio sekų sugretinimo programa Parsisiuntimas, dokumentacija  http://www.clustal.org/ Internetinis serveris  http://www.ebi.ac.uk/Tools/clustalw2/index.html

Sugretinimo rezultato pavyzdys Bioinformatika (B110M100) 24

Globalus ir lokalus sekų sugretinimas

 Sekų porų sugretinimo algoritmai:    globalaus sugretinimo algoritmai, lokalaus sugretinimo algoritmai “hibridiniai” sugretinimo metodai.  Sekų porų sugretinimo problemai spręsti naudojami    dinaminio programavimo, heuristiniai tikimybiniai metodai. Bioinformatika (B110M100) 25

Dinaminio programavimo metodai

     „Skaldyk ir valdyk“ principas:  Kai problema yra pernelyg sudėtinga išspręsti tiesiogiai, ją galima padalinti į mažesnes problemas, išspręsti jas atskirai ir apjungti mažesnių problemų sprendimo rezultatus Garantuotai suranda optimalų sugretinimą esant duotai vertinimo funkcijai Geros vertinimo funkcijos parinkimas yra atliekamas empiriškai

Eksponentinis sudėtingumas

  Pernelyg lėtas lyginant daug sekų arba labai ilgas sekas Paieškos erdvei sumažinti galima atlikti sekų sugretinimą poromis, o paskui ieškoti sugretinimo tik greta surastų optimalių sprendinių Praktiškai naudojami:   kai reikia atlikti labai kokybiškus nedidelio sekų kiekio sugretinimus kaip naujų euristinių metodų įvertinimo standartas Bioinformatika (B110M100) 26

Globalus sekų sugretinimas

 Globalaus sugretinimo algoritmai priklauso globalaus optimizavimo algoritmų klasei.  Jie ieško panašumo visame sekų ilgyje ir yra naudojami, kai sekos yra beveik lygios ir apytiksliai tokio paties ilgio.  Plačiausiai naudojamas globalaus sugretinimo metodas yra Needleman-Wunsch algoritmas (1970 m. pasiūlė S. Needleman ir C. Wunsch)  Šio algoritmo sudėtingumas yra O(nm), kur n ir m – gretinamų sekų ilgiai.

Bioinformatika (B110M100) 27

Needleman-Wunsch algoritmas

1) Sukuriama ir užpildoma sugretinimo matrica (F-matrica). Pirmoji matricos eilutė ir pirmasis stulpelis užpildomi spragos baudos daugikliais. Toliau matrica užpildoma naudojant rekurentinę lygtį:

F ij

= max(F i − 1,j − 1 + S(A

i

,B

j

), F i,j − 1 + d,F i − 1,j + d)

F – sugretinimo matrica, S – sutapimo funkcija, d – spragos bauda.

2) Randame geriausią įvertinimo reikšmę paskutinėje eilutėje arba paskutiniame stulpelyje. 3) Sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę. Bioinformatika (B110M100) 28

1 žingsnio pseudokodas

for i=0 to length(A)-1 F(i,0) <- d*i for j=0 to length(B)-1 F(0,j) <- d*j for i=1 to length(A) for j = 1 to length(B) { Choice1 <- F(i-1,j-1) + S(A(i), B(j)) Choice2 <- F(i-1, j) + d Choice3 <- F(i, j-1) + d F(i,j) <- max(Choice1, Choice2, Choice3) } Bioinformatika (B110M100) 29

3 žingsnio pseudokodas

AlignmentA <- "" AlignmentB <- "" i <- length(A) - 1 j <- length(B) - 1 while (i > 0 AND j > 0) { Score <- F(i,j) ScoreDiag <- F(i - 1, j - 1) ScoreUp <- F(i, j - 1) ScoreLeft <- F(i - 1, j) if (Score == ScoreDiag + S(A(i), B(j))) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- B(j-1) + AlignmentB i <- i - 1 j <- j - 1 } else if (Score == ScoreLeft + d) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } otherwise (Score == ScoreUp + d) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 } } while (i > 0) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } while (j > 0) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 } 30

Pavyzdys

Tarkime turime, dvi sekas AACG ir AGGC.

Spragos bauda yra lygi -1,

Sutapimo premija +1, o

Nesutapimo įvertinimas 0.

Bioinformatika (B110M100) 31

Matricos paruošimas

A G

0 -1 -2

A

-1

A

-2

G C

-3 -4

C

-3

G

-4 Bioinformatika (B110M100) 32

Po pirmo žingsnio

   Jeigu rodyklė rodo įstrižai, ji reiškia sugretinimą tarp dviejų sekų. Jeigu rodyklė vertikali, ji rodo spragą viršuje užrašytoje sekoje. Jeigu rodyklė yra horizontali, ji rodo spragą kairėje užrašytoje sekoje.

A G G C

0 -1 -2 -3 -4

A

-1

A

-2 1 0 0 1 -1 -2 0 -1

C

-3

G

-4 -1 0 -2 0 1 1 1 1 Bioinformatika (B110M100) 33

Lokalus sugretinimas

 Globalus sugretinimas ne visada leidžia pasiekti norimus rezultatus, kadangi sudėtinga gauti teisingus sugretinimus tarp tolimai susijusių sekų  Lokalaus sugretinimo algoritmai naudojami lyginant ilgas nepanašias sekas, kuriose gali būti panašių fragmentų  Smith-Waterman algoritmas  Dinaminio programavimo algoritmas  Globalaus Needleman-Wunsch algoritmo variantas  garantuotai suranda optimalų lokalų sugretinimą duotai vertinimo sistemai Bioinformatika (B110M100) 34

Smith-Waterman algoritmas

 Gaunamas iš globalaus sugretinimo algoritmo atlikus šiuos pakeitimus:   Matricoje negali būti neigiamų reikšmių. Jeigu reikšmė yra neigiama, vietoje jos yra rašomas 0.

Didžiausias įvertinimas ieškomas visoje sugretinimo matricoje, o ne tik paskutinėje eilutėje arba paskutiniame stulpelyje.  Dalinis sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę.  Sudėtingumas: O(mn), kur m ir n yra gretinamų sekų ilgiai.  Praktiškai vietoje Smith-Waterman algoritmo naudojamas BLAST algoritmas, kuris yra žymiai efektyvesnis, nors ir negarantuoja optimalaus sprendinio suradimo.

Bioinformatika (B110M100) 35

Praktinis algoritmų išbandymas

  B.A.B.A.

http://baba.sourceforge.net/ Bioinformatika (B110M100) 36

Sugretinimo patikimumo įvertinimas

 Lokalaus sugretinimo statistinį patikimumą galima įvertinti naudojant Karlin-Altschul statistinį modelį.  Jeigu dviejų sekų lokalaus sugretinimo E-reikšmė yra labai maža, tikėtina, kad dvi nagrinėjamos sekos yra homologinės, t.y galėjo turėti bendrą protėvį.

Bioinformatika (B110M100) 37

Hibridiniai sugretinimo metodai

      Hibridiniai (pusiau globalūs, glokalūs) metodai bando surasti geriausią sugretinimą, kuris apima vienos ar kitos sekos pradžią ar pabaigą Naudingi, kai vienos sekos galas persidengia su kitos sekos pradžia Tokiu atveju globalaus ir lokalaus sugretinimo metodai netinkami:   globalaus sugretinimo met. bandys lyginti sekas ir už persidengimo ribų lokalaus sugretinimo metodas nevisiškai apims persidengiantį fragmentą Naudojami dinaminio programavimo metodai Paskiriama pakeitimų matrica, kurioje surašomi amino rūgščių sutapimų vertinimo taškai ir spragos bauda už praleistą sekos simbolį Praktiškai pakanka 3 konstantų:    teigiamas taškų skaičius už sutapimą, neigiamas taškų skaičius už nesutapimą, ir neigiama bauda už spragą. Bioinformatika (B110M100) 38

Žodiniai sugretinimo metodai (1)

   Žodiniai (k-kortežo) metodai:   negarantuoja optimalaus sugretinimo sprendimo suradimo žymiai efektyvesni negu dinaminio programavimo metodai Naudingi atliekant didelio mąsto paiešką duomenų bazėse, kuriose labai daug sekų praktiškai neturės jokio panašumo su lyginama seka Realizuoti FASTA ir BLAST įrankiuose Bioinformatika (B110M100) 39

Žodiniai sugretinimo metodai (2)

 Algoritmas:  Pirmiausiai lyginamoje sekoje nustatomas trumpų nepersidengiančių fragmentų (“žodžių”) rinkinys     Žodžiai lyginami su duomenų bazėje saugomomis sekomis. Santykinės dviejose lyginamose sekose esančio žodžio padėtys yra atimamos ir gaunamas poslinkis. Jeigu daug skirtingų žodžių turi tą patį poslinkį, vadinasi sekos turi panašų fragmentą. Aptikus panašų fragmentą taikomi jautresni sugretinimo kriterijai. Bioinformatika (B110M100) 40

BLAST algoritmas (1)

 BLAST (Basic Local Alignment Search Tool)    Algoritmas (ir programų šeimyna) leidžiantis atlikti pirminių biomolekulinių sekų palyginimą. Paieška leidžia palyginti užklausos seką su žinomų sekų duomenų seka ir nustatyti duomenų bazės sekas, kurios yra labiausiai panašios į užklausos seką. Naudoją heuristinį metodą sukurtą Smith-Waterman algoritmo pagrindu   Ne toks tikslus, kaip Smith-Waterman algoritmas, tačiau 50 kartų greitesnis Viena iš plačiausiai naudojamų bioinformatikos programų.

Bioinformatika (B110M100) 41

BLAST algoritmas (2)

 BLAST algoritmas yra sudarytas iš 3 etapų:    Sėjimas. BLAST ieško tikslių W (W – mažas skaičius) ilgio sutapimų tarp užklausos sekos ir duomenų bazėje saugomų sekų. Surasti fragmentai yra vadinami „sėklomis“.

Išplėtimas. BLAST bando išplėsti sutampantį fragmentą be spragų abejomis kryptimis, kad padidinti sugretinimo įvertinimą. Įterpimai ir ištrynimas šio etapo metu dar nenagrinėjami. Įvertinimas. Radus aukštą sugretinimo reikšmę BLAST naudodamas Smith-Waterman algoritmą atlieką sugretinimą įvedant spragas. Statistikai reikšmingi sugretinimai yra išvedami vartotojui.

Bioinformatika (B110M100) 42

BLAST algoritmas (3)

 Gaunamas paieškos rezultatas yra sudarytas iš:  Užklausos apžvalga – vartotojo užklausos apibendrinimas.

   Toliau išvardijami BLAST įrankio surasti reikšmingi panašumai. Nurodomas sekos kodas duomenų bazėje, sekos pavadinimas, sugretinimo rezultatas ir tikimybės reikšmė. Sugretinimo rezultatas rodo sekų panašumą, tačiau biologinės prasmės neturi. E-reikšmė rodo tikimybę, kad surastas panašumas yra atsitiktinis. Mažesnė negu 0,001 E-reikšmė rodo, kad tarp sekų tikriausiai yra evoliucinis ryšys.

Po kiekvieno surasto reikšmingo panašumo pateikiami detalūs kiekvieno sugretinimo rezultatai, iš kurių yra skaičiuojama E reikšmė Pabaigoje pateikiami statistiniai rezultatai Bioinformatika (B110M100) 43

BLAST statistinės paieškos rezultatai

 1) Naudotos duomenų bazės,  2) užklausos data,  3) simbolių ir sekų skaičius duomenų bazėje,  4) statistinio parametro λ reikšmė,  5) naudota matrica,  6) sugretinimo metu naudojami svoriniai koeficientai,  7) sekų statistika,  8) paieškos statistika,  9) kiti statistiniai paieškos parametrai.

Bioinformatika (B110M100) 44

Daugybinis sekų sugretinimas (1)

 Naudojamas:  Konservatyvių sekų fragmentų nustatymui duotoje sekų aibėje, kai turima daugiau negu dvi sekos. Tokie fragmentai gali padėti nustatyti katalitiškai aktyvias enzimų vietas.  Evoliucinių ryšių tarp organizmų nustatymas konstruojant filogenetinius medžius.  Naudojami metodai:       dinaminio programavimo, progresyviniai, iteraciniai, motyvų suradimo metodai, paslėpti Markovo modeliai, genetiniai algoritmai.

Bioinformatika (B110M100) 45

Daugybinis sekų sugretinimas (2)

 Naudojant dinaminio programavimo metodą:  Sukonstruojama n-matė sekos matrica, kur n yra sekų skaičius  Visos sekos yra lyginamos poromis ir užpildoma visa “sugretinimų erdvė”.

 Sudėtingumas: eksponentinis  Pranašumas:  Garantuotai suranda geriausią sugretinimo sprendimą  Trūkumas:  Reikalauja daug skaičiavimo laiko ir kompiuterio atminties, todėl yra retai naudojamas lyginant daugiau negu 3-4 sekas  Praktikoje naudojami įvairūs euristiniai metodai Bioinformatika (B110M100) 46

Progesyviniai metodai

     Progresyviniai (hierarchiniai) metodai:  Pirmiausiai sulygina panašiausias sekas  Lygina poromis vis mažiau panašias sekas tol, kol sprendimas apima visas lyginamas sekas Artimiausios poros nustatymui yra naudojamas klasterizavimo metodas, pvz.., kaimynų apjungimo algoritmas Progresyvinis metodas naudojamas Clustal įrankyje, kuris atlieka filogenetinių medžių konstravimą ir baltymų struktūrų prognozavimą Pranašumas:  Progresyviniai metodai efektyvūs gretinant daug ilgų sekų Trūkumai:   Didelė priklausomybė nuo pradinių sugretinimų poromis tikslumo, pradinio sugretinimo rezultatų ir nuo sekų pasiskirstymo aibėje pagal panašumą Negarantuoja globalaus sprendinio suradimo Bioinformatika (B110M100) 47

Iteraciniai metodai

 Veikia panašiai kaip progresyviniai metodai  Skirtumai:   gali sugrįžti prie savo anksčiau atliktų sugretinimų poromis gali optimizuoti savo tikslo funkcijos svorinius koeficientus  Optimizavimui naudojamas laiptinis (hill-climbing) algoritmas, kuris leidžia surasti lokalų optimumą  Tikslesni negu progresyviniai metodai, tačiau mažesnio greičio sąskaita  Geriausiai naudoti jau atlikto sugretinimo pagerinimui, kai pirminis sugretinimas yra atliekamas naudojant kokį nors greitą algoritmą Bioinformatika (B110M100) 48

Laiptinis algoritmas

Algo (Hill Climbing) bestEval = -INF; currentNode = startNode; bestNode = NULL; for MAX times if (EVAL(currentNode) > bestEval) bestEval = EVAL(currentNode); bestNode = currentNode; L = NEIGHBORS(currentNode); nextEval = -INF; for all x in L if (EVAL(x) > nextEval) currentNode = x; nextEval = EVAL(x); return currentNode; Bioinformatika (B110M100) 49

Paslėpti Markovo modeliai (PMM)

     PMM: tikimybinis modelis, kuriame modeliuojama sistema yra laikoma Markovo procesu su nežinomais parametrais Tikslas: nustatyti paslėptų parametrų reikšmes remiantis žinomomis parametrų reikšmėmis PMM gali priskirti tikimybes visoms galimoms spragų, sutapimų ir nesutapimų kombinacijoms ir nustatyti labiausiai tikėtiną sekų sugretinimą iš visų galimų sugretinimų aibės PMM rezultatas: galimų geriausių ugretinimų, kurių biologinį reikšmingumą galima įvertinti kitais metodais, šeima PMM negrąžina tokio paties sprendinio kiekvieno paleidimo metu ir

negarantuoja optimalaus sprendinio radimo

Bioinformatika (B110M100) 50

Paslėpti Markovo modeliai (PMM)

Sekų sugretinimas naudojant PMM:

 Sudaromas kryptinis aciklinis grafas  Būsenos yra suprantamos kaip atskiro sugretinimo stulpeliai,  „Paslėptos“ būsenos atitinka numanomą protėvio seką, iš kurios kilo analizuojamos sekos.  Jeigu visos sekos tam tikroje pozicijoje turi vienodą simbolį, jis yra atvaizduojamas kaip atskira būsena, kuri turi tiek išėjimų, kiek yra galimų simbolių sekančioje pozicijoje.

Bioinformatika (B110M100) 51

Paslėpti Markovo modeliai (PMM)

     PMM: baigtinis automatas generuojantis atsitiktines sekas Būsenos:    sutapimo būsenos (m) trynimo būsenos (d) įterpimo būsenos (i). Abecėlė   Su nukleorūgščių sekomis naudojama 4 simbolių abėcėlė Su amino rūgštimis – 20 simbolių abėcėlė. Simbolių generavimas    Sutapimo būsena m generuoja raidę x iš abėcėlės pagal jos tikimybę Trynimo būsenos d generuoja spragas.

Įterpimo būsenos i generuoja raidę x iš abėcėlės su kita tikimybe Perėjimai tarp būsenų   Iš trynimo ir sutapimo būsenų visada pereinama į kitą būseną.

Automatas gali pasilikti įterpimo būsenoje Bioinformatika (B110M100) 52

Bendrinė PMM architektūra

    Apskritimas: atsitiktinis kintamasis (būsena), kuris gali įgyti tam tikrą skaičių reikšmių.

Juoda rodyklė: perėjimas tarp būsenų Žaliai: abėcėlės Mėlyna rodyklė: išėjimai Bioinformatika (B110M100) 53

Kintamųjų priklausomybė PPM

   Kintamasis x(t) yra paslėptojo kintamojo reikšmė laiko momentu t Rodyklės rodo sąlygines priklausomybes Paslėpto kintamojo reikšmė x(t) priklauso nuo x(t-1) reikšmės, o stebimo kintamojo reikšmė y(t) priklauso nuo paslėpto kintamojo reikšmės x(t) Bioinformatika (B110M100) 54

Sekų sugretinimo įvertinimas

 Sekų sugretinimas naudojamas:  sekų panašumų nustatymui,   filogenetinių medžių konstravimui ir baltymų struktūrų homologijų modelių kūrimui.  Biologinė sekų sugretinimų reikšmė nėra visada aiški.  Sekų panašumą galima paaiškinti konverguojančia evoliucija, kai evoliuciškai tarpusavyje nesusiję baltymai atlieka panašias funkcijas ir turi panašią struktūrą.

 Rezultatų patikimumas   Atsitiktinio sugretinimo tikimybė didėja, jeigu duomenų bazė yra sudaryta tik iš to paties organizmo sekų. Pasikartojančios sekos duomenų bazėje arba užklausoje gali iškreipti paieškos rezultatus ir statistinio reikšmingumo įvertinimą.

Bioinformatika (B110M100) 55