bioinf11 - medinfo.umft.ro

Download Report

Transcript bioinf11 - medinfo.umft.ro

UNIVERSITATEA
POLITEHNICA
TIMIŞOARA
MASTER SIIS
Sisteme Informatice în Îngrijirea
Sănătății
1
www.medinfo.umft.ro/dim/
bioinformatica.htm
2
BIOINFORMATICA
Prof Dr George I Mihalaş
UMF Victor Babeş
3
CURSUL 11
4
ORF
Open Reading Frames
5
ORF – Open Reading Frames
• Definiţie: Un ORF este o secvenţă care ar putea
codifica o proteină:
–
–
–
–
Începe cu un potenţial codon de start (ATG)
Se termină cu un potenţial codon de stop (TAG, TAA, TGA)
Nu are codoni de stop interni
Satisface anumite cerinţe minime de lungime
6
Codul genetic (codoni)
20 AA  3 baze = codon
7
Metode pentru găsirea genelor
• Căutare prin similaritate de secvenţă (sss – Search by Sequence Similarity):
se caută potriviri cu secvenţe cunoscute a fi legate de gene
• Căutare prin semnal (Search by Signal) – prin identificarea semnalelor
implicate in expresia genei
• Căutare prin conţinut (Search by Content) – găsirea genelor prin proprietăţile
statistice ce disting ADN-ul ce codifică proteine (exoni) de cel ce nu codifică
• Metode combinate: se combină aceste strategii.
• EX: căutare prin conţinut:
– Anumiţi AA apar mai frecvent în exoni decât in introni (ex: Leu mai frecv. ca Trp)
– Nr diferit de codoni pt diferiti AA (ex: Leu are 6, Trp are 1 codon)
– Pt un anumit AA, un codon apare mai frecvent ca altii; “codon preference” variază cu specia
8
Reading Frames (Cadre de Citire)
• O secvenţă ADN poate codifica o proteină în oricare
din cele 6 cadre posibile de citire
9
Modelele Makov şi Cadrele de Citire
Pentru fiecare “cuvânt” pe care îl evaluăm, vom considera
poziţia sa în raport cu cadrul de citire pe care îl presupunem
10
Modele cu Lanţuri Marcov
Ascunse - HMM
(“Hidden Markov Models”)
11
Lanţuri Markov pentru “discriminare”
• Există zone cu distribuţii diferite
• Ex: insule CpG în zona promoter (C metilată poate fi subst. cu T)
• Tabele cu frecvenţa succesiunilor
– Modelul “+” : cu insule CpG (secvenţe umane cu 48 insule)
– Modelul “-” (restul)
• Scoruri:
βxi-1xi = lg(a+xi-1xi /a-xi-1xi)
12
Lanţuri Markov Ascunse
HMM – Hidden Markov Models
• Disociere “simbol” – “stare”
• Probabilităţi de tranziţie (a stării i, notată πi)
akl = P(πi = l | πi-1 = k)
• Probabilitatea de “emisie”
– probabilitatea ca simbolul b să fie găsit în starea k
ek(b)= P(xi = b | πi = k)
13
Lanţuri Markov Ascunse
HMM – Hidden Markov Models
• În modelele Makov clasice – stările sunt cunoscute
• Problemă: fiind dat un “element”, ce stare l-a emis?
[stări “ascunse”]
• Parametrii unui HMM
14
Ex: un HMM simplu, cu parametrii de emisie
15
Algoritmi de calcul pentru HMM
• Algoritmul “Forward”
– Cât de probabilă este o secvenţă dată?
• Algoritmul Viterbi
– Care este cea mai probabilă “cale” (secvenţă de stări
ascunse – path) pentru a genera secvenţa dată
• Algoritmul Baum-Welch (Forward-Backward)
– Cum putem afla parametrii modelului Markov Ascuns
HMM dintr-un set de secvenţe date?
16
Algoritmul Viterbi
Problema: determinarea succesiunii stărilor cunoscând o secvență output (“emisii”)
EX: pentru secvența în 3 zile: “walk, shop, clean”. Notații: Stări (R,S), Emisii (w,s,c)
Rezolvare
Ziua 1: p’1(w)=p(R)xp(w|R)=0.6x0.1=0.06, p”1(w)=p(S)xp(w|S)=0.4x0.6=0.24
Ziua 2: p’2(s|w)=p’1(w)xp(R|R)xp(s|R)=0.06x0.7x0.4=0.0168
p”2(s|w)=p’1(w)xp(S|R)xp(s|S)=0.06x0.3x0.3=0.0054
p’”2(s|w)=p”1(w)xp(R|S)xp(s|R)=0.24x0.4x0.4=0.0384
p””2(s|w)=p”1(w)xp(S|S)xp(s|S)=0.24x0.6x0.3=0.0432
Ziua 3: p(c|ws)=p’”2(s|w)xp(R|R)xp(c|R)=
=0.0384x0.7x0.5=0.01344
p(c|ws)=p’”2(s|w)xp(S|R)xp(c|S)=
=0.0384x0.3x0.1=0.001152
p(c|ws)=p””2(s|w)xp(R|S)xp(c|R)=
=0.0432x0.4x0.5=0.00864
p(c|ws)=p””2(s|w)xp(S|S)xp(c|S)=
=0.0432x0.6x0.1=0.002592
-Diagrama “trellis”
-Traceback
17
Scoruri “log-odd
Scoruri:
βxi-1xi = lg(a+xi-1xi /a-xi-1xi)
Verificarea experimentală a regiunilor CpG
18
HMM cu inserții și deleții
- Stări silențioase (B și E)
- Schema generală
19
PAUZA
20