Bioinformatika: iz statističke perspektive

Download Report

Transcript Bioinformatika: iz statističke perspektive

Bioinformatika: iz statističke
perspektive
Bojan Basrak
PMF-Matematički odjel
Sveučilište u Zagrebu
1
Bioinformatika
• Nezgrapna kovanica, nastala 1979. označava
znanost koja se bavi primjenom računalnih i
statističkih metoda u molekularnoj biologiji
• Stručnjaci raznih područja sudjeluju u
– izradi baza podataka (npr. human genome project)
– njihovoj analizi, odn. statističkoj i računalnoj obradi
• Karakteristike: ogromne količine podataka, ali
i sve veći broj metoda, procedura za njihovu
obradu
2
Osnovne teme
• Sequence analysis
• Gene finding
• Computational evolutionary biology
• Analysis of gene expression
• Analysis of regulation
• Prediction of protein structure
• Modeling of biological systems
itd.
3
Osnove molekularne biologije
Središnja dogma mol. biologije
Živi organizmi
Biološki nizovi:
DNA - nizovi u alfabetu od 4 slova: A,C,G,T
RNA - nizovi u alfabetu od 4 slova: A,C,G,U
proteini - nizovi u alfabetu od 20 slova aminokiselina ARNDCEQGHILKMFPSTWYV
4
Transkripcija
5
Evolucija nizova
Deletion
(brisanje)
Mutation
(mutacija)
Insertion
(ubacivanje)
…ACGGTGCAGTTACCA…
…AC----CAGTCACCGTGTAA…
REARRANGEMENTS
Inversion
Translocation
Duplication
6
No, mi vidimo samo…
nekoliko više ili manje sličnih nizova, npr.
GCGCATGGATTGAGCGA
TGCGCCATTGATGACCA
koji mogu (a ne moraju) dijeliti zajedničku
evoluciju (a ne moraju biti ni iste duljine).
7
Poravnanje (alignment)
-GCGC-ATGGATTGAGCGA
TGCGCCATTGAT-GACC-A
Tri skupine poravnatih slova:
• perfect matches
• mismatches
• insertions / deletions (indel)
8
Poravnanje zapravo nizove
w: …ACGGTGCAGTTACCA…
w’:…ACCAGTCACCGTGTAA…
preslika u dulje nizove s jednim dodatnim znakom:
“-”
v: …ACGGTGCAGTTACC-----A…
v’: …AC----CAGTCACCGTGTAA…
Formalna definicija je jasna (iako nezgrapna).
Postavlja se pitanje odabira najboljeg alignmenta.
Za to nam je potrebna funkcija skora - score
function - na alfabetu proširenim znakom “-”.
9
Score function
10
Bliskost nizova (kvaliteta poravnanja) ukazuje
na:
• (djelomičnu) zajedničku evoluciju kod DNA
nizova
• zajedničku evoluciju ili što je zanimljivije istu
funkciju kod proteinskih nizova
Slično, jako sačuvani podnizovi (s malo
mutacija) impliciraju
• funkcionalno značajne pozicije
11
Vjerojatnosni model za nizove
• Najjednostavnije je pretpostaviti da su
generirani kao neki njd niz iz danog alfabeta,
npr.
• Mada se ponekad koriste i složeniji modeli
koju uključuju zavisnost
12
Vjerojatnosni modeli za evoluciju
Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili
aminokiselina)
a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti qy
• Tipično se modelira Markovljevim procesima, zadanim
matricama intenziteta.
13
Globalno poravnanje
wn
gdje maksimum tražimo po svim
poravnanjima v,v’ originalnih
nizova w,w’
w1
w1 ‘
wm ‘
14
Iz Kingmanovog subaditivnog ergodskog teorema
poznato je (Chvatal-Sankoff,1975), ako oba niza
imaju duljinu n koja konvergira u beskonačno
• Konstanta nije poznata, čak ni za binarne njd nizove i
najjednostavniju funkciju s. Poznato je tek
(longest common subsequence problem)
15
Lokalno poravnanje
wn
gdje maksimum tražimo
po svim podnizovima
jednake duljine od
originalnih nizova w,w’,
koji završavaju na mjestu
i,j
w1
w1 ‘
16
wm ‘
Lokalno poravnanje
• Povezano s Erdos-Renyievim problemom
• Chen-Steinovom metodom može se pokazati
da vrijedi aproksimativni zakon razdiobe za
optimalno lokalno poravnanje
• Uočite da je testna statistika zapravo
maksimum od n x n lokalnih poravnanja, a
teoretski rezultat vodi računa o tome da smo
zapravo izveli n x n testova i korigira za
višestruko testiranje
17
Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha
u Bernoullijevom njd nizu
ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji
potpuno poravnati podniz. Ako je p vjerojatnost poravnanja,
poznato je da
Ima približno Gumbelovu razdiobu
18
Primjer. Ako pretpostavimo da su DNK nizovi realizacije nizova
njd slučajnih varijabli s uniformnom distribucijom i njihova duljina
je jednaka n= 100 000, onda, ako je najdulji primjećeni zajednički
niz duljine 10, korištenjem prethodne formule dobivamo da je
p-vrijednost približno jednaka 0,069,
a ako je najdulji primjećeni zajednički segment duljine 12,
pripadna
p-vrijednost iznosi približno 0,0045.
Uočimo da je posljednja p-vrijednost manja od 0,05, što je
uobičajena granica kod koje odbacujemo nulhipotezu (u ovom
slučaju o nezavisnom podrijetlu nizova).
19
Dodatne napomene
• Naći optimalno lokalno ili globalno poravnanje
zahtjevan je algoritamski problem (riješen je
dinamičkim programiranjem)
– Needleman-Wunsch (globalno)
– Smith-Waterman (lokalno)
• Postoji više načina na koji se penaliziraju
gapovi u poravnanju,
– biološki relevantnim se smatra i afino penaliziranje
gapova.
20
Specificity determining residues
• Pretpostavimo da su nam proteini podijeljeni u dvije
(funkcionalne) podgrupe, te da nam je dano njihovo
višestruko poravnanje
21
from M.Gelfand:Identification
of specificity-determining
positions in
protein alignments
20 aminokiselina
Amino Acid
1-Letter
Side chain polarity
Side chain charge (pH 7.4)
Hydropathy index
Alanine
A
nonpolar
neutral
1.8
Arginine
R
polar
positive
−4.5
Asparagine
N
polar
neutral
−3.5
Aspartic acid
D
polar
negative
−3.5
Cysteine
C
nonpolar
neutral
2.5
Glutamic acid
E
polar
negative
−3.5
Glutamine
Q
polar
neutral
−3.5
Glycine
G
nonpolar
neutral
−0.4
Histidine
H
polar
positive(10%)
neutral(90%)
−3.2
Isoleucine
I
nonpolar
neutral
4.5
Leucine
L
nonpolar
neutral
3.8
Lysine
K
polar
positive
−3.9
Methionine
M
nonpolar
neutral
1.9
Phenylalanine
F
nonpolar
neutral
2.8
Proline
P
nonpolar
neutral
−1.6
Serine
S
polar
neutral
−0.8
Threonine
T
polar
neutral
−0.7
Tryptophan
W
nonpolar
neutral
−0.9
Tyrosine
Y
polar
neutral
−1.3
Valine
V
nonpolar
neutral
4.2
22
Struktura proteina
Primarna struktura: poznat nam je samo niz aminokiselina
npr: …V H L T P E E K…
Sekundarna struktura: poznate su neki pravilni dijelovi:
npr: alpha-helix, beta-sheets
Tercijarna struktura: poznat je trodimenzionalan položaj
molekula
23
Evolucijski model za
aminokiseline
• Kao što smo vidjeli evol. modeli se određuju preko
matrica prijelaznih vjerojatnosti -> da bismo ih uveli
koristit ćemo matrice substitucije
• Matrice supstitucije kao što je BLOSUM (Blocks
Substitution Matrices - Henikoff and Henikoff, 1992)
također sadrže informacije o vjerojatnosti pojedinih
mutacija
• Matrice sadrže tzv. log-odds koji se koriste ujedno i za
izvođenje skorova tj. score function
24
Log-odds
Gornji izraz se zapravo koristi u definicije fukcije skora s
25
Uočimo
Ovo nam daje sljedeću ideju za model
26
Testne statistike
Krećemo od poravnanja
Za dani stupac poravnanja k izračunamo testnu statistiku
27
• Trebaju nam vjerojatnosti da pod H0 na mjestu k
vidimo ovako ekstremnu statistiku recimo u, tj.
gdje je H0: k nije SDR tj. specificity determining
residue (funkcionalno specifična pozicija).
• To napravimo za sve stupce, pitanje je da li neki
stupci (i koji?) indiciraju posebno značajna i
funkcionalno specifična mjesta u poravnanju.
28
• Prema poznatoj statističkoj teoriji loglikelihood ratio statistike poput ove koju mi
računamo imaju asimptotski chi-kvadrat
razdiobu. (Kod nas uvjeti iza ovakvih teorijski
rezultata nisu zadovoljeni)
• Mi simulacijama određujemo približnu
razdiobu za testnu statistiku pod nulhipotezom
• Tako određujemo približne p-vrijednosti
• No i dalje provodimo puno testova! Svaki nam
daje svoju p-vrijednost
29
Stoga pitanje moramo preformulirati:
Koliko je vjerojatno da vidimo ovako male pvrijednosti ako vrijedi H0: niti jedan k nije
SDR?
Tj. želimo znati:
30
Uvijek možemo odrediti gornju granicu tzv. Bonferroni korekciju
Stoga naše rezultate proglašavamo značajnim (i odbacujemo H0 )
ako je
Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa
prema tome i testne statistike ovo je vrlo gruba ocjena
Dovest će do konzervativnog testa, male jakosti.
31
Alternativni pristupi višestrukom
testiranju hipoteza
• Permutation test
• False discovery rate - FDR
ukoliko je izvedeno m testova
32
Alternativni pristupi otkrivanju SDR:
Mutual information, Z-scores.
• Between Group Analysis (BGA), Higgins, Wallace
(2007.)
• Sequence Harmony (SH), Heringa, Feenstra,
Pirovano, Krab (2007.)
• SDPpred, Rakhmaninova et al. (2004.)
33
Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija
su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%
MI
POTVRĐENO
SH
SH
SDP
BGA
rank
position
LLR
Yadav
rank
SH
rank
rank
1
212
361.86
+
3
0.07
+
1
2
73
276.58
+
12
0.13
-
5
3
105
265.46
+
4
0.09
-
14
4
82
258.63
+
-
-
-
-
5
264
257.43
+
15
0.15
-
6
6
209
252.87
+
6
0.11
-
2
7
71
243.82
+
1
0.03
-
9
8
210
225.07
+
9
0.12
-
13
9
221
224.41
-
14
0.14
-
16
10
234
210.49
-
7
0.11
-
-
11
12
203.40
+
-
-
-
24
12
86
196.85
-
-
-
-
-
13
224
190.29
-
-
-
-
20
14
128
188.88
-
13
0.14
-
19
15
137
186.16
-
11
0.12
-
17
16
262
183.05
-
25
0.19
-
-
17
265
180.88
-
21
0.17
-
4
34
Sažetak predložene procedure
• SDR predstavljaju mjesta na proteinima koja
(potencijalno) specificiraju njihovu funkciju
• Odrediti ih nije jednostavno. Moramo posebno
voditi računa o višestrukom testiranju.
• Procedura je implementirana online:
compbio.math.hr
• Nezavršen projekt: za sada radimo samo sa
dvije grupe
35
Protein clustering
• Esencijalno isti vjerojatnosni model, iskoristili
smo u izradi algoritma za klasteriranje neke
familije proteina v.
Goldstein et al (2009): Clustering of protein
domains for functional and evolutionary
studies, BMC Bioinformatics
36
Drugi primjeri
Višestruko testiranje hipoteza javlja se i u
•
•
•
•
•
Mapiranju tzv QTLova (odn. gena)
Analizi DNA microarrays
Forenzičkoj DNA analizi
Filogenetskoj analizi
itd.
37
Literatura
“Biological sequence analysis” by Durbin, Eddy,
Krogh, Mitchinson
“Introduction to computational biology” by Waterman
Vidi također
http://www.cs.tau.ac.il/~bchor/CG05/CG1alignment.pps,
http://ai.stanford.edu/~serafim/CS262_2005/Slides/
CS262_2005_Lecture2.ppt ,
Wikipedia za dodatne informacije o biološkoj
analizi nizova
38
Acknowledgments
P. Goldstein (PMF-MO)
J. Žućko (PBF)
I. Vujaklija (FER)
D. Špoljarić (PBF)
39