Transcript 9 paskaita

Prof. Robertas Damaševičius
KTU Programų inžinerijos katedra,
Studentų 50-415
Email: robertas.damasevicius@(at)ktu.lt
Turinys
 Genomika
 Genų identifikavimo metodai
 GENESCAN
 Z-kreive
 Hao histograma
Bioinformatika (B110M100)
2
Genomika
 Genomika yra rūšies viso genomo molekulinė analizė


Genolapio sudarymas
Sekvenavimas (nukleotidų sekos nustatymas)
 Struktūrinė genomika prasideda genolapio sudarymu ir
baigiasi pilnu genomo sekvenavimu
 Funkcinė genomika tiria, kaip genų sąveikos skuria
organizmo požymius
 Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti
genetinių sekų reikšmę organizmo funkcionavimui
Lyginamosios genomikos
metodai ir algoritmai
 Lyginamoji genomika yra skirtingų organizmų rūšių
genetinių duomenų palyginimas siekiant suprasti jų
evoliuciją, genų funkcijas, paveldimas ligas ir pan.
 Lyginama:
 Genų vieta chromosomoje.
 Genų struktūra (įvairių genų komponentų skaičius ir ilgis).
 Genų charakteristikos (kodonų naudojimas ir pan.).
 Lyginamosios genomikos uždaviniai yra:
 Genų suradimas (identifikavimas).
 Genų motyvų suradimas
Bioinformatika (B110M100)
4
Genų identifikavimo metodai (1)
 Genų identifikavimas: bioinformatikos šaka apimanti
algoritmų taikymą nustatant biologinę funkciją turinčias
biomolekulinių sekų (paprastai DNR) fragmentus (genus).
 Išoriniai metodai.
 Turint baltymo seką galima atlikti atvirkštinį transliavimą ir
nustatyti DNR sekų-kandidačių aibę.
 Turint sekas-kandidates atliekama paieška tiriamame genome
ir nustatomi visiški arba daliniai sutapimai.
 Didelis panašumas reiškia, kad genomo fragmentas yra genas.
 Trūkumas: reikalauja labai daug eksperimentinių duomenų,
todėl nėra efektyvūs
Bioinformatika (B110M100)
5
Genų identifikavimo metodai (2)
 Metodai „nuo pradžios“ (Ab initio).
 Genomo DNR sekoje atliekama paieška ieškant specialių
baltymus koduojančių genų pradžios ir pabaigos simbolių
(fragmentų).
 Rezultatų teisingumą dar reikia patvirtinti išoriniais
metodais.
 GENESCAN, Z-kreivė
Bioinformatika (B110M100)
6
GENESCAN algoritmas
 Genų numatymui naudoja Furjė transformaciją.
 N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj, j=1,2,
..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos
pozicijoje j.
 Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius
simboliui a, t.y.:
Ua(xj) = 1, jei xj = a
Ua(xj) = 0, jei xj ≠ a
 Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos
funkcijos UA, UT, UG, UC.
 Jų pagalba seka transformuojama į 4 skirtingas dvejetaines sekas
Bioinformatika (B110M100)
7
DNR sekos transformavimas į
dvejetaines sekas
Funkcija
UA
UT
UG
UC
Seka
GGATACACTTTAGAG
001010100001010
000100001110000
110000000000101
000001010000000
Bioinformatika (B110M100)
8
Sekų analizė naudojant Furjė metodus(1)
 Nagrinėjama koreliacija tarp simbolių, gaunamas DNR
sekos spektras.
 Bendras DNR sekos spektras yra atskirų dvejetainių sekų
spektrų suma:
S  f    Sa  f   
a
a
1
N2
2ifj


U
x
e
 a j
N
2
j 1
kur: Sα(f) yra dalinis a simbolio spektras, a  (A, G, C, T).
Bioinformatika (B110M100)
9
Sekų analizė naudojant Furjė metodus(2)
 Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio
dažnį ρα:
N
2

2
1
k 1
Sˆ   S    1    a2 
N k 1  N  N  N a

1
 Galia P :
S 
3
P  
Sˆ
 Galios reikšmė, kai dažnis f=1/3 naudojama atskirti
koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų
 F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3
simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro
grafike ties 1/3 turi būti maksimumas
Bioinformatika (B110M100)
10
DNR sekos spektro pavyzdys
Bioinformatika (B110M100)
11
GENESCAN pavyzdys
 http://www.imtech.res.in/raghava/ftgpred
Z-kreivės metodas
 Z-kreivė: trimatė kreivė, kuri unikaliai atvaizduoja DNR
seką.
 Turint Z-kreivę galima rekonstruoti pradinę DNR seką.
 Z-kreivės metodas bioinformatikoje yra naudojamas
genomo analizei ir genų numatymui.
 Z-kreivės pranašumai:
 galima lengvai pastebėti DNR sekos šablonus.
 metodas yra paprastas ir labai jautrus.
Bioinformatika (B110M100)
13
Z-kreivė
 Z-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių
koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra
analizuojamos DNR sekos ilgis) yra apskaičiuojamos
naudojant DNR sekos Z-transformaciją:
 xn   An  Gn   Cn  Tn ,

 yn   An  Cn   Gn  Tn , xn , yn , zn   N , N , n  0,..., N
 z   A  T   C  G ,
n
n
n
n
 n
 kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-
ojo iki n-tojo sekos simbolio.
 Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2,
..., PN tiesiomis linijomis.
Bioinformatika (B110M100)
14
Z-kreivės braižymas
 Z-kreivė yra brėžiama trimatėje erdvėje, kurios
ašys turi tokią reikšmė:
 x-ašis rodo purino/pirimidino (R/Y) bazių pasiskirstymą
sekoje;
 y-ašis rodo amino/keto (M/K) bazių pasiskirstymą
sekoje;
 z-ašis rodo stiprios vandenilinės jungties/silpnos
vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.
Bioinformatika (B110M100)
15
Genų suradimo algoritmas
naudojant Z-kreivę
1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...;
2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.
2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje
Vi, i = 1, 2, 3.
3) Pi koordinatės yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:
 xi  ai  g i   ci  ti ,

 yi  ai  ci   g i  ti , xi , yi , zi   1,1, i  1,2,3.
 z  a  t   c  g ,
i
i
i
i
 i
4) DNR sekos fragmentą galima atvaizduojamas vektoriumi 9-matėje erdvėje V.
Tegul 9-matė erdvė V yra poerdvių V1, V2 ir V3 suma, kur jos koordinatės u1, u2,
..., u9 yra apibrėžiamos taip:
 u1  x1 , u2  y1 , u3  z1 ,

u4  x2 , u5  y2 , u6  z2 ,
u  x ,u  y ,u  z .
3
8
3
9
3
 7
Bioinformatika (B110M100)
16
Z-kreivė: pavyzdys
Bioinformatika (B110M100)
17
Dvimatis atvaizdavimas
Bioinformatika (B110M100)
18
Z-kreivė: demonstracija
 http://tubic.tju.edu.cn/zcurve/
Z-kreivės metodo įvertinimas
 Pagrindinė genų numatymo naudojant Z-kreivę idėja:
koduojantys ir nekoduojantys sekos fragmentai bus
išsidėstę skirtingose 9-matės erdvės V vietose.
 2-matės V erdvės projekcijai gauti galima naudoti
daugiamačių skalių (MDS) metodą.
 Pranašumai:
 labai paprastas ir lengvas naudoti DNR vizualizavimo
metodas leidžiantis greitai pamatyti pagrindines DNR sekos
globalias ir lokalias charakteristikas;
 galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.
Bioinformatika (B110M100)
20
Motyvai
 Sekos motyvas yra nukleotidų arba amino rūgščių sekos
šablonas, kuris yra dažnai aptinkamas ir turi biologinę
prasmę.
 Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą
turi būti pristatomas baltymas po jo sintezės, arba įtakoja
DNR spiralės formą.
 Motyvų aprašymo susitarimai:
 Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.
 Simbolių eilutė aprašo atitinkamų amino rūgščių seką.
 Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.
 Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus
apskliaustą.
Bioinformatika (B110M100)
21
Sekų motyvai
 Genetinė seka, turinti tam tikrą funkciją, yra vadinama
sekos elementu arba sekos motyvu
 Specifiniai aminorūgščių motyvai, atliekantys baltymuose
specializuotas funkcijas
 Pvz., asparaginas–X–serinas (kur X yra bet kuri
aminorūgštis) yra eukariotų baltymų glikozilinimo vieta
 Prosite duomenų bazėje yra kaupiamos žinios apie
aminorūgščių motyvus, turinčius funkcinę reikšmę
Motyvo pavyzdys
 Motyvo pavyzdys (aprašo N-glikosilacijos vietą):
N{P}[ST]{P}
čia:
N = Asn, P = Pro, S = Ser, T = Thr;
{X} – reiškia bet kurią amino rūgštį išskyrus X;
[XY] – reiškia X arba Y.
Bioinformatika (B110M100)
23
PROSITE notacija
 Naudoja:
 IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir
 papildomą konkatenacijos simbolį `-`, kuris dažnai yra
praleidžiamas tarp šablono abėcėlės raidžių.
 Be to dar naudojami tokie simboliai:
 x – bet kokia amino rūgštis;
 { } - reiškia bet kurią amino rūgštį išskyrus apskliaustą;
 e(m) – reiškia e amino rūgštį pakartotą m kartų;
 e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur m <= k <=
n;
Bioinformatika (B110M100)
24
PROSITE notacija: pavyzdys
 PROSITE šablonas CBD_FUNGAL (prieigos kodas
PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C
Bioinformatika (B110M100)
25
Motyvo suradimo metodai
 Sekos profilio analizė: pirmiausiai surandamas globalus
daugybinis sekų sugretinimas. Jame izoliuojami labai
konservatyvūs regionai, iš kurių konstruojamos profilio
matricos. Profilio matricos yra naudojamos ieškoti motyvų
kitose užklausos sekose.
 Blokų analizė: motyvų paieška apsiriboja spragų
neturinčiuose sugretinimo regionuose (blokuose), kurie
gaunami atlikus daugybinį sekų sugretinimą.
 Statistinė šablonų paieška naudojant tikėtino
maksimizavimo (expectation-maximization) algoritmą.
Bioinformatika (B110M100)
26
Sekų motyvai, nustatomi kompiuterinės
analizės metu
Sekos tipas
Pavyzdys
Aktyvatoriai
Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp)
sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus
Atsako elementai
Gliukortikoidų atsako elementai (AGRACA), cAMP atsako
elementai (GTGACGTRA)
Starto kodonas
ATG
Stop kodonai
TAA, TAG, TGA
Splaisingo vieta
GTRAGT------------------YNYTRAC(Y)nAG
Poliadenilinimo signalas
AATAAAA
Aukšto dažnio kartotinės
sekos
Santykinai trumpos sekos, pasikartojančios genome daugelį kartų
Transpozabilūs
elementai
Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios
sekos yra apsuptos invertuotų pasikartojančių sekų
R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas
Motyvo vizualizacija:
Hao histograma
 Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas
 Kiekvienam matricos (2n x 2n) elementui priskiriamas
genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti
galimi posekiai (n>1)
 Skaičiuojamas posekių sekoje dažnumas ir skirtingo
dažnumo posekiai vaizduojami kita spalva (pvz., didesnis
dažnumas sodresne spalva)
28
Pavyzdys
29
Realizacija
National Institute for Standard and Technology (NIST)
http://math.nist.gov/~FHunt/GenPatterns/
30