Transcript 9 paskaita
Prof. Robertas Damaševičius
KTU Programų inžinerijos katedra,
Studentų 50-415
Email: robertas.damasevicius@(at)ktu.lt
Turinys
Genomika
Genų identifikavimo metodai
GENESCAN
Z-kreive
Hao histograma
Bioinformatika (B110M100)
2
Genomika
Genomika yra rūšies viso genomo molekulinė analizė
Genolapio sudarymas
Sekvenavimas (nukleotidų sekos nustatymas)
Struktūrinė genomika prasideda genolapio sudarymu ir
baigiasi pilnu genomo sekvenavimu
Funkcinė genomika tiria, kaip genų sąveikos skuria
organizmo požymius
Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti
genetinių sekų reikšmę organizmo funkcionavimui
Lyginamosios genomikos
metodai ir algoritmai
Lyginamoji genomika yra skirtingų organizmų rūšių
genetinių duomenų palyginimas siekiant suprasti jų
evoliuciją, genų funkcijas, paveldimas ligas ir pan.
Lyginama:
Genų vieta chromosomoje.
Genų struktūra (įvairių genų komponentų skaičius ir ilgis).
Genų charakteristikos (kodonų naudojimas ir pan.).
Lyginamosios genomikos uždaviniai yra:
Genų suradimas (identifikavimas).
Genų motyvų suradimas
Bioinformatika (B110M100)
4
Genų identifikavimo metodai (1)
Genų identifikavimas: bioinformatikos šaka apimanti
algoritmų taikymą nustatant biologinę funkciją turinčias
biomolekulinių sekų (paprastai DNR) fragmentus (genus).
Išoriniai metodai.
Turint baltymo seką galima atlikti atvirkštinį transliavimą ir
nustatyti DNR sekų-kandidačių aibę.
Turint sekas-kandidates atliekama paieška tiriamame genome
ir nustatomi visiški arba daliniai sutapimai.
Didelis panašumas reiškia, kad genomo fragmentas yra genas.
Trūkumas: reikalauja labai daug eksperimentinių duomenų,
todėl nėra efektyvūs
Bioinformatika (B110M100)
5
Genų identifikavimo metodai (2)
Metodai „nuo pradžios“ (Ab initio).
Genomo DNR sekoje atliekama paieška ieškant specialių
baltymus koduojančių genų pradžios ir pabaigos simbolių
(fragmentų).
Rezultatų teisingumą dar reikia patvirtinti išoriniais
metodais.
GENESCAN, Z-kreivė
Bioinformatika (B110M100)
6
GENESCAN algoritmas
Genų numatymui naudoja Furjė transformaciją.
N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj, j=1,2,
..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos
pozicijoje j.
Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius
simboliui a, t.y.:
Ua(xj) = 1, jei xj = a
Ua(xj) = 0, jei xj ≠ a
Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos
funkcijos UA, UT, UG, UC.
Jų pagalba seka transformuojama į 4 skirtingas dvejetaines sekas
Bioinformatika (B110M100)
7
DNR sekos transformavimas į
dvejetaines sekas
Funkcija
UA
UT
UG
UC
Seka
GGATACACTTTAGAG
001010100001010
000100001110000
110000000000101
000001010000000
Bioinformatika (B110M100)
8
Sekų analizė naudojant Furjė metodus(1)
Nagrinėjama koreliacija tarp simbolių, gaunamas DNR
sekos spektras.
Bendras DNR sekos spektras yra atskirų dvejetainių sekų
spektrų suma:
S f Sa f
a
a
1
N2
2ifj
U
x
e
a j
N
2
j 1
kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T).
Bioinformatika (B110M100)
9
Sekų analizė naudojant Furjė metodus(2)
Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio
dažnį ρα:
N
2
2
1
k 1
Sˆ S 1 a2
N k 1 N N N a
1
Galia P :
S
3
P
Sˆ
Galios reikšmė, kai dažnis f=1/3 naudojama atskirti
koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų
F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3
simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro
grafike ties 1/3 turi būti maksimumas
Bioinformatika (B110M100)
10
DNR sekos spektro pavyzdys
Bioinformatika (B110M100)
11
GENESCAN pavyzdys
http://www.imtech.res.in/raghava/ftgpred
Z-kreivės metodas
Z-kreivė: trimatė kreivė, kuri unikaliai atvaizduoja DNR
seką.
Turint Z-kreivę galima rekonstruoti pradinę DNR seką.
Z-kreivės metodas bioinformatikoje yra naudojamas
genomo analizei ir genų numatymui.
Z-kreivės pranašumai:
galima lengvai pastebėti DNR sekos šablonus.
metodas yra paprastas ir labai jautrus.
Bioinformatika (B110M100)
13
Z-kreivė
Z-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių
koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra
analizuojamos DNR sekos ilgis) yra apskaičiuojamos
naudojant DNR sekos Z-transformaciją:
xn An Gn Cn Tn ,
yn An Cn Gn Tn , xn , yn , zn N , N , n 0,..., N
z A T C G ,
n
n
n
n
n
kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-
ojo iki n-tojo sekos simbolio.
Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2,
..., PN tiesiomis linijomis.
Bioinformatika (B110M100)
14
Z-kreivės braižymas
Z-kreivė yra brėžiama trimatėje erdvėje, kurios
ašys turi tokią reikšmė:
x-ašis rodo purino/pirimidino (R/Y) bazių pasiskirstymą
sekoje;
y-ašis rodo amino/keto (M/K) bazių pasiskirstymą
sekoje;
z-ašis rodo stiprios vandenilinės jungties/silpnos
vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.
Bioinformatika (B110M100)
15
Genų suradimo algoritmas
naudojant Z-kreivę
1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...;
2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.
2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje
Vi, i = 1, 2, 3.
3) Pi koordinatės yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:
xi ai g i ci ti ,
yi ai ci g i ti , xi , yi , zi 1,1, i 1,2,3.
z a t c g ,
i
i
i
i
i
4) DNR sekos fragmentą galima atvaizduojamas vektoriumi 9-matėje erdvėje V.
Tegul 9-matė erdvė V yra poerdvių V1, V2 ir V3 suma, kur jos koordinatės u1, u2,
..., u9 yra apibrėžiamos taip:
u1 x1 , u2 y1 , u3 z1 ,
u4 x2 , u5 y2 , u6 z2 ,
u x ,u y ,u z .
3
8
3
9
3
7
Bioinformatika (B110M100)
16
Z-kreivė: pavyzdys
Bioinformatika (B110M100)
17
Dvimatis atvaizdavimas
Bioinformatika (B110M100)
18
Z-kreivė: demonstracija
http://tubic.tju.edu.cn/zcurve/
Z-kreivės metodo įvertinimas
Pagrindinė genų numatymo naudojant Z-kreivę idėja:
koduojantys ir nekoduojantys sekos fragmentai bus
išsidėstę skirtingose 9-matės erdvės V vietose.
2-matės V erdvės projekcijai gauti galima naudoti
daugiamačių skalių (MDS) metodą.
Pranašumai:
labai paprastas ir lengvas naudoti DNR vizualizavimo
metodas leidžiantis greitai pamatyti pagrindines DNR sekos
globalias ir lokalias charakteristikas;
galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.
Bioinformatika (B110M100)
20
Motyvai
Sekos motyvas yra nukleotidų arba amino rūgščių sekos
šablonas, kuris yra dažnai aptinkamas ir turi biologinę
prasmę.
Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą
turi būti pristatomas baltymas po jo sintezės, arba įtakoja
DNR spiralės formą.
Motyvų aprašymo susitarimai:
Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.
Simbolių eilutė aprašo atitinkamų amino rūgščių seką.
Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.
Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus
apskliaustą.
Bioinformatika (B110M100)
21
Sekų motyvai
Genetinė seka, turinti tam tikrą funkciją, yra vadinama
sekos elementu arba sekos motyvu
Specifiniai aminorūgščių motyvai, atliekantys baltymuose
specializuotas funkcijas
Pvz., asparaginas–X–serinas (kur X yra bet kuri
aminorūgštis) yra eukariotų baltymų glikozilinimo vieta
Prosite duomenų bazėje yra kaupiamos žinios apie
aminorūgščių motyvus, turinčius funkcinę reikšmę
Motyvo pavyzdys
Motyvo pavyzdys (aprašo N-glikosilacijos vietą):
N{P}[ST]{P}
čia:
N = Asn, P = Pro, S = Ser, T = Thr;
{X} – reiškia bet kurią amino rūgštį išskyrus X;
[XY] – reiškia X arba Y.
Bioinformatika (B110M100)
23
PROSITE notacija
Naudoja:
IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir
papildomą konkatenacijos simbolį `-`, kuris dažnai yra
praleidžiamas tarp šablono abėcėlės raidžių.
Be to dar naudojami tokie simboliai:
x – bet kokia amino rūgštis;
{ } - reiškia bet kurią amino rūgštį išskyrus apskliaustą;
e(m) – reiškia e amino rūgštį pakartotą m kartų;
e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur m <= k <=
n;
Bioinformatika (B110M100)
24
PROSITE notacija: pavyzdys
PROSITE šablonas CBD_FUNGAL (prieigos kodas
PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C
Bioinformatika (B110M100)
25
Motyvo suradimo metodai
Sekos profilio analizė: pirmiausiai surandamas globalus
daugybinis sekų sugretinimas. Jame izoliuojami labai
konservatyvūs regionai, iš kurių konstruojamos profilio
matricos. Profilio matricos yra naudojamos ieškoti motyvų
kitose užklausos sekose.
Blokų analizė: motyvų paieška apsiriboja spragų
neturinčiuose sugretinimo regionuose (blokuose), kurie
gaunami atlikus daugybinį sekų sugretinimą.
Statistinė šablonų paieška naudojant tikėtino
maksimizavimo (expectation-maximization) algoritmą.
Bioinformatika (B110M100)
26
Sekų motyvai, nustatomi kompiuterinės
analizės metu
Sekos tipas
Pavyzdys
Aktyvatoriai
Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp)
sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus
Atsako elementai
Gliukortikoidų atsako elementai (AGRACA), cAMP atsako
elementai (GTGACGTRA)
Starto kodonas
ATG
Stop kodonai
TAA, TAG, TGA
Splaisingo vieta
GTRAGT------------------YNYTRAC(Y)nAG
Poliadenilinimo signalas
AATAAAA
Aukšto dažnio kartotinės
sekos
Santykinai trumpos sekos, pasikartojančios genome daugelį kartų
Transpozabilūs
elementai
Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios
sekos yra apsuptos invertuotų pasikartojančių sekų
R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas
Motyvo vizualizacija:
Hao histograma
Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas
Kiekvienam matricos (2n x 2n) elementui priskiriamas
genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti
galimi posekiai (n>1)
Skaičiuojamas posekių sekoje dažnumas ir skirtingo
dažnumo posekiai vaizduojami kita spalva (pvz., didesnis
dažnumas sodresne spalva)
28
Pavyzdys
29
Realizacija
National Institute for Standard and Technology (NIST)
http://math.nist.gov/~FHunt/GenPatterns/
30