Bioinformatika

Download Report

Transcript Bioinformatika

3.7 Bioinformatika
• Bioinformatika tai informacinių technologijų taikymas
biologinės informacijos saugojimui, tvarkymui ir analizei
(naudojimui).
• Biologinė informacija tai DNR ir RNR nukleotidų sekos
(cDNR, genai, sekvenuoti genomai, molekuliniai žymenys),
genolapiai, koduojamų baltymų charakteristika, mokslinių
tyrimų rezultatai.
• Informacinės technologijos tai duomenų masyvų
tvarkymas, analizė ir rezultatų pateikimas kompiuterinių
programų pagalba.
Sutrumpintai, bioinformatika tai informacinių
technologijų pritaikymas biologijoje.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Bioinformatikos poreikis (1)
• Brangiai kainuojančių biotechnologijos tyrimų efektyvumas
priklauso nuo spartaus tyrimų rezultatų informacijos
praeinamumo (kam tirti ar sekvenuoti DNR jei tikslinės
nukleotidų sekos jau yra žinomos).
• Biotechnologija sparčiai besivystanti kryptis: pasaulyje dirba
tūkstančiai mokslininkų grupių ir produkuoja gausybę
informacijos.
• Reikia “sujungti” visų mokslininkų kompiuterius į vieną tinklą
ir šį tinka tinkamai tvarkyti ir suprantamai pateikti
informaciją.
55556652277 55556652277
55556652277
55556652255777
55556652255777
55556652255777
55556652255887777777
55556652255887777777 55556652255887777777
122212255881155556652255887777777
122212255881155556652255887777777
122212255881155556652255887777777
7777777777778888888885
7777777777778888888885 7777777777778888888885
122212255881188855555566522558877
122212255881188855555566522558877
122212255881188855555566522558877
777777777777777777777778888888885
777777777777777777777778888888885
777777777777777777777778888888885
Biologinės informaciją srautai taip padidėjo,
kad jų analizė galima vadinti duomenų
kasyklomis (ang. data mining).
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Bioinformatikos poreikis (2)
• DNR sekų duomenų masyvai yra per dideli, kad efektyviai
juos analizuoti “rankiniu” būdu (pavyzdys: DNR sekos
atitikimo paieška žinomų genų DNR sekų duomenų bazėse).
• Duomenų masyvai talpinami į genetines duomenų bazes
(pagrinde DNR sekos) sparčiai didėja tokiu lygmeniu kad:
a) yra poreikis specialiai šios informacijos tvarkymui
paruoštų specialistų – bioinformatikų bei
b) specialių informacijos tvarkymo priemonių (duomenų
bazių ir e-programų) specialiai pritaikytų bioinformacijos
tvarkymui ir analizei.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Bioinformatikos principas (1)
Bioinformatika suderina tokius komponentus kaip:
•Kompiuterinės analizės metodai (paieškos varikliai, analizės
programos).
Nemaži duomenų masyvai yra nemokami ir laisvai prieinami
per Internetą, tai ypač patogu nedidelio biudžeto centrams,
kurie gali atlikti komiuterines genų sekų analizes ir atrasti
naujus genus.
•Duomenų bazės:
DNR, RNR sekos (sekvenuoti genomai, žymenys ir pan.).
Baltymų amino rūgščių sekos (virš 120 000 baltymų).
Baltymų molekulinė struktūra (virš 20 0000 baltymų erdvinė
struktūra).
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Bioinformatikos principas (2)
Dideli srautai atskirų
sričių informacijos
Genetinės
įvairovės tyrimai
Fiziologija
Sekvenuoti genomai
Genolapiai
DNR
žymenys
Baltymų
struktūra
cDNR
sekos
Bioinformatika
•DNR sekų rinkimas ir
analizė
•Duomenų masyvų
valdymas ir
komunikacijos.
•E-programos ir
analizės
automatizavimas.
Susisteminta, lengvai
prieinama informacija
cDNR sekos
Baltymų struktūra
Genetinės įvairovės
tyrimai
Kandidatiniai genai
Fiziologija
Sekvenuoti genomai
Baltymų
sekos
Kandidatiniai
genai
Genolapiai
DNR žymenys
Baltymų sekos
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Bioinformatikos raida
•“Genominės revoliucijos” pradžioje bioinformatika apėmė tik
tokios biologinės informacijos kaip nukleotidų ar aminorūgščių
sekų duomenų bazių palaikymą.
•Vėliau reikėjo tobulinti duomenų bazes įjungiant, interaktyvų
naudojimą (naujų duomenų inkorporacija ir analizė).
•Dabartiniu metu, pagrindinis dėmesys yra paruošti įvairių
sričių interaktyvią biologinės informacijos derinio valdymo,
analizės ir interpretacijos sistemą (nuo DNR sekų iki baltymų
erdvinės struktūros)
Pagrindiniai bioinformatikos duomenys tai DNR ir RNR nukleotidų
sekos bei baltymų amino rūgščių sekos.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Pagrindinės bioinformatikos sritys
• Genomų sekų analizė:
– Sekvenuotų genomų sekos, cDNR sekos, EST, SNP
žymenų sistemų sekos: QTL ir genų paieškos tyrimai.
• Molekulinis modeliavimas:
– Kompiuterinė baltymų sudėties ir erdvinės struktūros
prognoze pagal nukleotidų sekas.
• Filogenija ir evoliucija:
– Informacija apie rūšių ir populiacijų evoliuciją pagal
genų sekų panašumus.
• Statistinė biologija:
– Biologinės informacijos apdorojimo ir analizės epriemonių ir statistinių metodų kūrimas ir vystymas.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Genomų sekų analizė (1)
• Tikslas: gausių DNR ir RNR sekų informacijos sisteminimas genominių
žemėlapių pagalba ir analizė specialiomis kompiuterinėmis programomis.
• Kompiuterizuoti interaktyvūs genominiai žemėlapiai tai atitinkamai
susisteminti nukleotidų sekų rinkiniai paversti į elektroninį interaktyvų
formatą.
• Genominiai žemėlapiai tai efektyvus įrankis genų, genominių sekų,
išreikštų sekų (cDNR) ar molekulinių žymenų sankibos grupių paieškai ir
palyginimui (panašu į elektrinines knygų bibliotekas). Pavyzdžiai:
• Ar tiriamas genas yra kitos rūšies genome, kada išreikštas?
• Kaip homologinių sekų genai išsidėstę chromosomose ir kokia tvarka?
• Su kokio žinomo geno sekomis, tyrimuose išreikšto geno sekos buvo
panašios?
• Kokius pasigaminti PCR pradus, kad efektyviau aptikti genetinę variaciją
norimame požymyje?
• Kaip atskirti koduojamas ir nekoduojamas sekvenuoto genomo dalis?
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Genomų sekų analizė (2)
Sekų analizės apžvalga
Genomo nukleotidų sekų failas
Panašių sekų
paieška
Molekulinių žymenų
kūrimas (restriktazės,
PCR, EST)
Koduojančių
coding
atkarpų paieška
nekoduojanti
Žinomų SSR
identifikacija
Sekų palyginimas
koduojanti
Genų
paieška
RNR struktūros
modeliai
Paversti į
baltymą
Baltymų sekų failas
Panašių sekų paieška
Erdvinės struktūros
modeliai
Sekų palyginimas
Palyginamoji daugelio
sekų analizė
Sukurti sekų palyginimo
profilį
Profilio analizė
Homologinių sekų
(genų) identifikacija
for publication
Format the alignment
phylogeny
Molecular
analysis
Protein family
Edit the alignment
sequence alignment
Create a multiple
structure
tertiary
Predict
Multiple sequence analysis
known motifs
Search for
prediction
RNA structure
Sequence comparison
Sequence comparison
similar sequences
Search databases for
known motifs
Search for
structure
secondary
Predict
non-coding
coding
paieška
Panašių sekų
PCR, EST)
kūrimas (restriktazės,
Molekulinių žymenų
into protein
Translate
Baltymų sekų failas
atkarpų paieška
Koduojančių
Genomo nukleotidų sekų failas
Baltymų sekų analizė
Filogenija
Baltymų šeimų (panašių
tarp rūšių) analizė
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Palyginamoji DNR sekų analizė
Specialių kompiuterinių programų pagalba lyginamos DNR
sekos išskleidžiamos šalia, ir identiški nukleotidai atitinkamai
pažymimi (pvz., vertikliais brūkšniais); kur reikalinga paliekami
tarpai, ieškant maksimalių sutapimų tarp lyginamų sekų.
768 TT....TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG
||
||
|| | | ||| | |||| |||||
||| |||
87 TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG
.
.
.
.
.
814 AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG
| | |
| |||||| |
|||| | || |
|
136 AAGGATC.............TCAGTAATTAATCATGCACCTATGTGGCGG
.
.
.
.
.
864 AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT
||| | ||| || || |||
|
||||||||| ||
|||||| |
173 AAA.TATGGGATATGCATGTCGA...CACTGAGTG..AAGGCAAGATTAT
813
135
863
172
913
216
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Genų paieška DNR sekose
Kodono pirmumo principas taikomas sekvenuotų genomų tolesnėje analizėje.
Žinant tam tikra medžio biocheminėje sudėtyje gausaus baltymo pagrindinę
amino rūgštį, kompiuterio pagalba galima ieškoti DNR atkarpų, kuriuose
vyrauja šią amino rūgštį koduojantis tripletas (kodonas, pvz. CUG).
0
1,000
2,000
3,000
0
1,000
2,000
3,000
4,000
2.0
1.5
1.0
0.5
-0.0
Kodono pirmumo rodiklis
Analizės metu,
tiksliniam kodonui
suteikiamas
pirmumas ir pagal
kodono
pasikartojimo dažnį
apskaičiuojant
kodono pirmumo
rodiklis, kuris
identifikuojamas
kaip intronas ir
baltymą koduojančio
geno dalis.
2.0
1.5
1.0
0.5
-0.0
2.0
1.5
1.0
0.5
-0.0
4,000
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Restriktazių kirpimo modeliavimas
Speciali kompiuterinė programa parodo kuriuose tam tikro DNR
fragmento vietose kiekviena restriktazė perkirps DNR (pažymėta
brūkšneliu). Tai padeda parinkti tinkamas restriktazes (pvz. siekiant
padalinti DNR fragmentą į vienodas dalis.)
Restriktazė
AceIII
AluI
AlwI
ApoI
BanII
BfaI
BfiI
BsaXI
BsgI
BsiHKAI
Bsp1286I
BsrI
BsrFI
CjeI
CviJI
CviRI
DdeI
DpnI
EcoRI
HinfI
MaeIII
MnlI
MseI
MspI
NdeI
Sau3AI
SstI
TfiI
Tsp45I
Tsp509I
TspRI
50
100
150
200
250
Kerpimo vietų sekos
1 CAGCTCnnnnnnn’nnn...
2 AG’CT
1 GGATCnnnn’n_
2 r’AATT_y
1 G_rGCy’C
2 C’TA_G
1 ACTGGG
1 ACnnnnnCTCC
1 GTGCAGnnnnnnnnnnn...
1 G_wGCw’C
1 G_dGCh’C
2 ACTG_Gn’
1 r’CCGG_y
2 CCAnnnnnnGTnnnnnn...
4 rG’Cy
1 TG’CA
2 C’TnA_G
2 GA’TC
1 G’AATT_C
2 G’AnT_C
1 ’GTnAC_
1 CCTCnnnnnn_n’
2 T’TA_A
1 C’CG_G
1 CA’TA_TG
2 ’GATC_
1 G_AGCT’C
2 G’AwT_C
1 ’GTsAC_
3 ’AATT_
1 CAGTGnn’
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Specialios programos PCR pradų
gamybai
OPTIMAL primer length
MINIMUM primer length
MAXIMUM primer length
OPTIMAL primer melting temperature
MINIMUM acceptable melting temp
MAXIMUM acceptable melting temp
MINIMUM acceptable primer GC%
MAXIMUM acceptable primer GC%
Salt concentration (mM)
DNA concentration (nM)
MAX no. unknown bases (Ns) allowed
MAX acceptable self-complementarity
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
20
18
22
60.000
57.000
63.000
20.000
80.000
50.000
50.000
0
12
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Filogenija ir evoliucija
• Šios disciplinos tikslas yra homologinių (panašių) genų sekų
paieška tarp organizmų, genčių ir rūšių
• Bendrų vystymasis sąsajų tarp įvairių rūšių nustatymas
(principas: panašios rūšys turi panašesnes baltymų amino
rūgščių ar DNR nukleotidų sekas)
• Baltymai, kurių pirminė struktūra panaši tarp rūšių, sudaro
baltymų šeimas, o erdvinė struktūra- “blokus”.
• Mokslininkai rekonstruoja evoliucinius ryšius tarp rūšių ir
nustato kada paskutinį kartą lyginamos rūšys turėjo
bendrus tėvus.
Filogenija tai biologijos šaka tirianti asociacijas tarp įvairių organizmų
(genčių , rūšių, porūšių ir pan.)
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Filogeniniai medžiai
Bakterijų rūšių giminyste pagal jų DNR sekų panašumą
E.coli
C.botulinum
C.cadavers
C.butyricum
B.subtilis
B.cereus
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Molekulinis modeliavimas
• Tikslas: kompiuterinė baltymų sudėties ir erdvinės (3-D) struktūros
prognoze pagal nukleotidų sekas (viena iš proteomikos dalių).
• Puiki išeitis jei neįmanoma atlikti gana brangių baltymų struktūros
nustatymo metodų rentgeno kristalografijos pagalba.
• Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis- raidė (viso
20 raidžių).
Pagrindiniai 4 etapai:
a) Rasti žinomos erdvinės struktūros baltymus, kurių aminorūgščių sekos
panašios į tiriamo baltymo sekas,
b) Palyginti abiejų baltymų sekas tikslu nustatyti identiškas dalis, kurios
bus naudojamos kaip jungčių pavydžiai modeliavimui,
c) Sudaryti tiriamo baltymo erdvinį modelį pagal jungčių pavydžius,
d) Išbandyti erdvinį modelį pagal eilę testavimo kriterijų.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Palyginamoji baltymų sekų analizė
Įvairių organizmų baltymų sekos lyginamos kartu jas
išdėstant panašiai kaip DNR atkarpas.
LIETUVOS
MIŠKŲ INSTITUTAS
Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis= viena raidė (viso 20
raidžių).
Darius Danusevičius
Baltymų struktūros prognozė
•Prognozuojama baltymų struktūra pagal žinomos struktūros panašios
sudėties baltymus.
•3D struktūra naudojama baltymo funkcijos tyrimų prognozei.
?
Nežinomos
struktūros baltymo
seka
A - A - K- M
A - L - K- M
Žinomos
struktūros
baltymo seka
Struktūros
modelis
Analizė
A - A - K- M
A - L - K- M
Katalizuojamos
reakcijos ir
funkcijos
prognozė
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Statistinė biologija
Tikslas biologinių duomenų analizės ir interpretacijos
priemonių kūrimas:
•Priemonės, kurios įgalina efektyvų priėjimą prie duomenų
masyvų, jų tvarkymą ir naudojimą (pagrinde, duomenų
bazių programos, glaustame, naudojimui internete
tinkančiame formate).
•Kūrimas naujų algoritmų (matematinių formulių) ir rodiklių,
kurie padėtų kompleksinių duomenų masyvų analizėje (pvz.
DNR sekų asociacijų tyrimai, baltymų struktūros modeliai ir
baltymų grupavimas pagal jų panašumą).
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
BLAST: sekų panašumo analizė
• BLAST (Basic Local Alignment Search Tool) tai specialiai sekų palyginimui
duomenų bazėse skirta programa
• BLAST viena iš pagrindinių nemokamų sekų palyginimo programų ir yra
laisvai prieinama Internete (pvz. NCBI www puslapis).
• Žemiau patiektas BLAST padygimosios analizės rezultatas (panašios sekos ir
jų panašumo rodiklis p tai tikimybė kad panašumas yra atsitiktinis).
Sequences producing significant alignments:
(bits)
Value
gnl|PID|e252316 (Z74911) ORF YOR003w [Saccharomyces cerevisiae]
112
gi|603258 (U18795) Prb1p: vacuolar protease B [Saccharomyces ce... 106
gnl|PID|e264388 (X59720) YCR045c, len:491 [Saccharomyces cerevi... 69
gnl|PID|e239708 (Z71514) ORF YNL238w [Saccharomyces cerevisiae]
30
gnl|PID|e239572 (Z71603) ORF YNL327w [Saccharomyces cerevisiae]
29
gnl|PID|e239737 (Z71554) ORF YNL278w [Saccharomyces cerevisiae]
29
7e-26
5e-24
7e-13
0.66
1.1
1.5
gnl|PID|e252316 (Z74911) ORF YOR003w [Saccharomyces cerevisiae]
Length = 478
Score = 112 bits (278), Expect = 7e-26
Identities = 85/259 (32%), Positives = 117/259 (44%), Gaps = LIETUVOS
32/259MIŠKŲ
(12%)
INSTITUTAS
Darius Danusevičius
Informacinės sistemos
Pagrindinės miško medžių biologinės informacinės sistemos
(Duomenys apie DNR RNR ir baltymų sekas, “On-line”
analizės programos (pvz. BLAST)):
• NCBI (JAV nacionalinis biotechnologinės informacijos
centras).
• EMBL (Europos molekulinės biologijos laboratorija)
(http://www.embl.org/ ) ir EBI (Europos bioinformatikos
institutas http://www.ebi.ac.uk/).
• Miško medžiai: pagrinde TreeGenes informacinė sistema
(Dendrome projektas, JAV). (http://dendrome.ucdavis.edu)
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
EMBL ir EBI informacinė sistema
EBI- European
bioinformatics
institute.
•DNR ir RNR sekos
•Baltymų sekos
•BLAST
palyginimas
•Literatūra
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Dendrome projektas
“Dendrome” miško
medžių genomikos
projekto rėmuose
sukurta eilė medžių
genomo analizės
priemonių:
TreeGenes duomenų
bazė (genolapiai,
žymenys, QTL)
BLAST sekų panašumo
pieškos įrankis
Mokslinės litertūros
paieškos variklis
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
TreeGenes: medžių genomo
duomenų bazė
TreeGenes yra genolapių
duomenų bazė:
•EST,
•SNP,
•Genolapiai,
•Molekuliniai žymenys,
•QTL,
•Literatūra.
Palyginamieji genolapiai
(Pinus taeda, P. menziessi,
Picea abies, ir t.t.)
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
NCBI informacinė sistema
DNR ir RNR sekos, baltymų sekos, BLAST
palyginimas, referencijos
NCBI sistema apjungia keliolika duomenų bazių, naudojant bendrus paieškos
LIETUVOS MIŠKŲ INSTITUTAS
variklius (vienu metu galima atlikti paiešką visose duomenų bazėse)
Darius Danusevičius
Duomenų bazių naudojimas (1)
•Pavyzdys. Planuojami Picea EST žymenų paieškos tyrimai. Reikalinga jau nustatytų
EST žymenų analizė.
•Priemonė: NCBI duomenų bazės paieškos varikliai.
Picea est
1. Pasirenkame
duomenų bazę
2. Įrašome
paieškos raktinius
žodžius
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Duomenų bazių naudojimas (2)
3. Paieškos rezultatas
4. Dominantis rezultatas
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Duomenų bazių naudojimas (3)
5. Geno išreikšto vėlyvoje
embriogenezės stadijoje
radimo žymenys
6. Referencija į tyrimo
rezultatų straipsnį
7. Dominančios sekos
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Ateities poreikiai
• Informacinis “sprogimas”:
– Reikia greitesnių, labiau automatizuotų analizės
priemonių.
– Glaudesnės integracijos tarp įvairių duomenų kategorijų
(DNR sekos, baltymų sekos, literatūra, klasikinė
genetika ir selekcija ir tt.).
– Reikia “gudresnių” ypač didelių duomenų masyvų
analizės priemonių.
• Bioinformatikos specialistų trūkumas:
– Kompiuteristai turėtų daugiu žinoti apie biologiją.
– Biologai turėtų daugiau žinoti apie kompiuteriją
(programas, jų naudojimas ir rezultatų interpretacija).
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius
Literatūros sąrašas
Baxevanis, A.D., Ouellette, B. F. 2004. Bioinformatics: A Practical Guide
to the Analysis of Genes and Proteins, Third Edition. Wiley-Interscience
ISBN: 0471478784.
Claverie, J-M., Notredame, C..2003. Bioinformatics for Dummies. For
Dummies; 1st edition, ISBN: 0764516965.
Jones, N.C., Pevzner, P.A. 2004. An Introduction to Bioinformatics
Algorithms (Computational Molecular Biology). The MIT Press. ISBN:
0262101068
Krutovskii, K.V., Neale, D. B. Forest genomics for conserving adaptive
genetic diversity. Forest Genetic Resource Working Paper FGR/3(E), FAO,
Rome Italy.
Mount, D.W. 2004. Bioinformatics: Sequence and Genome Analysis. Cold
Spring Harbor Laboratory Press; 2nd edition, ISBN: 0879697121.
LIETUVOS MIŠKŲ INSTITUTAS
Darius Danusevičius