Graph Algorithms in Computational Systems Biology

Download Report

Transcript Graph Algorithms in Computational Systems Biology

Graafialgoritmit laskennallisessa systeemibiologiassa
Graph Algorithms in Computational Systems Biology
Työn valvoja ja ohjaaja:
Prof. Patric Östergård, TKK tietoliikennelaboratorio
Diplomityöesitelmä 18.5.2004
Vesa Riihimäki, 51670L
Sisältö
•
•
•
•
•
•
Biologinen tausta
Mitä on systeemibiologia?
Graafit ja algoritmit
Graafisovellukset biologiassa
CASE: RNA-rakenteen ennustaminen
Yhteenveto
Biologinen tausta
• Elävät organismit koostuvat soluista
• Solut koostuvat erilaisista molekyyleistä,
mm proteiinit
• Solun tumassa (eukaryooteilla)
kromosomisto, joka koostuu DNAsta
A->G->T->T->A->C->C->A->G
Genetiikka
• DNA kopioidaan RNAksi ja edelleen proteiiniksi
• DNAssa olevat geenit koodaavat
proteiinisekvenssin
• 1 kodoni = 3 nukleotidia = 1 aminohappo
J. Setubal, J. Meidanis. Introduction to computational molecular biology.
Brooks/Cole Publishing Company, Pacific Grove, CA, 1997.
DNA ja RNA
• DNA
• sisältää geneettisen informaation
• kaksijuostekierre
• RNA
• useita tehtäviä: mRNA, tRNA, rRNA
• monimuotoinen yksijuostesekvenssi
• laskostuu ja muodostaa valesolmuja
• sekvenssi eroaa DNAsta: tymiinin tilalla urasiili
Proteiini
• Solun rakenneaine
• Laskostunut polypeptidiketju
J. Setubal, J. Meidanis. Introduction to computational molecular biology.
Brooks/Cole Publishing Company, Pacific Grove, CA, 1997.
Mitä on systeemibiologia?
• Ajatus monitasoisen
biologisen rakenteen
kokonaisvaltaisesta
mallintamisesta
• Tavoitteena simulointi
• Ajankohtaiset ongelmat:
• sekvensointi
• molekyylien 3D-rakenteen
ennustaminen
T. Reiss. Systems of Life; Systems Biology. Federal
Ministry of Education and Research, Bonn, 2002
Graafit ja algoritmit
• Graafi koostuu solmuista ja niiden välisistä
kaarista, mahdollisesti myös painot
• Graafi on malli samankaltaisten osien
suhteista toisiinsa
• Algortimi on ongelman ratkaisuun johtava
listaus suoritettavia toimenpiteitä
• Tehokkuusanalyysi laskennallisten
ohjelmien kehittämisessä
Graafisovellukset biologiassa
• Kolme hyötyä tuottavaa näkökulmaa
• graafi biologisen rakenteen mallina
(molekyylit, sekvenssit, bioverkot, taksonomia)
• biologinen ongelma ratkeaa graafiongelmana
• biologinen ongelma ratkeaa osittain graafiongelmana
• Sekvensointi, molekyylirakenteiden
ennustaminen, geenisäätelyverkot, tietokannat
CASE: RNA-rakenteen
ennustaminen
• RNAn rakenne
vaikuttaa sen
toimintaan
• Silmukat, rinnasteet,
valesolmut
• Nukleotidit solmuja ja
mahdolliset sidokset
kaaria
CASE: RNA-rakenteen
ennustaminen (jatkuu)
• Solmujen pariutus on riippumattomien kaarien
poimimista
• Maksimipariutuksessa mahdollisimman monta
kaarta
• Painotetussa pariutuksessa poimittujen kaarien
painosummaa pyritään maksimoimaan
• Painotuksena käytetään kahden nukleotidin
välisen sidoksen todennäköisyyttä
CASE: RNA-rakenteen
ennustaminen (jatkuu)
• Nukleotidien välisille sidoksille annetaan
arvot parametrien (ja datan) mukaisesti
• Etsitään painotetun graafin
maksimipariutus
• Pariutus on ennuste nukleotidien välisistä
sidoksista
• Laskentatehokkuus ~O(N3)
Yhteenveto ongelmista
•
•
•
•
•
•
•
•
Lyhimmän polun ongelma
Yhtenäiset komponentit
Rakennegraafi
Pariutus
Eulerin polku ja kiinalaisen postimiehen ongelma
Hamiltonin polku
Klikki ja riippumaton joukko
Graafi-isomorfismi
Yhteenveto työstä
• Graafit helpottavat biologisten
laskentaongelmien ratkaisemista
• Sekvensointi ja molekyylirakenteen
ennustaminen aktiivisen tutkimuksen
kohteena
• Menetelmien kehittämiseen vaaditaan
kahden perinteisesti erillään olleen alan
tuntemusta
Kysymyksiä?
Kiitos!