Transcript 1 paskaita

Prof. Robertas Damaševičius
Programų inžinerijos katedra,
Studentų 50-409a
Email: robertas.damasevicius(at)ktu.lt
Laikas
 Paskaitos (1-8 sav.)
 Pirmadieniais 8.30-10.00, 511 (Chemijos fak.)
 Laboratoriniai darbai (1-8 sav.)
 Pirmadieniais 10.30-12.00, 13.00-14.30, 240 (Chemijos
fak.)
Bioinformatika (B110M100)
2
Atsiskaitymai ir vertinimas
 Lab. darbai (ataskaitos + pristatymas seminare), 35 %
 Referatas, 30%
 Egzaminas, 35%
Bioinformatika (B110M100)
3
Paskaitu temos
 Įvadinė paskaita.
 Bioinformatikos mokslo samprata, kryptys, uždaviniai ir problemos.







Pagrindiniai taikymai.
Organizuotos biosistemos. Informacijos kodavimas ląstelėse. Genetinis
kodas.
Bioinformacinių duomenų bazės. Interneto servisai.
Biomolekulinės sekos. Sekų paieškos, sugretinimo ir analizės metodai.
Kompiuteriniai biosistemų modeliavimo metodai.
Biosistemų evoliucijos modeliai. L-sistemos. Ląsteliniai automatai.
Biomolekulinių sekų sugretinimo tyrimas
Biosistemų modeliavimo tyrimas.
Bioinformatika (B110M100)
4
Lab. darbu temos
 Biomolekulinių sekų apdorojimas naudojant PERL
kalbą
 Perl kalbos biblioteka BioPerl
 Tipinė bioinformatikos duomenų bazė ir internetiniai
servisai
Bioinformatika (B110M100)
5
Modulio svetaine
 Paskaitos, lab. darbai, papildoma informacija
http://proin.ktu.lt/~damarobe/B110B001/
Bioinformatika (B110M100)
6
Kas yra bioinformatika?
 Nauja, sparčiai besivystanti mokslo šaka, atsiradusi
informatikos, molekulinės biologijos, biochemijos ir
biofizikos mokslų sandūroje ir siekianti išspręsti
sudėtingas biologijos ir genetikos mokslų problemas.
 Bioinformatikos problemos sprendžiamos ne naudojant
imlius resursams laboratorinius eksperimentus ir
bandymus, o kompiuterinių technologijų pagalba
 analizuojant genetinių sekų (DNR, RNR) ir baltymų
duomenis,
 lyginant juos su jau žinomais duomenimis,
 prognozuojant biomolekulių struktūrą ir funkcijas,
 modeliuojant jų savybes ir evoliuciją.
Bioinformatika (B110M100)
7
Aktualumas
 Naujas mokslas: atsiveria perspektyvos padaryti naujų
atradimų, išgarsėti
 Prieinamumas: nereikalauja brangių resursų, didžiulių
laboratorijų, pakanka turėti proto ir kompiuterio su
dažniausiai laisvai platinama programine įranga
 Įdėjų sklaida: šiuo metu yra viena populiariausių krypčių
įvairiose mokslinėse konferencijose, žurnaluose
 Daugybė praktinio pritaikymo galimybių
Straipsnių skaičius
 Šaltinis: www.acgt.me
Bioinformatikos apibrėžimai (1)
 Mokslas, kuriame biologija, kompiuterių mokslas ir




informacinės technologijos susijungia į vieną discipliną
Mokslas apie biologijoje naudojamų kompiuterinių
technologiją kūrimą ir taikymą
Matematinių, statistinių ir kompiuterinių metodų
naudojimas biologinių duomenų (DNR, amino rūgščių
sekų ir pan.) analizei
Mokslas apie biologinių duomenų bazes, jų kūrimą,
valdymą, pildymą nauja informacija ir duomenų paieškos
metodų taikymą
Biologinių sistemų informacinis modeliavimas
Bioinformatika (B110M100)
10
Bioinformatikos apibrėžimai (2)
 Mokslas apie biologinėse sistemose vykstančius
informacinius procesus bei tų procesų
mechanizmus, informatikos požiūriu
aiškinančius ir modeliuojančius gyvųjų
organizmų funkcinę organizaciją, sandarą ir
elgseną
Bioinformatika (B110M100)
11
Bioinformatikos termino naudojimas
 Siaurąja prasme:
 Bioinformatika yra biomolekulinių sekų, saugomų
genetinių duomenų bazėse, apdorojimo metodus
tiriantis mokslas
 Plačiąja prasme:
 Bioinformatika yra mokslas tiriantis informacinių
procesus vykstančius gyvuosiuose organizmuose
(įskaitant ir „dirbtinę gyvybę“)
Bioinformatika (B110M100)
12
Bioinformatikos interesų sfera
 Žiniomis grįstos technologijos
 Duomenų gavyba ir analizė
 Mašininio mokymo technologijos
 Neuroninių tinklų teorijos
 Intelektualiosios duomenų bazės
 Hibridinės intelektualiosios sistemos
 Programos - agentai
Bioinformatika (B110M100)
13
Bioinformatikos kryptys
 1. Bioinformacinių duomenų organizavimas ir
valdymas
 bioinformacinių duomenų standartizavimas,
 duomenų bazių struktūra ir valdymas,
 bioinformacinių duomenų bazių ir įrankių integravimas
 2. Biomolekulinių sekų analizės metodų ir algoritmų
kūrimas
 3. Biomolekulių struktūros numatymas ir
modeliavimas
 4. Biosistemų kompiuterinis modeliavimas
Bioinformatika (B110M100)
14
Bioinformatikos šakos
 Genoinformatika arba genomika
 tiria genetinės informacijos organizavimą įvairių rūšių
organizmų genomuose
 Proteomika (baltymų mokslas)
 tiria baltymų sekas, struktūrą ir funkcijas
 Kladistika arba filogenetika
 nagrinėja algoritmų ir programų taikymą genomo
evoliucijos tyrimui
 Neuroinformatika
 tiria nervų sistemos organizavimą
Bioinformatika (B110M100)
15
Bioinformatikos uždavinys
 Analizuoti, organizuoti ir interpretuoti didžiulius
informacijos kiekius, sukauptus genų ir baltymų
duomenų bazėse ir susieti juos su gyvuosiuose
organizmuose vykstančiais biologiniais procesais
 Analizė apima duomenų gavybos ir mašininio
mokymo metodų kūrimą ir taikymą
 Organizavimas apima biologinės informacijos
duomenų bazių kūrimą bei tokių bazių priežiūrą taip,
kad tyrėjai galėtų bet kada pasiekti esamą informaciją
ir pasiūlyti naujus įrašus
Bioinformatika (B110M100)
16
Bioinformatikos istorija (1)
 1953
 1962
 1970
 1973
 1977
Watson ir Crick pasiūlė DNR dvigubos spiralės modelį
Molekulinės evoliucijos teorija (L. Pauling)
Needleman-Wunsch sekų sugretinimo algoritmas
(dinaminis programavimas)
Pirmoji duomenų bazė: Brookhaven Protein Data Bank
Sukurtas DNR sekų dešifravimo (sequencing) metodas
(A. Maxam, W. Gilbert, F. Sanger)
Bioinformatikos istorija (2)
 1979
 1980
 1988
 2003
Pirmą kartą paminėtas terminas “bioinformatika”
(P. Hogeweg)
Dešifruotas pirmojo organizmo genetinis kodas
(virusas ΦX174)
Pradėti žmogaus genomo dešifravimo darbai
Baigtas žmogaus genomo dešifravimas
Techninės problemos
 Didžiuliai informacijos kiekiai
 Saugojimo problemos
 Bioinformatikos DB dydis padvigubėja kas 18 mėn.
 GenBank (150 milijardų simbolių, 60 mln. sekų)
 EMBL (500 milijardų simbolių, 1.6 TB)
1 TB = 1000 GB = 250 DVD filmų = 50 000 medžių
Techniniai reikalavimai
Sprendžiama
problema
Reikalingas
skaičiavimų
greitis
Tinklo sparta
Atminties kiekis
Genomo
dešifravimas
>10 TeraFlops
155Mbs - 622Mbs
300 TB (terabaitų)
vienam genomui
Baltymų struktūros
numatymas
>100 TeraFlops
622Mbs
1 PB (petabaitas) =
1000 TB
Molekulinės
sąveikos
modeliavimas
100 TeraFlops
2.4Gbs
10 PB
Biologinių tinklų
modeliavimas
>1 TeraFlops
mažiems
tinklams
100Gbs
1000 PB
Bioinformacinių duomenų analizės
lygiai (1)
 Vieno geno (baltymo) sekos analizė
 geno panašumas su kitais žinomais genais;
 evoliucinių ryšių nustatymas ir evoliucinio medžio sudarymas;
 tiksliai nustatytų sekos sričių atpažinimas;
 sekos požymių (fizinės savybės, praimerių vieta, mutavusios sekos)
nustatymas.
 Išbaigto genomo analizė.
 Genų padėtis chromosomoje, koreliacija su funkcija ar evoliucija.
 Didelio masto įvykiai organizmo evoliucijoje.
Bioinformatika (B110M100)
21
Bioinformacinių duomenų analizės
lygiai (2)
 Genų ir genomų analizė, siekiant gauti praktiškai
panaudojamus duomenis.
 išraiškos analizė;
 mikromatricos duomenų analizė;
 tretinės baltymų struktūros numatymas;
 pakitusių fenotipų ir genotipų palyginimas;
 biocheminių kelių palyginimas ir analizė;
 esminių genų ar genų, įtraukiamų į specifinius procesus,
atpažinimas.
Bioinformatika (B110M100)
22
Bioinformatikos įrankiai
 Bioinformatikos įrankiai yra kompiuterinės
programos, kurios skirtos svarbios informacijos
paieškai ir analizei duomenų gausybėje.
 Bioinformatikos įrankių pagrindinės kategorijos:
 Duomenų paieškos programos;
 Duomenų analizės ir apdorojimo programos
 Duomenų vizualizacijos programos.
Bioinformatika (B110M100)
23
Pagrindinės bioinformatikos
problemos (1)
 Sekų sugretinimas naudojamas palyginti dvejas ar daugiau




panašių nukleotidų ar amino rūgščių sekų.
Genų paieška yra duotos nukleotidų sekos analizė,
nurodant, kurie jos fragmentai tiesiogiai koduoja
organizmo sintetinamų baltymų amino rūgštis.
Baltymų struktūrinės sekos tyrimai gretina žinomos
funkcijos baltymų fragmentus.
Baltymų struktūros numatymas siekia nustatyti erdvinę
(tretinę, ketvirtinę) baltymo struktūrą pagal jo amino
rūgščių seką.
Taikinio numatymas siekia numatyti, į kurią ląstelės vietą
(ar apskritai iš ląstelės) žinomos sekos baltymas bus
transportuojamas.
Bioinformatika (B110M100)
24
Pagrindinės bioinformatikos
problemos (2)
 Genų išraiškos numatymas siekia aptikti geno koduojančią




dalį papildančias sekas, nurodančias, kada ir kaip gene
esanti informacija turi būti organizmo panaudojama.
Baltymų sąveikų numatymas siekia numatyti, ar du
žinomos struktūros baltymai sąveikaus tarpusavyje.
Metabolinio ląstelės tinklo analizė tiria ląstelės metabolinių
virsmų visumą naudojant grafų teorijos metodus.
Morfogenezės analizė siekia numatyti, kokiu būdu genetinė
informacija (nukleotidų seka) įgalina kurti sudėtingas
gyvojo pasaulio erdvines struktūras.
Evoliucijos modeliavimas siekia modeliuoti genomo
evoliuciją.
Bioinformatika (B110M100)
25
Bioinformatikos taikymai
 Pasaulinė bioinformatikos rinka sudaro apie 1,4
milijardo JAV dolerių ir kiekvienais metais ji išauga
apie 16 %.
 Prognozuojama, kad 2010 m. bioinformatikos rinka
sudarys 3 milijardus JAV dolerių.
 Bioinformatikos rinkos augimas daugiausiai siejamas
su taikymais vaistų gamybos pramonėje.
 Tikimasi, kad bioinformatikos pasiekimai leis
sumažinti naujų vaistų gamybos kaštus 33%, o vaistų
sukūrimo laiką 30%.
Bioinformatika (B110M100)
26
Bioinformatikos taikymai
Biotechnologija
Sausrai atsparių
javų rūšių
ieškojimas
Atsparumas
antibiotikams
Maisto
kokybės
gerinimas
Genų terapija
Veterinarijos
studijos
Asmeninė
medicina
Molekulinė
medicina
Profilaktinė
medicina
Apsauga
nuo
kenkėjų
Klimato
keitimo
studijos
Palyginamosios
studijos
Alternatyvūs
energijos
šaltiniai
Atliekų
valymas
Bioginklo
sukūrimo
realybė
Mikrobų
genomų
taikymai
Vaistų
kūrimas,
tobulinimas
Evoliucijos
studijos
Taikymai: Molekulinė medicina
 Paveldimų ligų tyrimas
 Asmeninė medicina
 Profilaktinė medicina
 Genų terapija
 Vaistų kūrimas, tobulinimas
 Imunologija
Bioinformatika (B110M100)
28
Taikymai: Genetiškai Modifikuoti Organizmai
(GMO)
 Atliekų valymas
 Alternatyvūs energijos šaltiniai
 Maisto pramonė
 Atsparumas antibiotikams.
Bioinformatika (B110M100)
29
Taikymai: žemės ūkis
 Derlingumo didinimas
 Maistingumo didinimas
 Atsparumas kenkėjams
 Veterinarija
Bioinformatika (B110M100)
30
Bioinformatika Lietuvoje (1)
 Tyrimai:
 VU Biotechnologijos instituto Bioinformatikos
laboratorija
 VGTU Bioinformatikos mokslo laboratorija
 Konferencijos
 VGTU rengia jaunųjų mokslininkų konferenciją
“Bioinžinerija ir bioinformatika”
Bioinformatika Lietuvoje (2)
 Dėstoma:
 VGTU Chemijos ir bioinžinerijos katedra
 VU Biochemijos ir biofizikos katedra
 VU Matematinės informatikos katedra
 VDU Biologijos katedra
 KTU Organinės chemijos katedra