Transcript 1 paskaita
Prof. Robertas Damaševičius
Programų inžinerijos katedra,
Studentų 50-409a
Email: robertas.damasevicius(at)ktu.lt
Laikas
Paskaitos (1-8 sav.)
Pirmadieniais 8.30-10.00, 511 (Chemijos fak.)
Laboratoriniai darbai (1-8 sav.)
Pirmadieniais 10.30-12.00, 13.00-14.30, 240 (Chemijos
fak.)
Bioinformatika (B110M100)
2
Atsiskaitymai ir vertinimas
Lab. darbai (ataskaitos + pristatymas seminare), 35 %
Referatas, 30%
Egzaminas, 35%
Bioinformatika (B110M100)
3
Paskaitu temos
Įvadinė paskaita.
Bioinformatikos mokslo samprata, kryptys, uždaviniai ir problemos.
Pagrindiniai taikymai.
Organizuotos biosistemos. Informacijos kodavimas ląstelėse. Genetinis
kodas.
Bioinformacinių duomenų bazės. Interneto servisai.
Biomolekulinės sekos. Sekų paieškos, sugretinimo ir analizės metodai.
Kompiuteriniai biosistemų modeliavimo metodai.
Biosistemų evoliucijos modeliai. L-sistemos. Ląsteliniai automatai.
Biomolekulinių sekų sugretinimo tyrimas
Biosistemų modeliavimo tyrimas.
Bioinformatika (B110M100)
4
Lab. darbu temos
Biomolekulinių sekų apdorojimas naudojant PERL
kalbą
Perl kalbos biblioteka BioPerl
Tipinė bioinformatikos duomenų bazė ir internetiniai
servisai
Bioinformatika (B110M100)
5
Modulio svetaine
Paskaitos, lab. darbai, papildoma informacija
http://proin.ktu.lt/~damarobe/B110B001/
Bioinformatika (B110M100)
6
Kas yra bioinformatika?
Nauja, sparčiai besivystanti mokslo šaka, atsiradusi
informatikos, molekulinės biologijos, biochemijos ir
biofizikos mokslų sandūroje ir siekianti išspręsti
sudėtingas biologijos ir genetikos mokslų problemas.
Bioinformatikos problemos sprendžiamos ne naudojant
imlius resursams laboratorinius eksperimentus ir
bandymus, o kompiuterinių technologijų pagalba
analizuojant genetinių sekų (DNR, RNR) ir baltymų
duomenis,
lyginant juos su jau žinomais duomenimis,
prognozuojant biomolekulių struktūrą ir funkcijas,
modeliuojant jų savybes ir evoliuciją.
Bioinformatika (B110M100)
7
Aktualumas
Naujas mokslas: atsiveria perspektyvos padaryti naujų
atradimų, išgarsėti
Prieinamumas: nereikalauja brangių resursų, didžiulių
laboratorijų, pakanka turėti proto ir kompiuterio su
dažniausiai laisvai platinama programine įranga
Įdėjų sklaida: šiuo metu yra viena populiariausių krypčių
įvairiose mokslinėse konferencijose, žurnaluose
Daugybė praktinio pritaikymo galimybių
Straipsnių skaičius
Šaltinis: www.acgt.me
Bioinformatikos apibrėžimai (1)
Mokslas, kuriame biologija, kompiuterių mokslas ir
informacinės technologijos susijungia į vieną discipliną
Mokslas apie biologijoje naudojamų kompiuterinių
technologiją kūrimą ir taikymą
Matematinių, statistinių ir kompiuterinių metodų
naudojimas biologinių duomenų (DNR, amino rūgščių
sekų ir pan.) analizei
Mokslas apie biologinių duomenų bazes, jų kūrimą,
valdymą, pildymą nauja informacija ir duomenų paieškos
metodų taikymą
Biologinių sistemų informacinis modeliavimas
Bioinformatika (B110M100)
10
Bioinformatikos apibrėžimai (2)
Mokslas apie biologinėse sistemose vykstančius
informacinius procesus bei tų procesų
mechanizmus, informatikos požiūriu
aiškinančius ir modeliuojančius gyvųjų
organizmų funkcinę organizaciją, sandarą ir
elgseną
Bioinformatika (B110M100)
11
Bioinformatikos termino naudojimas
Siaurąja prasme:
Bioinformatika yra biomolekulinių sekų, saugomų
genetinių duomenų bazėse, apdorojimo metodus
tiriantis mokslas
Plačiąja prasme:
Bioinformatika yra mokslas tiriantis informacinių
procesus vykstančius gyvuosiuose organizmuose
(įskaitant ir „dirbtinę gyvybę“)
Bioinformatika (B110M100)
12
Bioinformatikos interesų sfera
Žiniomis grįstos technologijos
Duomenų gavyba ir analizė
Mašininio mokymo technologijos
Neuroninių tinklų teorijos
Intelektualiosios duomenų bazės
Hibridinės intelektualiosios sistemos
Programos - agentai
Bioinformatika (B110M100)
13
Bioinformatikos kryptys
1. Bioinformacinių duomenų organizavimas ir
valdymas
bioinformacinių duomenų standartizavimas,
duomenų bazių struktūra ir valdymas,
bioinformacinių duomenų bazių ir įrankių integravimas
2. Biomolekulinių sekų analizės metodų ir algoritmų
kūrimas
3. Biomolekulių struktūros numatymas ir
modeliavimas
4. Biosistemų kompiuterinis modeliavimas
Bioinformatika (B110M100)
14
Bioinformatikos šakos
Genoinformatika arba genomika
tiria genetinės informacijos organizavimą įvairių rūšių
organizmų genomuose
Proteomika (baltymų mokslas)
tiria baltymų sekas, struktūrą ir funkcijas
Kladistika arba filogenetika
nagrinėja algoritmų ir programų taikymą genomo
evoliucijos tyrimui
Neuroinformatika
tiria nervų sistemos organizavimą
Bioinformatika (B110M100)
15
Bioinformatikos uždavinys
Analizuoti, organizuoti ir interpretuoti didžiulius
informacijos kiekius, sukauptus genų ir baltymų
duomenų bazėse ir susieti juos su gyvuosiuose
organizmuose vykstančiais biologiniais procesais
Analizė apima duomenų gavybos ir mašininio
mokymo metodų kūrimą ir taikymą
Organizavimas apima biologinės informacijos
duomenų bazių kūrimą bei tokių bazių priežiūrą taip,
kad tyrėjai galėtų bet kada pasiekti esamą informaciją
ir pasiūlyti naujus įrašus
Bioinformatika (B110M100)
16
Bioinformatikos istorija (1)
1953
1962
1970
1973
1977
Watson ir Crick pasiūlė DNR dvigubos spiralės modelį
Molekulinės evoliucijos teorija (L. Pauling)
Needleman-Wunsch sekų sugretinimo algoritmas
(dinaminis programavimas)
Pirmoji duomenų bazė: Brookhaven Protein Data Bank
Sukurtas DNR sekų dešifravimo (sequencing) metodas
(A. Maxam, W. Gilbert, F. Sanger)
Bioinformatikos istorija (2)
1979
1980
1988
2003
Pirmą kartą paminėtas terminas “bioinformatika”
(P. Hogeweg)
Dešifruotas pirmojo organizmo genetinis kodas
(virusas ΦX174)
Pradėti žmogaus genomo dešifravimo darbai
Baigtas žmogaus genomo dešifravimas
Techninės problemos
Didžiuliai informacijos kiekiai
Saugojimo problemos
Bioinformatikos DB dydis padvigubėja kas 18 mėn.
GenBank (150 milijardų simbolių, 60 mln. sekų)
EMBL (500 milijardų simbolių, 1.6 TB)
1 TB = 1000 GB = 250 DVD filmų = 50 000 medžių
Techniniai reikalavimai
Sprendžiama
problema
Reikalingas
skaičiavimų
greitis
Tinklo sparta
Atminties kiekis
Genomo
dešifravimas
>10 TeraFlops
155Mbs - 622Mbs
300 TB (terabaitų)
vienam genomui
Baltymų struktūros
numatymas
>100 TeraFlops
622Mbs
1 PB (petabaitas) =
1000 TB
Molekulinės
sąveikos
modeliavimas
100 TeraFlops
2.4Gbs
10 PB
Biologinių tinklų
modeliavimas
>1 TeraFlops
mažiems
tinklams
100Gbs
1000 PB
Bioinformacinių duomenų analizės
lygiai (1)
Vieno geno (baltymo) sekos analizė
geno panašumas su kitais žinomais genais;
evoliucinių ryšių nustatymas ir evoliucinio medžio sudarymas;
tiksliai nustatytų sekos sričių atpažinimas;
sekos požymių (fizinės savybės, praimerių vieta, mutavusios sekos)
nustatymas.
Išbaigto genomo analizė.
Genų padėtis chromosomoje, koreliacija su funkcija ar evoliucija.
Didelio masto įvykiai organizmo evoliucijoje.
Bioinformatika (B110M100)
21
Bioinformacinių duomenų analizės
lygiai (2)
Genų ir genomų analizė, siekiant gauti praktiškai
panaudojamus duomenis.
išraiškos analizė;
mikromatricos duomenų analizė;
tretinės baltymų struktūros numatymas;
pakitusių fenotipų ir genotipų palyginimas;
biocheminių kelių palyginimas ir analizė;
esminių genų ar genų, įtraukiamų į specifinius procesus,
atpažinimas.
Bioinformatika (B110M100)
22
Bioinformatikos įrankiai
Bioinformatikos įrankiai yra kompiuterinės
programos, kurios skirtos svarbios informacijos
paieškai ir analizei duomenų gausybėje.
Bioinformatikos įrankių pagrindinės kategorijos:
Duomenų paieškos programos;
Duomenų analizės ir apdorojimo programos
Duomenų vizualizacijos programos.
Bioinformatika (B110M100)
23
Pagrindinės bioinformatikos
problemos (1)
Sekų sugretinimas naudojamas palyginti dvejas ar daugiau
panašių nukleotidų ar amino rūgščių sekų.
Genų paieška yra duotos nukleotidų sekos analizė,
nurodant, kurie jos fragmentai tiesiogiai koduoja
organizmo sintetinamų baltymų amino rūgštis.
Baltymų struktūrinės sekos tyrimai gretina žinomos
funkcijos baltymų fragmentus.
Baltymų struktūros numatymas siekia nustatyti erdvinę
(tretinę, ketvirtinę) baltymo struktūrą pagal jo amino
rūgščių seką.
Taikinio numatymas siekia numatyti, į kurią ląstelės vietą
(ar apskritai iš ląstelės) žinomos sekos baltymas bus
transportuojamas.
Bioinformatika (B110M100)
24
Pagrindinės bioinformatikos
problemos (2)
Genų išraiškos numatymas siekia aptikti geno koduojančią
dalį papildančias sekas, nurodančias, kada ir kaip gene
esanti informacija turi būti organizmo panaudojama.
Baltymų sąveikų numatymas siekia numatyti, ar du
žinomos struktūros baltymai sąveikaus tarpusavyje.
Metabolinio ląstelės tinklo analizė tiria ląstelės metabolinių
virsmų visumą naudojant grafų teorijos metodus.
Morfogenezės analizė siekia numatyti, kokiu būdu genetinė
informacija (nukleotidų seka) įgalina kurti sudėtingas
gyvojo pasaulio erdvines struktūras.
Evoliucijos modeliavimas siekia modeliuoti genomo
evoliuciją.
Bioinformatika (B110M100)
25
Bioinformatikos taikymai
Pasaulinė bioinformatikos rinka sudaro apie 1,4
milijardo JAV dolerių ir kiekvienais metais ji išauga
apie 16 %.
Prognozuojama, kad 2010 m. bioinformatikos rinka
sudarys 3 milijardus JAV dolerių.
Bioinformatikos rinkos augimas daugiausiai siejamas
su taikymais vaistų gamybos pramonėje.
Tikimasi, kad bioinformatikos pasiekimai leis
sumažinti naujų vaistų gamybos kaštus 33%, o vaistų
sukūrimo laiką 30%.
Bioinformatika (B110M100)
26
Bioinformatikos taikymai
Biotechnologija
Sausrai atsparių
javų rūšių
ieškojimas
Atsparumas
antibiotikams
Maisto
kokybės
gerinimas
Genų terapija
Veterinarijos
studijos
Asmeninė
medicina
Molekulinė
medicina
Profilaktinė
medicina
Apsauga
nuo
kenkėjų
Klimato
keitimo
studijos
Palyginamosios
studijos
Alternatyvūs
energijos
šaltiniai
Atliekų
valymas
Bioginklo
sukūrimo
realybė
Mikrobų
genomų
taikymai
Vaistų
kūrimas,
tobulinimas
Evoliucijos
studijos
Taikymai: Molekulinė medicina
Paveldimų ligų tyrimas
Asmeninė medicina
Profilaktinė medicina
Genų terapija
Vaistų kūrimas, tobulinimas
Imunologija
Bioinformatika (B110M100)
28
Taikymai: Genetiškai Modifikuoti Organizmai
(GMO)
Atliekų valymas
Alternatyvūs energijos šaltiniai
Maisto pramonė
Atsparumas antibiotikams.
Bioinformatika (B110M100)
29
Taikymai: žemės ūkis
Derlingumo didinimas
Maistingumo didinimas
Atsparumas kenkėjams
Veterinarija
Bioinformatika (B110M100)
30
Bioinformatika Lietuvoje (1)
Tyrimai:
VU Biotechnologijos instituto Bioinformatikos
laboratorija
VGTU Bioinformatikos mokslo laboratorija
Konferencijos
VGTU rengia jaunųjų mokslininkų konferenciją
“Bioinžinerija ir bioinformatika”
Bioinformatika Lietuvoje (2)
Dėstoma:
VGTU Chemijos ir bioinžinerijos katedra
VU Biochemijos ir biofizikos katedra
VU Matematinės informatikos katedra
VDU Biologijos katedra
KTU Organinės chemijos katedra