Duomenu bazes

Download Report

Transcript Duomenu bazes

Bioinformatikos įrankiai
“Bioinformatika”
Doc. R. Damaševičius
KTU Programų inžinerijos katedra
Bioinformatikos įrankiai
• Bioinformatikos įrankiai yra kompiuterinės
programos, skirtos svarbios informacijos paieškai
ir analizei duomenų gausybėje.
– Galutinis vartotojas (biologas, biochemikas, genetikas)
nėra gerai įgudęs naudotis kompiuterinėmis
technologijomis;
– Programiniai įrankiai turi būti mokslininkų tyrėjų
bendruomenės pasiekiami žiniatinkliu.
Bioinformatika (B110M100)
2
Pagrindinės genetinių duomenų bazės
Tipas
Aprašymas
Nukleotidų
sekos
Duomenys kaupiami trijose bendradarbiaujančiose duomenų
bazėse: GenBank (JAV), EMBL (European Molecular Biology
Laboratory Nucleotide Sequence Database) ir DDBJ (DNA
Data Bank of Japan).
Aminorūgščių Pagrindinės duomenų bazės yra šios: Swissprot (Swiss
sekos
Protein Database), PIR (Protein Information Resource),
Genpept (transliuojamų peptidų sekos iš GenBank db),
TrEMBL (transliojamų peptidų sekos iš EMBL db)
Erdvinės
struktūros
PDB (Protein Data Bank) saugomos biologinių
makromolekulių, pagrindinai baltymų, erdvinės struktūros.
Pagrindiniai duomenys gauti rentgenostruktūrinės analizės
būdu arba naudojam BMR.
Baltymų
motyvai
Prosite yra duomenų bazė, kaupianti informaciją apie
baltymų motyvus, būdingus baltymų šeimoms, domenų
struktūroms ar potransliacinėms modifikacijoms
Duomenų bazių klasifikacija
•
•
•
•
•
•
•
•
Sekų duomenų bazės
Sekų analizės duomenų bazės
Mokslinės literatūros duomenų bazės
Baltymų struktūros duomenų bazės
Genų išraiškos duomenų bazės
Metabolinių kelių duomenų bazės
Universalios (integruotos) duomenų bazės
Specializuotos duomenų bazės
Nuorodų katalogas
http://expasy.org/links.html
DNR sekų duomenų bazės
• Pagrindinės duomenų bazės
– GenBank (US)
• (http://www.ncbi.nlm.nih.gov/Genbank/index.html)
– EMBL (Europe)
• (http://www.ebi.ac.uk/embl/)
– DDBJ (Japan)
• (http://www.ddbj.nig.ac.jp/)
• Primary databases
– DNA sequences are identical
Įrašų skaičiaus GenBank duomenų bazėje augimas
Integruotos duomenų bazės
• NCBI - National Center for Biotechnology
Information (JAV)
– NCBI protein resources
– Protein Clusters - collection of related protein
sequences (clusters)
– Genbank - GenBank Nucleotide Sequence db
– dbEST - dbEST (Expressed Sequence Tags) db
– dbSTS - dbSTS (Sequence Tagged Sites) db
– NCBI Taxonomy
– PubMed – Mokslinės literatūros duomenų bazė
– NCBI Bookshelf – knygų archyvas
www.ncbi.nlm.nih.gov
NCBI Bookshelf
• Laisvai prieinamos knygos
– šiuo metu yra 55 pavadinimai
• Temos:
– Molekulinė biologija, biochemija,
genetika, mikrobiologija
PubMed yra…
•
•
•
•
Mokslinių publikacijų paieškos serveris
>14 milionų straipsnių
4000 žurnalų
Nuorodos į kitus žurnalus
1 AND 2
1
2
lipocalin AND disease
(96 results)
1 OR 2
1
2
lipocalin OR disease
(1.9 million results)
1 NOT 2
1
2
lipocalin NOT disease
(729 results)
Entrez: Metapaieškos serveris
• Galimybė atlikti paiešką daugelyje duomenų
bazių iš karto (tiek genetinių sekų, baltymų,
tiek mokslinės literatūros, šiuo metu 29)
• Galimybė naudoti logines operacijas (OR, AND)
• Galimybė saugoti užklausas serveryje
• Galimybė gauti pranešimus el. paštu, jeigu
atsiradų naujų rezultatų pagal jūsų ankstesnes
užklausas
• http://www.ncbi.nlm.nih.gov/sites/gquery
Baltymų duomenų bazių
• SWISS-PROT
– Manually curated
– high-quality annotations, less data
• GenPept/TREMBL
– Translated coding sequences from GenBank/EMBL
– Few annotations, more up to date
• PIR
– Phylogenetic-based annotations
• All 3 now combining efforts to form UniProt
(http://www.uniprot.org)
Sekų ir struktūrų duomenų bazės
• SWISS-3DIMAGE -
– Baltymų ir kitų biologinių makromolekulių 3D struktūros vaizdai
– http://www.expasy.ch/sw3d/
• PDB (Protein Databank)
– Rentgeno kristalografijos, magnetinio rezonanso ir
kompiuterinio modeliavimo būdu gauti duomenys
– http://www.rcsb.org/pdb/
• MMDB (Molecular Modeling database)
– Virš 28,000 baltymų ir polinukleotidų trimatė struktūra
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure)
• SCOP (Structural Classification of Proteins)
– Baltymų klasifikacija pagal jų struktūrinį panašumą ir
evoliucinius sąryšius
Genomų duomenų bazės
• Saugoma informacija apie konkretaus organizmo arba
organizmų grupės genomą
– Colibase (E. coli and related species)
–
http://colibase.bham.ac.uk/
– GDB (human)
• http://www.gdb.org/
– Flybase (Drosophila)
• http://flybase.bio.indiana.edu/
– WormBase (C. elegans)
• http://wormbase.org
– AtDB (Arabidopsis)
• http://www.arabidopsis.org
– SGD (S. cerevisiae)
• http://genome-www.stanford.edu/Saccharomyces/
Genų išraiškos duomenų bazės
• RNR išraiškos
– Eksperimentiškai nustatytas ląstelės mRNR
turinys esant tam tikroms sąlygoms
– Array Express (EBI) ir Geo (NCBI)
• Proteomų
– Eksperimentiškai nustatytas ląstelių baltymų
turinys (visuma) esant tam tikroms sąlygoms
– SWISS 2D PAGE at
http://us.expasy.org/ch2d/
Kitos specializuotos duomenų
bazės
• Mokslinės literatūros
– MEDLINE (http://ncbi.nlm.nih.gov/PubMed/)
– HighWire (Stanford University) (http://www.highwire.org)
• Variacijų
– dbSNP (http://ncbi.nlm.nih.gov/SNP/)
– HGBase (http://hgbase/interactiva/de)
• Metabolinių kelių
– KEGG (http://kegg.genome.ad.jp/kegg/)
– WIT (http://wit.mcs/anl.gov/WIT2)
• Organizmų nomenklatūros
– Taksonomijų (e.g.: http://ncbi.nlm.nih.gov/Taxonomy/ )
– Mendel (http://mbclserver.rutgers.edu/CPGN)