Document 7858945
Download
Report
Transcript Document 7858945
يکپارچه سازي بانک هاي اطالعاتي
زيست شناختي
بازنمائي ،ذخيره سازي ،و نحوه دسترس ي
توسط :کاوه
کاوسي
استاد راهنما :دکتر
مسعود رهگذر
ويژگي هاي داده هاي بيولوژيک
داده هاي سيستم هاي متداول طويل ( )Longهستند
تعداد رکورد هاي زياد
تعداد ويژگي ها محدود
داده هاي بيولوژيک عريض ( )Broadهستند.
تعداد رکورد هاي محدود
تعداد ويژگي هاي زياد
حاشيه نويس ي )(Annotation
در بيولوژي فرمت قالب نگاهداري داده هاي بيولوژيک مبتني بر رکورد نيست.
1
طبقه بندي پايگاه هاي داده ي بيولوژيک
در سال 2007بيش از 1000پايگاه دادة عمومي و يا با رويکرد هاي اقتصادي براي
داده هاي بيولوژيک وجود داشته است
اطالعات بيولوژيک دانشمندان حوزه ي بيولوژي را در يافتن اسرار مربوط به منشا
خلقت و تکامل ،کشف روابط فاميلي بين گونه هاي مختلف ،يافتن روش هاي درمان
بيماري ها ،و بهبود زندگي جانداران و در راس آنها انسان ،ياري مي دهند.
اين اطالعات با فرمت هاي گوناگون و در نقاط مختلف جهان به صور گوناگون در
قالب پايگاه هاي دادة عمومي و يا خصوص ي توزيع شده اند
مشکالت
2
يافتن اطالعات معتبر دشوار است
احتمال وجود داده هاي ناسازگار
يافتن اطالعات مورد نظر از داده هاي عريض دشوار است و بار پردازش ي دارد
طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)
ژورنال ) Nucleic Acid Research (NARهر ساله يک طبقه بندي
از بانک هاي اطالعاتي بيولوژيک ارائه مي کند.
طبقه بندي 2007از اين بانک ها شامل 10گروه مختلف مي گردد
3
طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)
بانک هاي مربوط به توالي اوليه
) )(International Nucleotide Sequence Database (INSD
4
اين بانک ها اطالعات توالي ژني مربوط به بسياري ارگانيسم ها را در خود ذخيره کرده اند و به
عنوان مرجعي براي بسياري بانک هاي ديگر مورد استفاده قرار مي گيرند.
)DDBJ (DNA Data Bank of Japan
)EMBL Nucleotide DB (European Molecular Biology Laboratory
)GenBank (National Center for Biotechnology Information
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
(Meta Databases)ابر بانک هاي اطالعاتي
اين پايگاه ها معموال.يک ابر بانک اطالعاتي يک پايگاه داده از يانک هاي اطالعاتي ديگر است
داده ها را از بانک هاي ديگر جمع آوري مي گنند و با تغيير در فرم نمايش و يا با تاکيد بر يک
.ارگانيزم يا بيماري خاص آنها را به کاربران ارائه مي کنند
Entrez (National Center for Biotechnology Information)
euGenes (Indiana University)
GeneCards (Weizmann Inst.)
SOURCE (Stanford University)
mGen containing four of the world biggest databases GenBank,
Refseq, EMBL and DDBJ - easy and simple program friendly
gene extraction
Bioinformatic Harvester (Karlsruhe Institute of Technology) Integrating 26 major protein/gene resources.
MetaBase (KOBIC) - A user contributed database of biological
databases.
5
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي اطالعاتي ژنوم
اين بانک ها به صورت تخصص ي اطالعات مربوط به توالي هاي ژنوم ارگانيسم هاي مختلف را
و دسترس ي عمومي به آنها را فراهم، آنها را حاشيه نويس ي و تحليل مي کنند،جمع آوري مي کنند
.مي کنند
Ensemble provides automatic annotation databases for human,
mouse, other vertebrate and eukaryote genomes.
JGI Genomes of the DOE-Joint Genome Institute provides
databases of many eukaryote and microbial genomes.
CAMERA Resource for microbial genomics and metagenomics
MGI Mouse Genome (Jackson Lab.)
Corn, the Maize Genetics and Genomics Database
Saccharomyces Genome Database, genome of the yeast model
organism.
Wormbase, genome of the model organism Caenorhabditis
elegans
6
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
مرورگر هاي ژنوم
.اين بانک هاي اطالعاتي امکان مشاهدة صوري و مرور همة بخش هاي ژنوم را فراهم مي کنند
براي اين کار اطالعات حاشيه نويس ي مربوط به بيان ژن ها و آناليز هاي مقايسه اي را مورد
.استفاده قرار مي دهند
Integrated Microbial Genomes (IMG) system by the DOE-Joint
Genome Institute
UCSC Genome Bioinformatics Genome Browser and Tools
(UCSC)
Ensembl The Ensembl Genome Browser (Sanger Institute and
EBI)
GBrowse The GMOD GBrowse Project
Pathway Tools Genome Browser
7
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي اطالعاتي توالي پروتئين ها
UniProt Universal Protein Resource (UniProt Consortium: EBI,
Expasy, PIR)
PIR Protein Information Resource (Georgetown University
Medical Center (GUMC))
Swiss-Prot[6] Protein Knowledgebase (Swiss Institute of
Bioinformatics)
PEDANT Protein Extraction, Description and ANalysis Tool
(Forschungszentrum f. Umwelt & Gesundheit)
PROSITE Database of Protein Families and Domains
DIP Database of Interacting Proteins (Univ. of California)
Pfam Protein families database of alignments and HMMs
(Sanger Institute)
8
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي اطالعاتي ساختار پروتئين ها
Protein Data Bank (PDB) (Research Collaboratory for Structural
Bioinformatics (RCSB))
CATH Protein Structure Classification
SCOP Structural Classification of Proteins
SWISS-MODEL Server and Repository for Protein Structure
Models
ModBase Database of Comparative Protein Structure Models
(Sali Lab, UCSF)
9
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي مربوط به اطالعات برهم کنش ميان پروتئين ها
BioGRID A General Repository for Interaction Datasets (Samuel
Lunenfeld Research Institute)
STRING: STRING is a database of known and predicted proteinprotein interactions. (EMBL)
Database of Interacting Proteins
10
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي اطالعاتي مربوط به مسير هاي سوخت و ساز درون سلولي
BioCyc Database Collection including EcoCyc and MetaCyc
KEGG PATHWAY Database (Univ. of Kyoto)
MANET database (University of Illinois)
Reactome (Cold Spring Harbor Laboratory, EBI, Gene Ontology
Consortium)
11
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي مربوط به اطالعات ريز آرايه ها
ArrayExpress (European Bioinformatics Institute)
Gene Expression Omnibus (National Center for Biotechnology
Information)
maxd (Univ. of Manchester)
SMD (Stanford University)
GPX(Scottish Centre for Genomic Technology and Informatics)
12
طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)
بانک هاي اطالعاتي مربوط به مدل هاي رياض ي پديده هاي بيولوژيک
اين بانک هاي اطالعاتي امکان مشاهدة صوري و مرور همة بخش هاي ژنوم را فراهم مي
کنند.
13
اطالعات مربوط به مدلسازي احتماالتي و ساير ديدگاه ها در مورد پديده هاي بيولوژيک را مي
توان در اين بانک ها جستجو نمود.
)[http://www.cellml.org/models (CellML
)[http://www.ebi.ac.uk/biomodels/ (Biomodels Database
)طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه
بانک هاي اطالعاتي تخصص ي
اين بانکها اطالعات تخصص ي مربوط به برخي بيماري ها و ژنوتايپ و فنوتايپ مربوط به آن را در
.خود نگاهداري مي کنند
Clone Registry Clone Collections (National Center for
Biotechnology Information)
DBGET H.sapiens (Univ. of Kyoto)
GDB Hum. Genome Db (Human Genome Organisation)
CGAP Cancer Genes (National Cancer Institute)
SHMPD The Singapore Human Mutation and Polymorphism
Database
NCBI-UniGene (National Center for Biotechnology Information)
OMIM Inherited Diseases (Online Mendelian Inheritance in
Man)
Off. Hum. Genome Db (HUGO Gene Nomenclature Committee)
HGMD disease-causing mutations (HGMD Human Gene
Mutation Database)
14
بازنمائي داده هاي بيولوژيک
همزمان با رشد پايگاه هاي دادة عمومي از لحاظ شهرت ،ساختار و پيچيدگي نمايش
داده ها نيز به همين ترتيب رشد کردند
فقط داده هاي توالي و يک توصيف ساده از آن کافي نيست
نگاهي به فرمت هاي مختلف بازنمايي داده ها ي بيولوژيک
FASTA
Genbank
Swiss-Prot
XML
15
بازنمائي داده هاي بيولوژيک ،فرمت FASTA
در ابتدا براي برنامه جستجوي FASTAطراحي شده بود ،ولي بطور وسيعي براي
ساير کاربردها بکار گرفته شده است
فرمت FASTAمشخصا يک فرمت توالي محور است
ايده آل براي پردازشهايي که فقط نيازمند توالي و شناسة يکتاي آن هستند.
هر رکورد در فايل FASTAاز دو بخش اصلي تشکيل شده است :حاشيه نويس ي
و بخشهاي توالي
فرمت مخصوص براي هر بخش
16
17
يک فايل نمونة FASTAبا دو رکورد
بازنمائي داده هاي بيولوژيک فرمت Genpet ،و Genbank
يک فرمت حاشيه نويس ي محور است زيرا روي فراهم آوردن حاشيه نويس ي هاي
داراي جزئيات زياد براي هر توالي تمرکز مي کند.
فقط داده هاي توالي و يک توصيف ساده از آن کافي نيست
ايده آل براي پردازشهايي که عالوه بر پردازش توالي نيازمند پردازش اطالعات تکميلي
موجود در حاشيه نويس ي هستند.
فايلهاي Genbankاز سه بخش اصلي تشکيل شده اند:
هدر ها:لغات کليدي ،شماره هاي دسترس ي و منابع مقاالت... ،
جداول ويژگي:منبع پروتئين... ، )Coding Sequence( CDS ،
توالي ها :شروع با لغت ORIGINو نمايش مانده هاي اسيد هاي آمينه با فرمت مناسب براي کاربر
18
19
بازنمائي داده هاي بيولوژيک فرمتSwiss-Prot ،
يک فرمت حاشيه نويس ي محور است
توسط موسسة بيو انفورماتيک سوئيس ( )SIBطراحي شده و بروز مي شود
SIB معتقد است که پايگاههاي داده پروتئيني به سه ويژگي کليدي براي اندازه گيري
نياز دارند که عبارتند از:
حاشيه نويس ي
افزونگي کمينه
يکپارچگي با ساير پايگاه هاي داده
TrEMBLيک ضميمه براي Swiss-Protبا حاشيه نويس ي اتوماتيک
بروزرساني هاي منظم:
20
چهار بروز رساني کامل ساليانه
بروز رساني تفاوتهاي جزئي به صورت هفتگي
بازنمائي داده هاي بيولوژيک ،فرمت XML
خوانايي باالتر براي ماشين و انسان
نسخه هاي مختلف XMLکه براي داده هاي بيولوژيک توسعه داده شده اند:
)BSML (Biological Sequence Markup Language
INSDseq
21
هردو به شيوه ي ) DTD(Document Type Definitionsداده را
توصيف مي کنند.
بازنمائي داده هاي بيولوژيک ،فرمت ( XMLادامه)
مدل درختي براي بازنمايي داده هاي XML
22
) (ادامهXML فرمت،بازنمائي داده هاي بيولوژيک
XML Data for
2MGE Protein
From Glibin-like Fold Pattern
23
ذخيره سازي داده ها
اگرچه بسياري از بانک هاي اطالعاتي بيولوژيک داده ها را به يکي از فرمت هاي
توصيف شده در بخش قبل در اختيار مي گذارند اما اغلب خود آنها از سيستم هاي
رابطه اي و يا ش ي گرا براي ذخيره سازي داده ها استفاده مي کنند.
24
ذخيره سازي داده ها ،انباره هايي متشکل از چند پايگاه داده
روش اول:
تعريف يک ساختار بانک اطالعاتي رابطه اي و جذب اطالعات از بانک هاي مختلف
در آن.مانند سيستم PRINTS-Sکه اطالعات را از بانک OWLجذب ميکند
در حاليکه خود OWLاطالعات را از چهاربانک ديگر جذب مي کند.
OWL يک بانک متشکل از اطالعات ،GenBank ، PIR ، SWISS-PROTو
NRL-3Dمي باشد.
25
ذخيره سازي داده ها ،انباره هايي متشکل از چند پايگاه داده
مدل ER
براي سيستم
PRINTS
26
ذخيره سازي داده ها ،انباره هايي متشکل از چند پايگاه داده
روش دوم:
سيستم )GIMS(Genome InformationManagement System
مشابه PRINTSاست با اين تفاوت که از يک ممعماري ش ي گرا استفاده مي
کند.
27
دسترس ي به داده ها
در ابتدا هر پايگاه داده سعي در جذب ساير پايگاه هاي داده در خود داشت.
پس از مدتي مکانيزم هاي يکپارچه سازي جاي ايده جذب را گرفت.
28
دسترس
ي به داده ها ،نقطه دستابي منفرد)(Single DB Access Point
Genebank حاصل گردآوري سه پايگاه داده متفاوت است که از طريق سايت
وب NCBIدر دسترس هستند.
)(National Center for Biotechnology Information
)(Core Nucleotide, dbGss, dbEST
کاربر مي تواند از طريق واسط NCBIهر بانک را جدا گانه جسجو کند و يا يکباره
هر سه بانک را در يک زمان توسط ابزار سايت NCBIجستجو کند.
29
دسترس
30
ي به داده ها ،نقطه دستابي منفرد)(Single DB Access Point
دسترس
ي به داده ها ،نقطه دستابي منفرد)(Single DB Access Point
مثال ديگر ( SWISS-PROTجستجوي سه مرحله اي)
)(1
31
دسترس
ي به داده ها ،نقطه دستابي منفرد)(Single DB Access Point
)(2
32
(Single DB Access Point) نقطه دستابي منفرد،ي به داده ها
دسترس
(3)
Tabular Format
33
دسترس
ي به داده ها(Cross-Reference Databases) ،
يکي از ابتدايي ترين روش هاي دسترس ي به داده هاي چندين بانک اطالعاتي
Cross-Referencingاست.
راه اول :برقراري ارتباطات Hypertextاز يک رکورد در يک پايگاه داده به رکورد هاي مرتبط
در پايگاه هاي داده ديگر
راه دوم :ايجاد يک شناسه رکورد براي رکورد مرتبط در هر پايگاه دادة ديگر
دسترس ي به Pfam ،PRINTS ،PIR ،EMBLو ...از طريق سايت
SWISS-PROT
34
(Cross-Reference Databases) ،ي به داده ها
دسترس
35
(Multiple-Database Access Points) ،ي به داده ها
دسترس
Absorb
Locally
Style Data
Access
(PRINTS-S
GIMS,…)
36
(Multiple-Database Access Points) ،ي به داده ها
External Query
Style Data
Access
(BioMolQuest
Database)
WWW
SearchEngine
Style,
No longterm
Data Storage
دسترس
37
(Multiple-Database Access Points) ،ي به داده ها
دسترس
Integrates Swiss-Prot, Enzyme, Cath, BLAST, and
Prosite, 1800 Biological Concepts
38
(Multiple-Database Access Points) ،ي به داده ها
دسترس
Human Genome Project Chromosome
22’s database system (HGPC22).an alternative for TAMBIS
Integrates Genbank, GDB, and Entrez
39
(Multiple-Database Access Points) ،ي به داده ها
دسترس
Integration Mechanism
Interface
Agent 1
Data Server 1
Desired
Structure &
Query
Dispatcher Agent
Interface
Agent 2
Query
Preprocessing
Agent
Data Server 2
Similarity
Identification Unit
User
Homonyms/Synonyms
Resolving Unit
Final
Results
Integration
Engine Agent
SemanticNet
Unit
Type Conflict Resolving
Unit
Abstraction Level Difference
Resolving Unit
Interface
Agent n
Inconsistent Data
Resolving Unit
Data Server n
Central Unit
40
)معماري پيشنهادي ما براي تجميع(با نگاه به ويژگي عريض بودن داده ها
PDB, SWISS-PROT, Genbank, PIRPSD
PREPROCESSبر ورودي کاربر
Customized query preprocessing
استفاده از ديکشنري تخصصي براي ترجمه و تشخيص کلمات و مفاهيم
يکسان
به روز رساني لغت نامه
پيشنهاد دادن به کاربر در حاالت مبهم
توليد پرس و جوي استاندارد سيستم
تحويل پرس و جو به عامل Dispatcher
41
عامل DISPATCHER
دريافت پرس و جوي استاندارد سيستم
شناخت پايگاه داده هاي موجود
وابسته به طراحي پايگاه داده ها
ترجمه به پرس و جوي مناسب هر پايگاه داده خاص
تحويل هر پرس و جو به عامل جمع کننده داده متناظر
42
عامل جمع کننده داده ها
دريافت پرس و جوي استاندارد يک پايگاه داده خاص
ارتباط و دريافت فايل هاي بازگشت داده شده
ادغام فايل ها به فرمت جدول يکپارچه
حذف اطالعات اضافي
تحويل جداول داده اي به عامل يکپارچه ساز مرکزي
43
عامل تجميع کننده و يکپارچه ساز مرکزي
Similarity Identification
خوشه بندي
ديکشنري تخصصي
کاربر خبره و به روزرساني ديکشنري
Scaling
داده هاي اسمي مشکلي ندارند
فيلدهاي عددي مشابه شناسايي شده
پارامترهاي آماري
ميانگين و واريانس
کاربر خبره
44
عامل تجميع کننده و يکپارچه ساز مرکزي(ادامه)
تطبيق ويژگيهاي زباني با فيلدهاي عددي متناظر
کاربر خبره
Synonyms
Homonyms
Type Conflict
Abstraction level
داده هاي خام و داده هاي پردازش شده از داده هاي خام متناظر
تناقض در داده هاي فيلدهاي مشخص و بدون ابهام
45
پرسش از کاربر و به روز رساني دانش
Fusion
نمايش رکورد بدون پردازش
Votingوزن دار
Integration Mechanism
Interface
Agent 1
معماري سيستم
Data Server 1
Desired
Structure &
Query
Interface
Agent 2
Dispatcher/Integrator
Unit
Query
Preprocessing
Data Server 2
Similarity
Identification Unit
User
Homonyms/Synonyms
Resolving Unit
Final
Results
Integration
Engine
Specialized
Dictioary
Type Conflict Resolving
Unit
Abstraction Level Difference
Resolving Unit
Interface
Agent n
Inconsistent Data
Resolving Unit
Data Server n
46
Central Unit
کارهاي آينده
User Modeler
Final result Ranking
47