Document 7858945

Download Report

Transcript Document 7858945

‫يکپارچه سازي بانک هاي اطالعاتي‬
‫زيست شناختي‬
‫بازنمائي‪ ،‬ذخيره سازي‪ ،‬و نحوه دسترس ي‬
‫‪‬توسط‪ :‬کاوه‬
‫کاوسي‬
‫‪‬استاد راهنما‪ :‬دکتر‬
‫مسعود رهگذر‬
‫ويژگي هاي داده هاي بيولوژيک‬
‫‪ ‬داده هاي سيستم هاي متداول طويل (‪ )Long‬هستند‬
‫‪ ‬تعداد رکورد هاي زياد‬
‫‪ ‬تعداد ويژگي ها محدود‬
‫‪ ‬داده هاي بيولوژيک عريض (‪ )Broad‬هستند‪.‬‬
‫‪ ‬تعداد رکورد هاي محدود‬
‫‪ ‬تعداد ويژگي هاي زياد‬
‫حاشيه نويس ي )‪(Annotation‬‬
‫‪ ‬در بيولوژي فرمت قالب نگاهداري داده هاي بيولوژيک مبتني بر رکورد نيست‪.‬‬
‫‪1‬‬
‫طبقه بندي پايگاه هاي داده ي بيولوژيک‬
‫‪ ‬در سال ‪ 2007‬بيش از ‪ 1000‬پايگاه دادة عمومي و يا با رويکرد هاي اقتصادي براي‬
‫داده هاي بيولوژيک وجود داشته است‬
‫‪ ‬اطالعات بيولوژيک دانشمندان حوزه ي بيولوژي را در يافتن اسرار مربوط به منشا‬
‫خلقت و تکامل‪ ،‬کشف روابط فاميلي بين گونه هاي مختلف‪ ،‬يافتن روش هاي درمان‬
‫بيماري ها‪ ،‬و بهبود زندگي جانداران و در راس آنها انسان‪ ،‬ياري مي دهند‪.‬‬
‫‪ ‬اين اطالعات با فرمت هاي گوناگون و در نقاط مختلف جهان به صور گوناگون در‬
‫قالب پايگاه هاي دادة عمومي و يا خصوص ي توزيع شده اند‬
‫‪ ‬مشکالت‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫يافتن اطالعات معتبر دشوار است‬
‫احتمال وجود داده هاي ناسازگار‬
‫يافتن اطالعات مورد نظر از داده هاي عريض دشوار است و بار پردازش ي دارد‬
‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)‬
‫‪ ‬ژورنال )‪ Nucleic Acid Research (NAR‬هر ساله يک طبقه بندي‬
‫از بانک هاي اطالعاتي بيولوژيک ارائه مي کند‪.‬‬
‫‪ ‬طبقه بندي ‪ 2007‬از اين بانک ها شامل ‪ 10‬گروه مختلف مي گردد‬
‫‪3‬‬
‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)‬
‫‪‬‬
‫بانک هاي مربوط به توالي اوليه‬
‫) )‪(International Nucleotide Sequence Database (INSD‬‬
‫‪‬‬
‫‪4‬‬
‫اين بانک ها اطالعات توالي ژني مربوط به بسياري ارگانيسم ها را در خود ذخيره کرده اند و به‬
‫عنوان مرجعي براي بسياري بانک هاي ديگر مورد استفاده قرار مي گيرند‪.‬‬
‫)‪DDBJ (DNA Data Bank of Japan‬‬
‫‪‬‬
‫)‪EMBL Nucleotide DB (European Molecular Biology Laboratory‬‬
‫‪‬‬
‫)‪GenBank (National Center for Biotechnology Information‬‬
‫‪‬‬
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
(Meta Databases)‫ابر بانک هاي اطالعاتي‬
‫اين پايگاه ها معموال‬.‫يک ابر بانک اطالعاتي يک پايگاه داده از يانک هاي اطالعاتي ديگر است‬
‫داده ها را از بانک هاي ديگر جمع آوري مي گنند و با تغيير در فرم نمايش و يا با تاکيد بر يک‬
.‫ارگانيزم يا بيماري خاص آنها را به کاربران ارائه مي کنند‬

Entrez (National Center for Biotechnology Information)

euGenes (Indiana University)

GeneCards (Weizmann Inst.)

SOURCE (Stanford University)





mGen containing four of the world biggest databases GenBank,
Refseq, EMBL and DDBJ - easy and simple program friendly
gene extraction
Bioinformatic Harvester (Karlsruhe Institute of Technology) Integrating 26 major protein/gene resources.
MetaBase (KOBIC) - A user contributed database of biological
databases.
5
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي اطالعاتي ژنوم‬
‫اين بانک ها به صورت تخصص ي اطالعات مربوط به توالي هاي ژنوم ارگانيسم هاي مختلف را‬
‫ و دسترس ي عمومي به آنها را فراهم‬،‫ آنها را حاشيه نويس ي و تحليل مي کنند‬،‫جمع آوري مي کنند‬
.‫مي کنند‬



Ensemble provides automatic annotation databases for human,
mouse, other vertebrate and eukaryote genomes.
JGI Genomes of the DOE-Joint Genome Institute provides
databases of many eukaryote and microbial genomes.

CAMERA Resource for microbial genomics and metagenomics

MGI Mouse Genome (Jackson Lab.)

Corn, the Maize Genetics and Genomics Database



Saccharomyces Genome Database, genome of the yeast model
organism.
Wormbase, genome of the model organism Caenorhabditis
elegans
6
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫مرورگر هاي ژنوم‬
.‫اين بانک هاي اطالعاتي امکان مشاهدة صوري و مرور همة بخش هاي ژنوم را فراهم مي کنند‬
‫براي اين کار اطالعات حاشيه نويس ي مربوط به بيان ژن ها و آناليز هاي مقايسه اي را مورد‬
.‫استفاده قرار مي دهند‬





Integrated Microbial Genomes (IMG) system by the DOE-Joint
Genome Institute
UCSC Genome Bioinformatics Genome Browser and Tools
(UCSC)
Ensembl The Ensembl Genome Browser (Sanger Institute and
EBI)

GBrowse The GMOD GBrowse Project

Pathway Tools Genome Browser
7
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي اطالعاتي توالي پروتئين ها‬




UniProt Universal Protein Resource (UniProt Consortium: EBI,
Expasy, PIR)
PIR Protein Information Resource (Georgetown University
Medical Center (GUMC))
Swiss-Prot[6] Protein Knowledgebase (Swiss Institute of
Bioinformatics)
PEDANT Protein Extraction, Description and ANalysis Tool
(Forschungszentrum f. Umwelt & Gesundheit)

PROSITE Database of Protein Families and Domains

DIP Database of Interacting Proteins (Univ. of California)


Pfam Protein families database of alignments and HMMs
(Sanger Institute)
8
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي اطالعاتي ساختار پروتئين ها‬

Protein Data Bank (PDB) (Research Collaboratory for Structural
Bioinformatics (RCSB))

CATH Protein Structure Classification

SCOP Structural Classification of Proteins



SWISS-MODEL Server and Repository for Protein Structure
Models
ModBase Database of Comparative Protein Structure Models
(Sali Lab, UCSF)
9
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي مربوط به اطالعات برهم کنش ميان پروتئين ها‬




BioGRID A General Repository for Interaction Datasets (Samuel
Lunenfeld Research Institute)
STRING: STRING is a database of known and predicted proteinprotein interactions. (EMBL)
Database of Interacting Proteins
10
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي اطالعاتي مربوط به مسير هاي سوخت و ساز درون سلولي‬

BioCyc Database Collection including EcoCyc and MetaCyc

KEGG PATHWAY Database (Univ. of Kyoto)

MANET database (University of Illinois)


Reactome (Cold Spring Harbor Laboratory, EBI, Gene Ontology
Consortium)
11
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي مربوط به اطالعات ريز آرايه ها‬



ArrayExpress (European Bioinformatics Institute)
Gene Expression Omnibus (National Center for Biotechnology
Information)

maxd (Univ. of Manchester)

SMD (Stanford University)

GPX(Scottish Centre for Genomic Technology and Informatics)
12
‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه)‬
‫‪ ‬بانک هاي اطالعاتي مربوط به مدل هاي رياض ي پديده هاي بيولوژيک‬
‫اين بانک هاي اطالعاتي امکان مشاهدة صوري و مرور همة بخش هاي ژنوم را فراهم مي‬
‫کنند‪.‬‬
‫‪‬‬
‫‪13‬‬
‫اطالعات مربوط به مدلسازي احتماالتي و ساير ديدگاه ها در مورد پديده هاي بيولوژيک را مي‬
‫توان در اين بانک ها جستجو نمود‪.‬‬
‫)‪[http://www.cellml.org/models (CellML‬‬
‫‪‬‬
‫)‪[http://www.ebi.ac.uk/biomodels/ (Biomodels Database‬‬
‫‪‬‬
)‫طبقه بندي پايگاه هاي داده ي بيولوژيک(ادامه‬
‫بانک هاي اطالعاتي تخصص ي‬
‫اين بانکها اطالعات تخصص ي مربوط به برخي بيماري ها و ژنوتايپ و فنوتايپ مربوط به آن را در‬
.‫خود نگاهداري مي کنند‬


Clone Registry Clone Collections (National Center for
Biotechnology Information)
DBGET H.sapiens (Univ. of Kyoto)

GDB Hum. Genome Db (Human Genome Organisation)





CGAP Cancer Genes (National Cancer Institute)



SHMPD The Singapore Human Mutation and Polymorphism
Database
NCBI-UniGene (National Center for Biotechnology Information)
OMIM Inherited Diseases (Online Mendelian Inheritance in
Man)
Off. Hum. Genome Db (HUGO Gene Nomenclature Committee)
HGMD disease-causing mutations (HGMD Human Gene
Mutation Database)
14
‫بازنمائي داده هاي بيولوژيک‬
‫‪ ‬همزمان با رشد پايگاه هاي دادة عمومي از لحاظ شهرت‪ ،‬ساختار و پيچيدگي نمايش‬
‫داده ها نيز به همين ترتيب رشد کردند‬
‫‪ ‬فقط داده هاي توالي و يک توصيف ساده از آن کافي نيست‬
‫‪ ‬نگاهي به فرمت هاي مختلف بازنمايي داده ها ي بيولوژيک‬
‫‪FASTA ‬‬
‫‪Genbank ‬‬
‫‪Swiss-Prot ‬‬
‫‪XML ‬‬
‫‪15‬‬
‫بازنمائي داده هاي بيولوژيک‪ ،‬فرمت ‪FASTA‬‬
‫‪ ‬در ابتدا براي برنامه جستجوي ‪ FASTA‬طراحي شده بود‪ ،‬ولي بطور وسيعي براي‬
‫ساير کاربردها بکار گرفته شده است‬
‫‪ ‬فرمت ‪ FASTA‬مشخصا يک فرمت توالي محور است‬
‫‪ ‬ايده آل براي پردازشهايي که فقط نيازمند توالي و شناسة يکتاي آن هستند‪.‬‬
‫‪ ‬هر رکورد در فايل ‪ FASTA‬از دو بخش اصلي تشکيل شده است‪ :‬حاشيه نويس ي‬
‫و بخشهاي توالي‬
‫‪ ‬فرمت مخصوص براي هر بخش‬
‫‪16‬‬
‫‪17‬‬
‫يک فايل نمونة ‪ FASTA‬با دو رکورد‬
‫بازنمائي داده هاي بيولوژيک فرمت‪ Genpet ،‬و ‪Genbank‬‬
‫‪ ‬يک فرمت حاشيه نويس ي محور است زيرا روي فراهم آوردن حاشيه نويس ي هاي‬
‫داراي جزئيات زياد براي هر توالي تمرکز مي کند‪.‬‬
‫‪ ‬فقط داده هاي توالي و يک توصيف ساده از آن کافي نيست‬
‫‪ ‬ايده آل براي پردازشهايي که عالوه بر پردازش توالي نيازمند پردازش اطالعات تکميلي‬
‫موجود در حاشيه نويس ي هستند‪.‬‬
‫‪ ‬فايلهاي ‪ Genbank‬از سه بخش اصلي تشکيل شده اند‪:‬‬
‫‪ ‬هدر ها‪:‬لغات کليدي‪ ،‬شماره هاي دسترس ي و منابع مقاالت‪... ،‬‬
‫‪ ‬جداول ويژگي‪:‬منبع پروتئين‪... ، )Coding Sequence( CDS ،‬‬
‫‪ ‬توالي ها‪ :‬شروع با لغت ‪ ORIGIN‬و نمايش مانده هاي اسيد هاي آمينه با فرمت مناسب براي کاربر‬
‫‪18‬‬
19
‫بازنمائي داده هاي بيولوژيک فرمت‪Swiss-Prot ،‬‬
‫‪ ‬يک فرمت حاشيه نويس ي محور است‬
‫‪ ‬توسط موسسة بيو انفورماتيک سوئيس (‪ )SIB‬طراحي شده و بروز مي شود‬
‫‪ SIB ‬معتقد است که پايگاههاي داده پروتئيني به سه ويژگي کليدي براي اندازه گيري‬
‫نياز دارند که عبارتند از‪:‬‬
‫‪‬‬
‫حاشيه نويس ي‬
‫افزونگي کمينه‬
‫‪‬‬
‫يکپارچگي با ساير پايگاه هاي داده‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪TrEMBL‬يک ضميمه براي ‪ Swiss-Prot‬با حاشيه نويس ي اتوماتيک‬
‫بروزرساني هاي منظم‪:‬‬
‫‪‬‬
‫‪20‬‬
‫‪‬‬
‫چهار بروز رساني کامل ساليانه‬
‫بروز رساني تفاوتهاي جزئي به صورت هفتگي‬
‫بازنمائي داده هاي بيولوژيک‪ ،‬فرمت ‪XML‬‬
‫‪ ‬خوانايي باالتر براي ماشين و انسان‬
‫‪ ‬نسخه هاي مختلف ‪ XML‬که براي داده هاي بيولوژيک توسعه داده شده اند‪:‬‬
‫)‪BSML (Biological Sequence Markup Language‬‬
‫‪INSDseq‬‬
‫‪‬‬
‫‪21‬‬
‫هردو به شيوه ي )‪ DTD(Document Type Definitions‬داده را‬
‫توصيف مي کنند‪.‬‬
‫‪‬‬
‫‪‬‬
‫بازنمائي داده هاي بيولوژيک‪ ،‬فرمت ‪( XML‬ادامه)‬
‫‪ ‬مدل درختي براي بازنمايي داده هاي ‪XML‬‬
‫‪22‬‬
)‫ (ادامه‬XML ‫ فرمت‬،‫بازنمائي داده هاي بيولوژيک‬
XML Data for
2MGE Protein
From Glibin-like Fold Pattern
23
‫ذخيره سازي داده ها‬
‫‪ ‬اگرچه بسياري از بانک هاي اطالعاتي بيولوژيک داده ها را به يکي از فرمت هاي‬
‫توصيف شده در بخش قبل در اختيار مي گذارند اما اغلب خود آنها از سيستم هاي‬
‫رابطه اي و يا ش ي گرا براي ذخيره سازي داده ها استفاده مي کنند‪.‬‬
‫‪24‬‬
‫ذخيره سازي داده ها‪ ،‬انباره هايي متشکل از چند پايگاه داده‬
‫روش اول‪:‬‬
‫‪ ‬تعريف يک ساختار بانک اطالعاتي رابطه اي و جذب اطالعات از بانک هاي مختلف‬
‫در آن‪.‬مانند سيستم ‪ PRINTS-S‬که اطالعات را از بانک ‪ OWL‬جذب ميکند‬
‫در حاليکه خود ‪ OWL‬اطالعات را از چهاربانک ديگر جذب مي کند‪.‬‬
‫‪ OWL ‬يک بانک متشکل از اطالعات ‪ ،GenBank ، PIR ، SWISS-PROT‬و‬
‫‪ NRL-3D‬مي باشد‪.‬‬
‫‪25‬‬
‫ذخيره سازي داده ها‪ ،‬انباره هايي متشکل از چند پايگاه داده‬
‫مدل ‪ER‬‬
‫براي سيستم‬
‫‪PRINTS‬‬
‫‪26‬‬
‫ذخيره سازي داده ها‪ ،‬انباره هايي متشکل از چند پايگاه داده‬
‫روش دوم‪:‬‬
‫‪ ‬سيستم )‪GIMS(Genome InformationManagement System‬‬
‫مشابه ‪ PRINTS‬است با اين تفاوت که از يک ممعماري ش ي گرا استفاده مي‬
‫کند‪.‬‬
‫‪27‬‬
‫دسترس ي به داده ها‬
‫‪ ‬در ابتدا هر پايگاه داده سعي در جذب ساير پايگاه هاي داده در خود داشت‪.‬‬
‫‪ ‬پس از مدتي مکانيزم هاي يکپارچه سازي جاي ايده جذب را گرفت‪.‬‬
‫‪28‬‬
‫دسترس‬
‫ي به داده ها‪ ،‬نقطه دستابي منفرد)‪(Single DB Access Point‬‬
‫‪ Genebank ‬حاصل گردآوري سه پايگاه داده متفاوت است که از طريق سايت‬
‫وب ‪ NCBI‬در دسترس هستند‪.‬‬
‫)‪(National Center for Biotechnology Information‬‬
‫)‪(Core Nucleotide, dbGss, dbEST‬‬
‫‪ ‬کاربر مي تواند از طريق واسط ‪ NCBI‬هر بانک را جدا گانه جسجو کند و يا يکباره‬
‫هر سه بانک را در يک زمان توسط ابزار سايت ‪ NCBI‬جستجو کند‪.‬‬
‫‪29‬‬
‫دسترس‬
‫‪30‬‬
‫ي به داده ها‪ ،‬نقطه دستابي منفرد)‪(Single DB Access Point‬‬
‫دسترس‬
‫‪‬‬
‫ي به داده ها‪ ،‬نقطه دستابي منفرد)‪(Single DB Access Point‬‬
‫مثال ديگر ‪( SWISS-PROT‬جستجوي سه مرحله اي)‬
‫)‪(1‬‬
‫‪31‬‬
‫دسترس‬
‫ي به داده ها‪ ،‬نقطه دستابي منفرد)‪(Single DB Access Point‬‬
‫)‪(2‬‬
‫‪32‬‬
(Single DB Access Point)‫ نقطه دستابي منفرد‬،‫ي به داده ها‬
‫دسترس‬
(3)
Tabular Format
33
‫دسترس‬
‫ي به داده ها‪(Cross-Reference Databases) ،‬‬
‫‪ ‬يکي از ابتدايي ترين روش هاي دسترس ي به داده هاي چندين بانک اطالعاتي‬
‫‪ Cross-Referencing‬است‪.‬‬
‫‪‬‬
‫‪‬‬
‫راه اول‪ :‬برقراري ارتباطات ‪ Hypertext‬از يک رکورد در يک پايگاه داده به رکورد هاي مرتبط‬
‫در پايگاه هاي داده ديگر‬
‫راه دوم‪ :‬ايجاد يک شناسه رکورد براي رکورد مرتبط در هر پايگاه دادة ديگر‬
‫‪ ‬دسترس ي به ‪ Pfam ،PRINTS ،PIR ،EMBL‬و ‪ ...‬از طريق سايت‬
‫‪SWISS-PROT‬‬
‫‪34‬‬
(Cross-Reference Databases) ،‫ي به داده ها‬
‫دسترس‬
35
(Multiple-Database Access Points) ،‫ي به داده ها‬
‫دسترس‬
Absorb
Locally
Style Data
Access
(PRINTS-S
GIMS,…)
36
(Multiple-Database Access Points) ،‫ي به داده ها‬
External Query
Style Data
Access
(BioMolQuest
Database)
WWW
SearchEngine
Style,
No longterm
Data Storage
‫دسترس‬
37
(Multiple-Database Access Points) ،‫ي به داده ها‬
‫دسترس‬
Integrates Swiss-Prot, Enzyme, Cath, BLAST, and
Prosite, 1800 Biological Concepts
38
(Multiple-Database Access Points) ،‫ي به داده ها‬
‫دسترس‬
Human Genome Project Chromosome
22’s database system (HGPC22).an alternative for TAMBIS
Integrates Genbank, GDB, and Entrez
39
(Multiple-Database Access Points) ،‫ي به داده ها‬
‫دسترس‬
Integration Mechanism
Interface
Agent 1
Data Server 1
Desired
Structure &
Query
Dispatcher Agent
Interface
Agent 2
Query
Preprocessing
Agent
Data Server 2
Similarity
Identification Unit
User
Homonyms/Synonyms
Resolving Unit
Final
Results
Integration
Engine Agent
SemanticNet
Unit
Type Conflict Resolving
Unit
Abstraction Level Difference
Resolving Unit
Interface
Agent n
Inconsistent Data
Resolving Unit
Data Server n
Central Unit
40
)‫معماري پيشنهادي ما براي تجميع(با نگاه به ويژگي عريض بودن داده ها‬
PDB, SWISS-PROT, Genbank, PIRPSD
‫‪ PREPROCESS‬بر ورودي کاربر‬
‫‪Customized query preprocessing ‬‬
‫‪ ‬استفاده از ديکشنري تخصصي براي ترجمه و تشخيص کلمات و مفاهيم‬
‫يکسان‬
‫‪ ‬به روز رساني لغت نامه‬
‫‪ ‬پيشنهاد دادن به کاربر در حاالت مبهم‬
‫‪ ‬توليد پرس و جوي استاندارد سيستم‬
‫‪ ‬تحويل پرس و جو به عامل ‪Dispatcher‬‬
‫‪41‬‬
‫عامل ‪DISPATCHER‬‬
‫‪ ‬دريافت پرس و جوي استاندارد سيستم‬
‫‪ ‬شناخت پايگاه داده هاي موجود‬
‫‪ ‬وابسته به طراحي پايگاه داده ها‬
‫‪ ‬ترجمه به پرس و جوي مناسب هر پايگاه داده خاص‬
‫‪ ‬تحويل هر پرس و جو به عامل جمع کننده داده متناظر‬
‫‪42‬‬
‫عامل جمع کننده داده ها‬
‫‪ ‬دريافت پرس و جوي استاندارد يک پايگاه داده خاص‬
‫‪ ‬ارتباط و دريافت فايل هاي بازگشت داده شده‬
‫‪ ‬ادغام فايل ها به فرمت جدول يکپارچه‬
‫‪ ‬حذف اطالعات اضافي‬
‫‪ ‬تحويل جداول داده اي به عامل يکپارچه ساز مرکزي‬
‫‪43‬‬
‫عامل تجميع کننده و يکپارچه ساز مرکزي‬
‫‪Similarity Identification ‬‬
‫‪ ‬خوشه بندي‬
‫‪ ‬ديکشنري تخصصي‬
‫‪ ‬کاربر خبره و به روزرساني ديکشنري‬
‫‪Scaling ‬‬
‫‪ ‬داده هاي اسمي مشکلي ندارند‬
‫‪ ‬فيلدهاي عددي مشابه شناسايي شده‬
‫‪ ‬پارامترهاي آماري‬
‫‪ ‬ميانگين و واريانس‬
‫‪ ‬کاربر خبره‬
‫‪44‬‬
‫عامل تجميع کننده و يکپارچه ساز مرکزي(ادامه)‬
‫‪ ‬تطبيق ويژگيهاي زباني با فيلدهاي عددي متناظر‬
‫‪ ‬کاربر خبره‬
‫‪Synonyms ‬‬
‫‪Homonyms ‬‬
‫‪Type Conflict ‬‬
‫‪Abstraction level ‬‬
‫‪ ‬داده هاي خام و داده هاي پردازش شده از داده هاي خام متناظر‬
‫‪ ‬تناقض در داده هاي فيلدهاي مشخص و بدون ابهام‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪45‬‬
‫‪‬‬
‫پرسش از کاربر و به روز رساني دانش‬
‫‪Fusion‬‬
‫نمايش رکورد بدون پردازش‬
‫‪ Voting‬وزن دار‬
Integration Mechanism
Interface
Agent 1
‫معماري سيستم‬
Data Server 1
Desired
Structure &
Query
Interface
Agent 2
Dispatcher/Integrator
Unit
Query
Preprocessing
Data Server 2
Similarity
Identification Unit
User
Homonyms/Synonyms
Resolving Unit
Final
Results
Integration
Engine
Specialized
Dictioary
Type Conflict Resolving
Unit
Abstraction Level Difference
Resolving Unit
Interface
Agent n
Inconsistent Data
Resolving Unit
Data Server n
46
Central Unit
‫کارهاي آينده‬
User Modeler 
Final result Ranking 
47