БИОИНФОРМАТИКА

Download Report

Transcript БИОИНФОРМАТИКА

ОНТОЛОГИИ В
БИОИНФОРМАТИКЕ
Подколодный Н.Л.
ИВМиМГ СО РАН
ИЦиГ СО РАН
Что такое БИОИНФОРМАТИКА?
Биоинформатика и
вычислительная биология
использует методы прикладной
математики, статистики,
информатики, computer science,
искусственного интеллекта, химии
и биохимии для решения
биологических проблем
Роль биоинформатики в
постгеномную эру
Биоинформатика 90-х
Первичные базы
данных, содержащие
данные по геномике и
протеомике.
Понимание функций и
полезности отдельных
генов и белков
Биоинформатика сейчас
Вторичные базы данных
(знаний), аккумулирующие
биологические знания.
Понимание функций и
полезности на уровне
молекул, клетки и
организма
Биоинформатика в будущем
Компьютерное
представление
клетки и организма.
Понимание базовых
принципов высшей
сложности биосистем
Биоинформатика сейчас Биоинформатика в будущем
Высокопроизводительные
экспериментальные установки
Много данных, много форматов
Microarray
Two-Hybrid
Mass
Spectrometry
Genetics
Экспрессия генов, взаимодействия, функция, модификация белков …
Научные
публикации
PubMed
Извлечение знаний
Базы данных
Интеграция
данных
Что надо пользователю?
 Пользователь хочет
 найти, идентифицировать, отобрать,
получить и использовать данные (часто из
разных источников)
 Собственник / администратор
 Описать, обеспечить доступ к данным,
интегрировать данные
 Управлять доступом
 администрировать
 Полезные свойства службы метаданных
Фундаментальные проблемы в
интеграции знаний
 Гетерогенные программные системы




hardware platforms
Операционные системы
Сетевые протоколы
Языки программирования & форматы данных
 Гетерогенная структура и семантика данных





Конфликт
Конфликт
Конфликт
Конфликт
Конфликт
имен
измерений
представления
вычислений
уровней описания
Онтологии в биоинформатике
TAMBIS
KEGG
BioPAX
Дескриптивная логика
Решетка понятий
и отношений
Catalog
Тезаурусы:
BT/NT,
Формальное is-a
Parent/Child,
Disjointness,
фреймы (слоты)
неформальное is-A
Inverse, Part_of
DB Schema
RDF(S)
Ontylog
Термины/
глоссарий
Formal
instances
MeSH,
Gene Ontology,
UMLS Meta
Value
Restriction
Snomed
OWL
CYC
IEEE SUO
Общие
логические
ограничения
фреймы
EcoCyc
Простые
таксономии
Развитые
онтологии
Ontology Dimensions based on McGuinness and Finin
Кто цитирует GO?
450
Gene Expression studies
Clinical applications
Other
GO Tools
Biological Databases
GO Annotation Predictions
Data and Text mining
OBO Ontologies
EST annotation
Proteomics studies
Protein Annotation
GO Consortium
Genome Annotation
1063 публикаций
GO annotations
Comparative genomics and evolutionary analysis
из 284 журналов
Supporting predictions
Network modeling and analysis
overviews of GO
0
50
100
150
200
250
300
350
400
450
http://www.geneontology.org/cgi-bin/biblio.cgi
500
EcoCyc онтология
Возможности:
 EcoCyc: Encyclopedia of Escherichia coli K12 – гены и метаболизм
 Биологи могут отображать структуру хромосом и генов у E.coli
 описание биохимических реакций
 описание метаболических путей и генетической регуляции
Особенности реализации онтологии:
 Использование фреймов
 Обеспечение точных определений при описании понятий и
отношений между ними
 Статическое описание – иерархия задается модельером, а не
выводится системой.
Развитие: BioCyc, MetaCyc, HumanCyc и т.д.
EcoCyc онтология
Иерархия наиболее
важных EcoCyc
классов и их
взаимоотношений
is_a
is_a
is_a
is_a
is_a
Foundational Model of Anatomy
ontology
Включает:
 75,000 анатомических классов
 130 000 уникальных терминов
 более 205,000 фреймов и 174 уникальных слотов, которые
используется для представления различных типов отношений,
атрибутов и атрибутных отношений.
Сеть отношений FMA содержит:
 более 2.5 миллиона экземпляров отношений.
 cвыше 1,000,000 экземпляров классов
 около 450,000 связей между классами.
BioPAX = Biological Pathway Exchange Language
Результатом онтологического анализа предметной области
является:
(1) словарь терминов, их точных определений и
взаимосвязей между ними;
(2) описание правил и ограничений, согласно которым на
базе введенной терминологии формируются достоверные
утверждения, описывающие состояние системы;
(3) модель, которая на основе существующих утверждений
позволяет сделать соответствующие выводы,
позволяющие вносить изменения в систему для
повышения эффективности её функционирования.
BioPAX Ontology: Top Level
Subclass (is_a)
Contains (has_a)

Pathway




Множество или серия взаимодействий, часто формирующих сеть, которую биологи
считают полезной сгруппировать вместе по организационным, историческим,
биофизическим или другим причинам.
Например: Glycolysis, MAPK, Apoptosis
Interaction

Взаимодействие между двумя или множеством сущностей.

Например: protein-protein interaction, biochemical reaction, enzyme catalysis
Physical Entity


Сущность с физической структурой.
Например: Small molecules, Proteins, DNA, RNA
BioPAX Ontology: Physical Entities
PhysicalEntity
is_a
is_a
is_a
Complex
Protein
is_a
RNA
is_a
DNA
Small Molecule
BioPAX Ontology: Interactions
Interaction
is_a
Взаимодействие между
физическими сущностями
Physical Interaction
is_a
Регуляция или
модификация
Control
is_a
Превращение
Conversion
is_a
is_a
Catalysis
is_a
Modulation
is_a
is_a
BiochemicalReaction
is_a
ComplexAssembly
Transport
is_a
TransportWithBiochemicalReaction
utilityClass онтологии BioPAX
CML, SMILE, InChI формат
Дополнительные характеристики в
контексте взаимодействий
Gene Network Reverse Engineering
Use Case
Примеры проектов по развитию
онтологий, осуществляющихся
в ИЦиГ СО РАН
Пример разработки онтологии: генетика
развития растений
В настоящее время основная масса данных по генетике растений представлена только в виде научных
публикаций. Формализация этих данных, накопление в специализированных базах данных и их
последующий анализ является важнейшей задачей биоинформатики.
Функционирование
генов на
различных
уровнях:
мРНК,
белок,
клетка,
ткань,
орган,
организм.
Для разных стадий
развития
Уровень экспрессии
Молекулярная функция
Клеточная функция
Влияние на ткань
Влияние на орган
Влияние на организм
Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov
From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008
AGNS - Arabidopsis GeneNet
Supplementary DataBase
http://wwwmgs.bionet.nsc.ru/agns
База данных по экспрессии
генов в норме и при мутациях
(Expression DataBase)
База данных
фенотипических
аномалий
(Phenotype DataBase)
База данных
публикаций
Стадии развития
Морфология
(Reference DataBase)
Главными особенностями AGNS являются:
- слабоструктурированные данные.
- многообразие и неоднозначность морфологических понятий.
- сложные взаимосвязи морфологических понятий на разных стадиях развития.
Проблемы использования таксономии
для описания морфогенеза
Использование двух несвязанных таксономий с основным отношением
«part_of» при дальнейшем анализе данных приводит к неправильным
логическим построениям, противоречащим биологии морфогенеза.
Например, к утверждению, что растение в разные моменты развития имеет
один и тот же набор органов.
Развитие
Stages < P1
Shoot Apex
Stages >= P1
Shoot Apex
SAM
Leaf
Primordium
SAM Leaf
Primordium
Для системных исследований процессов развития необходимо построение
терминологического описания морфогенеза, как целостной предметной области,
необходимо учесть «динамическую природу» отношения «part_of», так как один
анатомический элемент может быть частью другого на одной стадии, но не быть
таковым на следующей стадии.
Онтология морфогенеза
При создании онтологии использовались
следующие предикаты:
Anatomy_Element1
Development_Stage1
Has_Development_Stage2
(Anatomy_Element x Development_Stage)
Before2 (Development_Stage x Development_Stage)
Occurs_In2 (Development_Stage x Development_Stage)
+ axioms:
(1) xs( Anatomy_ Element( x)  Has _ Development _ Stage( x, s))
(2) s(Occurs_ In(s, s)  Before(s, s))
(3) x, s1 , s2 (Has _ Development _ Stage( x, s1 ) & Has _ Development _ Stage( x, s2 ) & Occurs_ In(s1 , s2 ))
(4)
s1 , s2 ( Before(s1 , s2 ) & Occurs_ In(s1 , s2 ))
(5.1)
s1 , s2 , s3 ( Before(s1 , s2 ) & Before(s2 , s3 )  Before(s1 , s3 ))
(5.2) s1 , s2 , s3 (Occurs_ In(s1 , s2 ) & Occurs_ In(s2 , s3 )  Occurs_ In(s1 , s3 ))
Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov
From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008
Онтология морфогенеза как инструмент для
формулирования сложных запросов к базе данных
Примеры запросов реализованных с использованием онтологии
морфогенеза:
•
•
•
•
•
•
•
S - стадия развития; найти все стадии раньше/позже S
A - анатомический элемент, S - его стадия развития; найти элементы,
принадлежащие A на стадии S
Найти элементы, содержащие A на стадии S
Найти анатомические элементы, из которых развивается А
Найти анатомические элементы, которые развиваются из А
А, B - анатомические элементы; найти стадии, которые претерпевает
A, будучи частью B
Является ли A частью B на некоторой стадии развития B? (подругому: является ли A частью B когда-либо?)
Мутации как причина нарушения
развития
Типы аномалий в
развитии:
Остановка в развитии
группы клеток (клетки):
- терминация развития
растения;
- пропуск стадии в развитии
растения
Ускорение развития группы
клеток (клетки):
- Орган развивается по
другому пути (из листа
превратился в цветок).
- Преждевременное развитие
органов на более ранних
стадиях
Аномалии листа
растения:










Centric
Dentate
Filament
Lobed
Misshapen
Narrow
Radialized
Rounder
Stunted
Variable
Различные типы отношений между
аномалиями
• <быть одинаковым с>
• <быть альтернативным к>
• <быть следствием>
• <исключаться аномалией>
• <быть составной частью аномалии>
• <быть противоположной к>
Нами сформулировано 21 правило для автоматического
установления отношений между двумя заданными аномалиям.
Формирование гипотез на
основе данных AGNS
Сопоставление данных:
 о нормальном развитии,
 о фенотипах мутантов,
 о времени и месте экспрессии генов
позволяет выявить:
 стадию пре-детерминации фенотипической аномалии;
 анатомический элемент, где эта пре-детерминация происходит;
 определить роль гена в формировании признака на стадии его
пре-детерминации.
ANDS: Associative Network Discovery System
Основные возможности:
Автоматическое извлечение знаний о молекулярно-генетических ассоциациях и взаимодействиях из
текстов научных статей и баз данных.
Автоматическая реконструкция семантических сетей молекулярно-генетических ассоциаций и
взаимодействий в клетке.
ANDVisio: приложение для построения
ANDCell: База знаний, содержащая
факты о молекулярно-генетических
ассоциаций и взаимодействий в клетке
Типы отношений
Direct interaction
Catalytic reaction
Cleavage
Treatment
Co-expression
Expression regulation
Function/activity regulation
Degradation/stability regulation
Transport/release regulation
семантических ассоциативных сетей по
запросу пользователя
Объекты
Proteins
Genes
Metabolites
Pathways
Cell components
MicroRNAs
Cells
Organisms
Diseases
Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A., Ignatieva E.V., Podkolodny N.L., Ivanisenko
V.A. DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTION OF MOLECULAR-GENETIC INTERACTION NETWORKS //
PROCEEDINGS OF THE FIFTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp. 15-18.
ANDS: Онтология взаимоотношений между объектами
Direct interaction
Cleavage
Upregulation
Catalytic reaction
Conversion
Co-expression
Treatment
Regulation
Function/activity
Expression
Transport/release
Pathways
Association
Downregulation
Degradation/stability
Diseases
ANDS: Система извлечения и интеграции знаний о
молекулярных взаимодействиях в клетке из
фактографических и текстовых баз данных
Источники данных
PubMed
PubMed
База
База
патентов
патентов
Фактографи
Фактографи
ческие
ческие
БД
БД
Реконструкция
ассоциативных
семантических сетей
Экстракция
данных
Текстовые
данные
Фактографические
данные
Извлечение
Предсказание
Словари
Формирование словарей
Извлечение информации
о молекулярных
взаимодействиях
и генетической
регуляции в клетке
Синтаксические и
семантические
правила
Генерация новых
знаний
Интеграция
гетерогенных данных
Анализ генных сетей
-Топологические измерения
-Топологические модели
-Кластерный анализ
-Поиск структурных мотивов
-Анализ путей
-Анализ регуляторных циклов
Анализ ассоциативных
семантических сетей
•Статистический анализ
•Преобразование сетей
•Логический вывод
Биологическая
интерпретация и генерация
гипотез
- Выявление новых путей передачи сигналов,
регуляторных, транспортных и метаболических
путей в клетке.
Хранилище
данных
Анализ противоречий
-Выявление молекулярных механизмов
патологических процессов
-Поиск фармакологических мишеней
-выбор генов-кандидатов для генотипирования
Методы предсказания
молекулярных
взаимодействий
База знаний
Онтология
Представление знаний
-создания эффективных диагностических систем
- идентификация важных для продуктивности
сельскохозяйственных культур генов
-Анализ и интерпретация результатов
высокопроизводительных экспериментальных
технологий
3 Функциональная
схема
программно-информационного
комплекса
новых
знанийOF A
Aman E.E., DemenkovРис.
P.S., Pintus
S.S., Nemiatov A.I.,
Apasieva
N.V., Dubovenko E.A., Ignatieva E.V.,
Podkolodny для
N.L., генерации
Ivanisenko V.A.
DEVELOPMENT
COMPUTER SYSTEM FORвTHE
AUTOMATED
RECONSTRUCTION
OF
MOLECULAR-GENETIC
INTERACTION
NETWORKS
//
PROCEEDINGS
OF
THE
FIFTH
INTERNATIONAL
области биоинженерии, биотехнологии, агробиологии и биомедицины.
CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp. 15-18.
ANDS:
Словари названий молекулярно-генетических
объектов
Protein names
370097
Gene names
2474201
Disease names
46109
Metabolite names
79914
Organism names
428439
MicroRNA names
4515
90 000
the Gene Ontology
Pathway names
Cell component names
Cell names
(42864 – GO; 47136 – PubMed)
5249
396841-PubMed
ANDS:
Статистика по типам взаимодействий
association
3423732
activity downregulation
44314
involvement
728947
activity upregulation
40564
interaction
242580
expression downregulation
33680
expression regulation
155835
miRNA regulation
23576
pathway regulation
104983
conversion
23519
transport regulation
64801
activity regulation
16982
pathway upregulation
64701
degradation downregulation
8455
pathway downregulation
64289
degradation upregulation
8265
treatment
51162
coexpression
6617
catalyze
49164
cleavage
2170
expression upregulation
46578
degradation regulation
1026
catalyze modification
430
Total
5206370
ANDS:
Text-mining module: relation extraction from text
PMID: 11834451
We have reported previously that insulin inhibits the stimulatory effect of high
glucose levels on angiotensinogen (ANG) gene expression in rat
immortalized renal proximal tubular cells (IRPTCs) via the mitogen-activated
protein kinase (p44/42 MAPK) signal transduction pathway.
Interaction participants:
[Glucose]+[mitogen-activated protein kinase
signal transduction pathway]->Angiotensinogen
glucose
Interaction type: expression upregulation
ANG
mitogen-activated protein kinase
(p44/42 MAPK) signal transduction pathway
Red – object names
Green – organizm name
Blue – pathway name
Interaction attribute:
cell type: immortalized renal
proximal tubular cells
organism: rat
Orange – cell name
Magenta – interaction types keywords
ANDS: Примеры типов отношений между
макромолекулами в ассоциативной
семантической сети
1. физические взаимодействия.
2. химические взаимодействия или реакции.
•Превращения
•каталитические реакции
•расщепление
3. регуляторные взаимодействия.
•регуляция экспрессии генов
•регуляция активности или функции белка, гена, клеточной
компоненты или молекулярно-генетического процесса.
•регуляция транспорта белков или низкомолекулярных веществ
•регуляция стабильности или деградации молекулярных объектов.
•регуляция молекулярно-биологических процессов
4. коэкспрессия, то есть одновременная экспрессия нескольких генов, которая
была вызвана общими регуляторными механизмами, активизирующими
экспрессию генов при меняющихся условиях в клетке.
Система реконструкции механизмов
регуляции транскрипции
Задачи:
 создание онтологии предметной области (сущности, их взаимоотношения,
процессы, их стадии, объекты, их роли в процессах).
 накопление информации об известных механизмах регуляции транскрипции.
выявление групп коэкспрессирующихся генов (со сходной картиной регуляции
транскрипции в клетках или тканях на определенной стадии развития).
 обнаружение закономерностей организации транскрипционных регуляторных
районов у групп коэкспрессирующихся генов.
 реконструкция гипотетических механизмов регуляции транскрипции с учетом:
• данных о ролях и структурах регуляторных белков, присутствующих в заданных
клетках или тканях на определенной стадии развития.
• закономерностях строения регуляторных районов коэкспрессирующихся генов.
N.L. Podkolodnyy, S.S.Nechkin, E.V. Ignatieva, E.A. Ananko, O.A. Podkolodnaya БАЗА ДАННЫХ ДЛЯ ИССЛЕДОВАНИЯ
ОСОБЕННОСТЕЙ ОРГАНИЗАЦИИ ТРАНСКРИПЦИОННЫХ РЕГУЛЯТОРНЫХ РАЙОНОВ КОЭКСПРЕССИРУЮЩИХСЯ ГРУПП ГЕНОВ
// // PROCEEDINGS OF THE SIXTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND
STRUCTURE. 2008
Интеграция гетерогенных источников данных
Гены
Структурно-функциональная
организация районов регуляции
транскрипции
EntrezGene
Полногеномные
последовательности
EntrezGenome
TRRD
Entrez
Chromosomes
Gene ontology
GO terms
CGAP
Уровень
экспрессии
UniGene
Transcription factors
Genes
Transcription
Start Sites
Уровни
экспрессии
Выборки
промоторов
Tissues
Sources
of short DNA
sequences
EMBL/GenBank
DNA sequences
Система реконструкции механизмов регуляции транскрипции. 4 июля 2008г.
Анализ структуры промоторов
коэкспрессирующихся генов
Пример: Регуляция транскрипции гена интерферона  человека.
Пошаговая сборка белковых комплексов, включающих
хроматин-модифицирующие и базальные транскрипционные
факторы на промоторном районе
Стадия 1: сборка энхансосомы
Участники:
Нуклеосома 1
GCN5
Complex
ATF2
NF-KB
Энхансосома
HMGI(Y)
IRF1
Нуклеосома 2
•Белки (транскрипционные
факторы): ATF2, NF-KB, IRF1,
HMGI(Y)
•Участок ДНК (энхансер),
свободный от нуклеосомной
укладки
Результат:
образуется ДНК-белковый
комплекс, способный притягивать
мультибелковый комплекс GCN5
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 2: Ацетилирование гистонов с участием комплекса GCN5
Участники:
Нуклеосома 1
Ac
ATF2
NF-KB
Энхансосома
GCN5
Complex
HMGI(Y)
IRF1
Нуклеосома 2
CBP
•Гистон-ацетилазный комплекс:
GCN5
•N - концевые участки гистоновых
белков
Ac
Результат:
ДНК-белковый комплекс
приобретает конформацию,
оптимальную для привлечения
белка-коактиватора CBP
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 3: Привлечение комплекса CBP/ Pol II
SWI/SNF
Нуклеосома 1
•Комплекс: ДНК / энхансосома
ATF2
CBP
NF-KB
Энхансосома
Участники:
HMGI(Y)
IRF1
Pol II
Holoenzyme
•Белок-коактиватор: CBP
•Белковая машина: холоэнзим,
включающая белок Pol II
Результат:
Создается возможность для
привлечения SWI/SNF комплекса
Нуклеосома 2
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 4: Привлечение комплекса SWI/SNF
Участники:
Нуклеосома 1
•Хроматин-ремоделирующая
белковая машина SWI/SNF.
•Комплекс ДНК/энхансосома/ CBP
SWI/SNF
ATF2
CBP
NF-KB
Энхансосома
HMGI(Y)
IRF1
Pol II
Holoenzyme
SWI/SNF
Нуклеосома 2
Результат:
Создается возможность для
функционирования белковой
машины SWI/SNF
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 5: Ремоделирование хроматина (нуклеосомной укладки) с
участием хроматин-ремоделирующей белковой машины SWI/SNF
Участники:
Нуклеосома 1
Хроматин-ремоделирующая
белковая машина SWI/SNF.
Нуклеосомы
SWI/SNF
ATF2
CBP
NF-KB
Энхансосома
Pol II
Holoenzyme
HMGI(Y)
IRF1
SWI/SNF
Нуклеосома 2
Результат: Нуклеосомы
разрыхляются, TATA бокс
становится доступным для
взаимодействия с TFIID.
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 6: Привлечение белка TFIID
Участники:
Нуклеосома 1
ATF2
•Промотор гена, включающий ТАТА
бокс
CBP
NF-KB
Энхансосома
HMGI(Y)
IRF1
TFIID
Нуклеосома 2
Pol II
Holoenzyme
•Базальный транскрипционный
фактор TFIID.
Результат:
Становится возможным
формирование преинициационного
комплекса
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 7: Формирование преинициационного комплекса
Участники:
Нуклеосома 1
•Комплекс ДНК/белок: ТАТА бокс/
TFIID
•Белковая машина: холоэнзим
ATF2
CBP
NF-KB
Энхансосома
HMGI(Y)
IRF1
TFIID
Нуклеосома 2
Результат:
Становится возможной инициация
транскрипции
Пример: Регуляция транскрипции гена интерферона  человека.
Стадия 8: Инициация транскрипции
Участники:
•РНК полимераза Pol II
•Матричная цепь ДНК
Результат:
TFIID
Синтезируются первые 2-9
нуклеотидов РНК
Спасибо за внимание!