텍스트 마이닝을 활용한 바이오 네트워크 구축

Download Report

Transcript 텍스트 마이닝을 활용한 바이오 네트워크 구축

Hyunjin Kim
Dept. of Computer Science
Yonsei Univ., Seoul
South Korea
발표를 하는 목적?
Bioinformatics 에 대한 이해
Data Mining과 Bioinformatics와의 관계
Bioinformatics의 분야 중 하나인 Biomedical Text Mining
Biomedical Text Mining으로 바이오 네트워크를 구축 가능
미리 알아두어야 할 것
스완슨 박사의 ABC 모델
한눈에 보기
3. 새 관계 찾기
1. 바이오 개체 이름 및 텍스트 데이터 확보
질병 이름
유전자 이름
의약품 이름
…
낭성 섬유증
BRCA1
아모바르비탈
…
급성 심낭염
TP53
실데나필구연산염
…
…
…
…
…
+
개체 A
개체 B
급성 심낭염
BRCA1
BRCA1
실데나필구연산염
…
…
급성 심낭염 – BRCA1
BRCA1 – 실데나필구연산염
2. 관계 추출
급성 심낭염 – 실데나필구연산염
4. 바이오 네트워크 구축
BRCA1
급성 심낭염 – BRCA1
JUN
Leukemia
BRCA1 – 실데나필구연산염
HIV
CANCER
FLJ13052
COPD
CHD3
TP53
SLE
1. 바이오 개체 이름 및 텍스트 데이터 확보
2. 관계 추출
데이터 종류
급성 심낭염 – BRCA1
데이터베이스 이름
PubMed
생물 의학 문헌
MEDLINE
EMBASE
HGNC
Gene Ontology
BRCA1 – 실데나필구연산염
유전자 명
CTD
PharmGKB
OMIM
CTD
의약품 명
PharmGKB
DailyMed
PubPK
RCSB
* 텍스트 데이터가 존재해야
거기서 정보를 추출!
단백질 명
HPRD
wwPDB
Disease Ontology
CTD
질병 명
PharmGKB
OMIM
* 바이오 개체 이름이 있어야
관계를 추출!
MEDIC
miRNA 이름
miRBase
miRecords
2. 관계 추출
질병 리스트
텍스트 데이터
골육종은 주로 슬관절 주위에 발생하며, 수부에
발생하는 경우는 드물다. 수부에 발생한 골육종
환자들은 종종 수부의 통증이나 종창 등의 증상을
호소하며, 일반적인 위치에 발생한 골육종과는 다
른 생물학적 특성을 가진다. 수부에 발생한 골육
종은 대개 일반적인 골육종보다는 더 고령에서 발
생하지만 전형적인 골육종처럼 수부에서 가장 성
장이 활발히 일어나는 제2, 3 수지의 중수지 관절
에서 가장 잘 발생한다. 그러나 고령의 환자에서
수부의 중수골에 발생한 골육종에 대한 경우는 아
직 국내에 보고된 바가 없다. 이에 저자들은 고령
의 환자에서 중수골에 발생한 골육종에 대해 술
전 및 술 후 화학요법과 수지 열 절단술로 치료한
2예의 증례를 보고하고자 한다.
PubMed
전립선 암
종창
골육종
…
치료법 리스트
전기요법
증상 리스트
수부 통증
미열
구토
…
화학요법
열 절단술
…
2. 관계 추출
텍스트 데이터
골육종은 주로 슬관절 주위에 발생하며, 수부에
발생하는 경우는 드물다. 수부에 발생한 골육종
환자들은 종종 수부의 통증이나 종창 등의 증상을
호소하며, 일반적인 위치에 발생한 골육종과는 다
른 생물학적 특성을 가진다. 수부에 발생한 골육
종은 대개 일반적인 골육종보다는 더 고령에서 발
생하지만 전형적인 골육종처럼 수부에서 가장 성
장이 활발히 일어나는 제2, 3 수지의 중수지 관절
에서 가장 잘 발생한다. 그러나 고령의 환자에서
수부의 중수골에 발생한 골육종에 대한 경우는 아
직 국내에 보고된 바가 없다. 이에 저자들은 고령
의 환자에서 중수골에 발생한 골육종에 대해 술
전 및 술 후 화학요법과 수지 열 절단술로 치료한
2예의 증례를 보고하고자 한다.
질병 리스트
전립선 암
종창
골육종
…
치료법 리스트
전기요법
증상 리스트
수부 통증
화학요법
열 절단술
미열
구토
…
추출된 관계들
골육종 – 종창
골육종 – 수부 통증
종창 – 수부 통증
골육종 – 화학요법
골육종 – 열 절단술
화학요법 – 열 절단술
…
3. 새 관계 찾기
추출된 관계들
골육종 – 종창
골육종 – 수부 통증
종창 – 수부 통증
골육종 – 화학요법
골육종 – 열 절단술
화학요법 – 열 절단술
ABC 모델 적용!
종창
수부 통증
화학요법
열 절단술
골육종
종창
수부 통증
화학요법
열 절단술
종창 – 수부 통증
종창 – 화학 요법
종창 – 열 절단술
수부 통증 – 화학 요법
수부 통증 – 열 절단술
화학 요법 – 열 절단술
4. 바이오 네트워크 구축
추출한 관계들
골육종 – 종창
골육종
종창
골육종 – 수부 통증
종창 – 수부 통증
골육종 – 화학요법
골육종 – 열 절단술
수부 통증
화학요법 – 열 절단술
화학 요법
종창 – 화학 요법
종창 – 열 절단술
수부 통증 – 화학 요법
열 절단술
수부 통증 – 열 절단술
• 단순한 시각화 효과
• 네트워크를 이용하여 새로운 결과 내기
결론
현재 연구들
다양한 데이터들을 함께 활용하거나,
기존 바이오 개체 관계들에서 새로운 관계를 찾아
네트워크를 보강하는 것에 집중하거나,
바이오 개체 간의 유사도, 신뢰도, 방향성 등을 구하여
새로운 형태의 바이오 네트워크를 구축하는 연구들이 대부분.
아이디어 방향?
구글(Google)의 검색(Search) 데이터나
SNS(Social Network Service) 데이터 등의 색다른 데이터 활용
생물 의학 분야에서 자주 쓰이는 기법들이 아닌
그래픽스나 사운드, 계산이론 등에서 쓰이는 색다른 기법을 적용
생물 의학적 텍스트 마이닝으로 구축된 바이오 네트워크 검증 방법 연구
Biomine : Predicting links between biological entities using network models of heterogeneous databases
Eronen et al., BMC Bioinformatics, 2012.
The Authors introduced Biomine, a system that integrates data from
several databases under a common graph data model with the goal of
enabling discovery and evaluation of connections spanning multiple
types of relationships derived from different source databases.
INTRODUCTION
The contributions can be summarized as follows.
1. The authors introduced Biomine, an integrated network of biological
entities from heterogeneous source databases.
2. The authors evaluated Biomine in 2 challenging link discovery settings.
Protein interaction and gene-phenotype relationsip prediction.
3. The authors showed how to apply Biomine to the task of disease gene
prioritization and proposed new clustering based gene prioritization
method which is applicable when there is no pre-existing reference
set of known disease genes available.