워크숍 8 2015_한국문헌정보학회추계학술대회발표용_김수연

Download Report

Transcript 워크숍 8 2015_한국문헌정보학회추계학술대회발표용_김수연

2015.10.22 한국문헌정보학회 추계학술대회
텍스트마이닝 기법을 이용한 생물정보학
분야 지식구조 분석*
김수연
([email protected])
연세대학교 한국사회과학연구지원 (SSK) 전임연구원
* 이 연구는 2012년 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2012S1A3A2033291)
목차
1. 서론
2. 연구방법
1. LDA
2. Entitymetrics
3. 실험설계
4. 실험결과
1. 인용정보기반 개념 네트워크 (CBCN)
2. 의미관계기반 개념 네트워크 (SRCN)
5. 결론 및 논의
참고문헌
2
서론: 연구 목적
생물정보학 분야의 핵심 개념 발견


인용정보 기반 Concept Entitymetrics로 인용정보기반 개념 네
트워크(Citation Based Concept Network : CBCN) 생성
생물정보학 분야의 주제 분석



토픽모델링 기법 이용
기존 토픽모델링 기법의 결과해석 과정의 한계를 극복하기
위해 UMLS semantic relation정보를 이용한 개념 네트워크
(Semantic Relation Concept Network : SRCN) 생성


3
Metathesaurus의 개념정보(CUI)를 이용함으로써 동의어, 유사어
처리 가능
생의학(Biomedicine) 분야에 특성화 된 분석이 가능
서론: 생물정보학 (Bioinformatics)

Bioinformatics is a multifaceted discipline combining many scientific fields
including computational biology, statistics, mathematics, molecular biology,
and genetics. (Fenstermacher, D. , 2005, p.440)

Bioinformatics is a scientific discipline that deals with the use of informatics
for the analysis and organization of biological data. (Perez-Iratxeta et al. , 2007, p88)
Bioinformatics 분야는 빠르게 성장하고 있으며, interdisiciplinary한 분야
임 (Luscombe, N. M., Greenbaum, D., & Gerstein, M., 2001)

지난 15년 동안 bioinformatics, computational biology 분야는 많은 변화
가 있었으며, 그 자체로 새로운 생물학의 주요 분야가 됨 (Ouzounis, C.A.,
2012)

4
서론: 연구 배경
학문분야 주제분석 연구(science mapping, intellectual
structure analysis, topic discovery, topic detection 등)


Level (Ding,Y. et al. 2013)




Method


5
Macro level: author, journal
Meso level: keywords
Micro level: biomedical entities (gene, drug, disease 등)
Bibliometric: co-word clustering, author co-citation network 등
Text mining: topic modeling (LDA, DMR 등)
서론: 이전 연구 한계점
Bibliometrics 방법을 이용한 주제분석의 한계



계량적 방법을 이용한 초기 연구들은 내용기반 분석을 하
지 않고 단순히 핵심저널, 핵심문헌, 생산성이 높은 저자, 기
관, 국가 등을 파악하고자 함
인용정보를 이용해서 내용기반 분석을 시도하였으나, 분석
의 범위가 주제단위가 아닌 저널단위, 문헌 단위 , 저자 단
위임

6
문헌의 피인용 횟수, 저자의 피인용 횟수, 저자의 생산성 등
서론: 최근 연구
Text mining 기법들을 이용해서 내용분석을 시도함
다양한 Topic modeling 기법들 : LDA (Blei et al. (2003) ,
Conference LDA, Author –Topic model (Rosen-Zvi. Et al., 2004) ,
ATNLDA(Auto Topic Number LDA) (Wu, H. et al., 2010) , AuthorConference-Topic (ACT) model (Tang et al. , 2008) ,
DMR(Dirichlet Multinominal Regression) (Mimno and McCallum, 2008)



한계점

Bag of words의 개념으로 topic 분석
Bio literature 대상 연구


7
최근의 bio literature 연구에서의 bio entity의 중요성 부각
(Micro level분석) (Ding,Y., et al., 2013)
Song, M., Kim, S.Y., Zhang, G., Ding, Y., and Chambers, T. (2014)
Productivity and Influence in Bioinformatics: A Bibliometric Analysis
using PubMed Central. JASIST. 65(2):352-371
title, abstract에 있는 words
8
Yan, E., Ding, Y., Milojević, S., & Sugimoto, C. R. (2012). Topics in
dynamic research communities: An exploratory study for the field of
information retrieval. Journal of Informetrics, 6(1), 140-153.
9
서론: Topic modeling 결과 해석

장점


제한점





topic 수나 topic에 속한 분석대상 단어의 수를 조정할 수 있음
각 topic에 속한 단어들끼리의 관계는 알 수 없음
동의어, 유사어 등의 처리가 되지 않음
Bio data의 경우 주제의 특성을 나타내는 단어들이 토픽 내 상위
단어가 되지 않을 수 있음  상위 n개의 단어들을 주제 해석의
대상으로 하기 때문에 문제가 될 수 있음
MeSH의 계층정보를 이용하거나(Newman, D. et al., 2009) cosine 유사계수
를 이용하여 유사도 정보를 이용한 연구(Yan, E. et al., 2012)는 있음
단어들 사이의 관계를 이용한 연구는 없음
10
서론: 용어정의_ 개념 네트워크


Node
 개념(concept: UMLS CUI concept)
Edge
 개념 간 관계




UMLS의 semantic type간 semantic relation

Concept간 인용관계
인용정보 기반 개념 네트워크 (Citation Based Concept Network)
Node weight



의미관계 기반 개념 네트워크 (Semantic Relation based Concept
Network)
의미관계 기반 개념 네트워크

연결정도 중심성 (Degree Centrality)

InDegree
인용정보 기반 개념 네트워크
Edge weight

인용정보 기반 개념 네트워크

11
인용빈도
서론: 개념 네트워크 예시
의미관계정보 기반 개념 네트워크 (SRCN) 인용정보 기반 개념 네트워크(CBCN)
12
연구방법:
LDA (Latent Dirichlet Allocation)
13
표시
d
문헌
w
단어
z
토픽
(Blei et al. 2003)
의미
Nd
문헌 내 단어 수
α
Dirichlet 분포로부터 Θ 가 생성될 사전 분포 모수
β
Dirichlet 분포로부터 φ 가 생성될 사전 분포 모수
Θ
토픽의 다항분포
φ
단어의 다항분포
D
문헌 집합
T
토픽 집합
연구방법: Entitymetrics



(Ding, Y. et al., 2013)
Knowledge discovery를 위해 entity(micro level)의 중요성을 강조
학술문헌이 다루는 entity를 Evaluative entity, Knowledge entity로 나누고,
3개 수준 macro level(author, journal, reference), meso level(keywords),
micro level(dataset, method, biomedical entities) 으로 구분
entity-entity citation network (bio-entity citation network)구축
14
실험설계: 데이터

PubMed Central




2000-2011
18,323 records
48 journal
citation data

15
313,088 records
실험설계
16
실험설계: UMLS


(The Unified Medical Language System)_1
메타시소러스(Metathesaurus), 의미망(Semantic Network), 전문가사전
(Specialist Lexicon)으로 구성된 Knowledge Source로 60개 이상의 의학
관련 시소러스, 분류표 등에 수록된 개념을 연계한 통합개념체계
메타시소러스의 구조
2013 AB
Concepts: 2,930,638
Semantic type: 133
Semantic relation: 54
17
실험설계: UMLS


(The Unified Medical Language System)_2
의미망은 Semantic type 과 Semantic relationship으로 구성됨
Semantic type 의 구조 (일부)
Semantic relationship의 구조(일부)
18
실험설계 : CBCN_Entitymetrics 적용_1
Target node), (Source node
Paper 2
(Source node
Paper 1
concept A
concept B
Concept C
19
concept A
citing
concept D
Target node)
Paper 4
concept B
concept D
Source
Target
Weight
P1_concept A
P2_concept A
P3_concept B
P4_concept B
2
concept B
P1_concept A
P1_concept A
P2_concept A
P2_concept D
P3_concept D
P4_concept D
3
concept D
P1_concept B
P2_concept A
1
P1_concept B
P1_concept B
P2_concept D
P3_concept D
2
P1_concept C
P2_concept A
1
P1_concept C
P3_concept B
1
P1_concept C
P1_concept C
P2_concept D
P3_concept D
2
P2_concept D
P4_concept B
1
Target node)
Paper 3
실험설계 : CBCN_Entitymetrics 적용_2

Source node



Data collection에서 인용을 많이 받은 논문 10개를 Source
node로 선정함.
Entity metrics를 그리기 위해서 weight 값 상위 100개
edges를 표현 (인용관계가 많은 edges)
Concept node의 grouping을 위해서 modularity 사용
(Newman 2006)
20
실험설계 : CBCN_Entitymetrics 적용_3
CBCN_Source node
No.
No.cited
Main document
1
1008
Gene Ontology: tool for the unification of biology
5566
12904
2
463
Initial sequencing and analysis of the human genome
5942
12652
3
397
1819
2817
4
394
3209
5826
5
333
1404
2450
6
303
3633
6784
7
287
3770
7015
8
282
1831
3084
9
256
A comparison of normalization methods for high density
oligonucleotide array data based on variance and bias
1947
3237
10
21
239
Statistical significance for genomewide studies
1731
2717
Bioconductor: open software development for computational
biology and bioinformatics
Significance analysis of microarrays applied to the ionizing
radiation response
Cytoscape: a software environment for integrated models of
biomolecular interaction networks
BLAT—the BLAST-like alignment tool
Initial sequencing and comparative analysis of the mouse
genome
Exploration, normalization, and summaries of high density
oligonucleotide array probe level data
No.document
No.link
실험설계 : SRCN
term 1
…
term n
concept 1 …
Doc 1
Doc 1
…
…
Doc m
Doc m
문헌-용어행렬
topic 1
문헌-개념행렬
LDA
topic
1
topic
2
…
22
의미기반 개념 네트워크 생성 (SRCN)
topic topic
3
4
topic
5
…
concept
topic
6
concept k
topic
7
topic topic
8
9
topic
10
concept
토픽모델링 결과 리스팅
실험결과: LDA 결과(term, concept) _1
Topic 1
microarray
expression
gene
data
genes
analysis
dna
experiments
method
cdna
oligonucleotide
cancer
microarrays
methods
based
pcr
clustering
statistical
hybridization
studies
title, abstract에 있는 words
23
Topic 1
genes
genome
dna sequence
biological evolution
homo sapiens
base sequence
gene expression
expressed sequence tags
genome, human
transcript
mammals
house mice
elements
sequencing - codesystem
dna
cdna library
analysis of substances
protein domain
electroconvulsive therapy
site
c0017337
c0017428
c0162326
c0015219
c0086418
c0004793
c0017262
c0600510
c0017429
c1519595
c0024660
c0025914
c0013879
c1553778
c0012854
c0751608
c0002778
c1514562
c0013806
c0205145
UMLS의 Concept
UMLS의 CUI
실험결과: LDA 결과(term, concept) _2
term
concept
gene, genes
genes, gene expression, genetic polymorphism,
candidate gene identification, clock gene
protein,
proteins
proteins, protein domain, membrane proteins,
protein-protein interaction, g-protein-coupled receptors,
membrane transport proteins, protein expression, protein precursors
cell, cells
cells, cell differentiation process, cell line, b-cell lymphomas, cell death, cell
nucleus, cell proliferation, clone cells
disease,
diseases
disease, communicable diseases, adrenal cortex diseases,
disease transmission qualifier, virus diseases, alzheimer's disease
sequence,
sequences
dna sequence, base sequence, amino acid sequence,
expressed sequence tags, sequence alignment, sequence analysis, sequence
similarity
dna, cdna
dna sequence, dna, dna microarray chip, cdna library,
cdna microarray device, dna replication, dna, complementary
24
실험결과: CBCN_1

Source node: No.2




25
Genes
Gene Expression
MicroRNAs
DNA sequence
실험결과: CBCN_2

Source node: No.4


26
Genes
Gene Expression
실험결과: CBCN_3

Source node: No.7





27
Genes
Genome
Gene Expression
Drug Interaction
Transcription Factor
실험결과: SRCN (00~02_topic 1)_1
00-02 (암 유전체학 Oncogenomics)
Term T1
cell
cells
dna
immune
apoptosis
cancer
iap
human
molecules
tumor
class
tissue
Concept T1
drug interactions
amino acid sequence
mechanism (attribute)
binding sites
transcription factor
genome
malignant neoplasms
escherichia coli
network
type 1
growth factor
dna
1
anatomical compartments
2
system
mhc
3
type
rat
transcriptional
blast (physical force)
protein expression
molecular
markers (device)
screening for cancer
data
electron transport
28
Term의 경우 Concept과는 달리 단어가 파싱되면서
의미를 잃어버리는 경우가 있음, Bio 데이터의 경
우 전문용어에 숫자가 등장하는 경우가 많으므로
일률적으로 불용어 처리를 할 수 없음
단어의 단,복수 형이 모두 포함됨
Concept에서는 oncogenomics에 더 세부적인 사항
을 설명할 수 있는 개념이 토픽을 설명하는 상위
개념에 존재하기 때문에 토픽에 대한 해석이 더
수월해짐
ex) malignant neoplasm(악성 신생물)이 작용하면
protein expression(단백질발현)이나 transcription
factor(전사인자)에 영향을 미침
실험결과: SRCN (00~02_topic 1)_2
•
affect
•
•
29
이전 연구에서는 토픽의 상위
단어만을 대상으로 해당 토픽의
내용을 해석했다면,
SRCN 구 축 을 통 해 Concept
network에서 semantic relation 정
보를 확인할 수 있고, 이는 해당
토픽의 내용 해석에 도움이 될
뿐만 아니라, 해당 토픽을 설명
하는 주제적인 중심 개념을 파
악 할 수 있게 함
malignant neoplasm(악성 신생물)
노드와 protein expression(단백
질발현), transcription factor(전사
인자) 노드들은 네트워크 상에
서 affect 의미관계로 연결되어
있음
실험결과: SRCN (09~11_topic 9)_3
09-11 (bioinformatics/technology)
Term T9
database
bioinformatics
alignment
information
based
sequence
web
algorithm
online
software
interface
motivation
Concept T9
control act - information
bio-informatics
motivation
algorithm
databases
data
methods
availability of
summary - actrelationshipsubset
computer software
interface device component
alignment
structure
dna sequence
protein
sequences
data
methods
annotation
user
biological
as much as desired
genome
system
technology
analysis of substances
research personnel
implementation
30
•
•
Concept의 semantic type 에 따라 의미관계를 파
악할 수 있으며, 의미적으로 중심적인 개념을
파악할 수 있음
각 토픽의 주제적 특징에 따라 네트워크도 다른
특징을 보임
실험결과:
SRCN
(00~02)_4
D
B
A
C
실험결과:
SRCN
(03~05)_5
C
D
B
A
실험결과:
SRCN
(06~08)_6
C
D
B
A
실험결과:
SRCN
(09~11)_7
A
B
C
D
결론 및 논의_1





특정 연구영역의 핵심 개념 파악을 위해 전역적 관점에서 피인용빈도
가 높은 중심 문헌을 이용한 새로운 인용문헌 집단 구축 방법을 제안
Ying et al. (2013)의 개체계량학(Entitymetrics)적 관점을 도입하여 문헌
간 인용 관계를 통한 개념 간 인용 관계 분석을 통해 Citation Based
Concept Network(CBCN)을 생성
인용정보를 이용한 개념 네트워크 분석을 통한 생물정보학 분야 핵심
개념은 Gene(유전자), Gene Expression(유전자 발현), MicroRNA(마이크
로RNA), Genome(유전체)
인용문헌 집단의 중심 문헌은 생물정보학의 방법론이 강조된 문헌이
었지만 이들 논문에서 다루는 핵심개념은 생물학 분야의 개념
단어 기반 토픽모델링 실험과 개념 기반 토픽 모델링 실험 결과를 비교
하면, 주제로 도출된 단어는 개념에 비해 토픽에 중복적으로 나타나 주
제 해석에 있어 효율성이 떨어지는 단점이 있었고, 주제로 도출된 개념
은 단어에 비해 주제 특징적인 의미를 더 잘 표현
35
결론 및 논의_2





SRCN를 통해 각 concept 간의 관계 파악 뿐만 아니라, 그 주제를 설명
하는 중심 개념 노드를 파악할 수 있음
또한 각 토픽 내 개념들 간 그룹화가능
해당 주제분야의 전문가가 아니더라도, 전체 구조를 보고 주제분야를
더 쉽게 파악할 수 있음
각 시기별 통합 SRCN을 분석한 결과 방법론적 개념들로 이루어진 A영
역, “analysis of substances”개념이 중심이 된 B영역, 생물학적 내용의 개
념들이 군집을 이룬 C영역, 시기별로 다른 특징을 보이는 D영역으로
구분됨
시기별로 생물정보학의 방법론적 주제의 SRCN은 특정 개념(technology,
science of statistics)을 중심으로 모두 issue_in 관계를 가짐 반면, 생물학
적 주제를 다루는 SRCN은 개념 간 서로 다양한 의미관계를 가짐
36
결론 및 논의_3

전 시기에 걸쳐 주제로 도출된 생물학적 내용의 주제는 암유전체학
(oncogenomics), 유전체학(genomics), 단백질체학(proteomics)이며, 질병
과 관련된 토픽은 3시기와 4시기에 나타났다. 시스템 생물학(system
biology)과 관련된 주제는 시기에 따라 세부분야가 달라짐


제한점


1시기: 면역관련, 2시기: 신경계 관련, 3시기: 대사 시스템 관련, 4시기: 신경계 관련
시스템 생물학과 대사 시스템 관련 시스템 생물학
인용빈도 상위 10개의 논문만을 대상으로 상위 100개의 edge 정보만을 대상으로 분
석했기 때문에 세부 주제 노드들의 중요도가 낮게 측정되었을 수 있음
미래연구





새로운 주제 출현 파악을 위해 Wikipedia를 이용한 연구
Co-concept를 이용한 확장연구
Topic별 저자들 사이의 인용관계 분석 연구
Gene Ontology를 이용한 entity metrics 연구
Topic modeling의 결과평가 방안에 관련된 연구
37
Reference

Blei, D.M., Ng, A.Y., & Jordan, M.I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1033.

Ding, Y., Song, M., Han, J., Yu, Q., Yan, E., Lin, L., & Chambers, T. (2013). Entitymetrics: Measuring the impact of entities. PloS one,
8(8), e71416.

Fenstermacher, D. 2005. “Introduction to bioinformatics.” Journal of American Society for Information Science and Technology,
56 (5): 440–446.

Luscombe, N. M., Greenbaum, D., & Gerstein, M. (2001). What is Bioinformatics? A Proposed Definition and Overview of the
Field. Methods of Information in Medicine, 40(4): 346-358.

Mimno, D.M., & McCallum, A. (2008). Topic models conditioned on arbitrary features with Dirichlet-multinomial regression.
UAI, 2008, 411–418.

Ouzounis, C. A. 2012. “Rise and Demise of Bioinformatics? Promise and Progress.” PLoS Computational Biology, 8(4): 1-5.
e1002487.

Perez-Iratxeta, C., Andrade-Navarro, M. A., & Wren, J. D. (2007) Evolving research trends in bioinformatics. Briefings in
Bioinformatics. 8 (2), 88-95.

Rosen-Zvi, M., Griffiths, T., Steyvers, M., & Smyth, P. 2004. “The author-topic model for authors and documents.” In Proceedings
of the 20th conference on Uncertainty in artificial intelligence, 487-494.

Song, M., Kim, S., Zhang, G., Ding,Y., & Chambers, T. (2014). Productivity and influence in bioinformatics: A bibliometric analysis
using PubMed central. Journal of the Association for Information Science and Technology, 65(2), 352-371.

Tang, J., Jin, R., & Zhang, J. 2008. “A topic modeling approach and its integration into the random walk framework for academic
search.” In Eighth IEEE International Conference on Data Mining, 1055-1060.

Wu, H., Wang, M., Feng J., & Pei, Y. (2010). Research topic evolution in "bioinformatics". 2010 4th International Conference on
Bioinformatics and Biomedical Engineering(iCBBE). IEEE.

Yan, E., Ding, Y., Milojević, S., & Sugimoto, C. R. (2012). Topics in dynamic research communities: An exploratory study for the
field of information retrieval. Journal of Informetrics, 6(1), 140-153.
38