Protein Function Prediction to Assist Drug Discovery

Download Report

Transcript Protein Function Prediction to Assist Drug Discovery

ISI Laboratory
Seminar
A New Domain Combination
Annotation for efficiency PPI
Prediction
Jung Hwie Sung
ISILAB
ISI Laboratory
Seminar
•
•
•
•
Contents
Background
Motivation
Approach
Future Work
2
ISI Laboratory
Seminar
Background
• Domain Combination
DC p  dc | dc  PowerSet (domain( p))
dc_pair(p, q)   dci , dc j  |  dci , dc j  DC p  DC q or DC q  DC p 
, where dci , dc j  DC p or DC q
3
ISI Laboratory
Seminar
Background
• Weighted Domain Combination Pair
all_conf (dc) 
{ p | p  P  dc  PowerSet (domain( p))}
MAX ({i | l (l  PowerSet (dc)  i | {q | q  P  l  PowerSet (domain(q))} |})
WDCP  p, q  i , j 
all_conf (dci )

 all_conf (dcu )
dcu DC p
all_conf (dc j )
 all_conf (dc )
dcv DCq
v
4
ISI Laboratory
Seminar
Background
• Domain Combination Pair Power
DCPPW  p, q  i , j 
WDCP  p, q  i , j  | I_pair (dci , dc j ) |
WDCP  p, q 
 dcu , dcv dc_pair( p , q )
u ,v
 | I_pair (dcu , dcv ) |
I_pair (dci , dc j )  { pu , qv  |  dci , dc j  dc_pair ( pu , qv )}
5
ISI Laboratory
Seminar
Motivation
• 기존의 도메인 조합을 이용한 PPI예측 방법의 문제점
– 복잡도(Complexity)
 Uniprot의 Yeast 종: 약 5000개
 Pfam Domain: 약 2000개
 단백질의 평균 Domain수: 1.4개
DC p  dc | dc  PowerSet (domain( p))
• 8% 정도의 단백질이 10개 이상의 도메인을 가짐
dc_pair(p, q)   dci , dc j  |  dci , dc j  DC p  DC q or DC q  DC p 
, where dci , dc j  DC p or DC q
(2  1)  (2  1)  2  1000000
10
10
20
6
ISI Laboratory
Seminar
Motivation
• 기존의 도메인 조합을 이용한 PPI예측 방법의 문제점
– 복잡도(Complexity)
 Uniprot의 Yeast 종: 약 5000개
 Pfam Domain: 약 2000개
 단백질의 평균 Domain수: 1.4개
• IS Matrix 생성시 각 행과 열은 발견된 도메인 조합
쌍
2000
C2  2,000,000
7
ISI Laboratory
Seminar
• DC의 수가 많을 경우 의미없는 도메인 정보를 제공
8
ISI Laboratory
Seminar
Motivation
• 모호성(Ambiguity)
WDCP  p, q  i , j 
all_conf (dci )

 all_conf (dcu )
dcu DC p
all_conf (dc) 
all_conf (dc j )
 all_conf (dc )
dcv DCq
v
{ p | p  P  dc  PowerSet (domain( p))}
MAX ({i | l (l  PowerSet (dc)  i | {q | q  P  l  PowerSet (domain(q))} |})
DCPPW  p, q  i , j 
WDCP  p, q  i , j  | I_pair (dci , dc j ) |
WDCP  p, q 
 dcu , dcv dc_pair( p , q )
u ,v
 | I_pair (dcu , dcv ) |
I_pair (dci , dc j )  { pu , qv  |  dci , dc j  dc_pair ( pu , qv )}
– 확률적으로 많이 나오는 도메인의 비중을 높여줌
9
ISI Laboratory
Seminar
Motivation
• 도메인 상호 작용은 빈도 외에 구조적 영향을 많이 받을 수
있다.
10
ISI Laboratory
Seminar
Approach
• Weighted Domain Combination Table
Domain Combination
Weight
PF00069-PF00053
0.3421
PF00069-PF00032
0.557
PF00031-PF00053
0.811
PF00031-PF00032
1.0
PF00069,PF00031-PF00053
0.311
PF00069,PF00031-PF00032
0.765
……….
……….
11
ISI Laboratory
Seminar
Approach
• PPI 정보
• Domain 정보
• DOMAIN의 Domain Interaction 정보
• Ipfam의 primary DC pair 정보
• Pfam의 Superfamily 정보
12
ISI Laboratory
Seminar
Approach
1.0
0.42
0.14
0.25
0.56
WDCP Equation
DCPPW Equation
IS Matrix
0.52
0.12
0.3
0.01
…
0.12
0.34
0.13
0.41
…
0.3
0.13
0.13
0.55
…
0.01
0.41
0.55
0.62
…
0.53
0.44
0.31
0.66
…
…
…
…
…
…
0.834
0.622
0.513
0.872
0.13
13
ISI Laboratory
Seminar
Approach
IS Matrix
0.834
0.622
0.513
0.872
0.13
0.52
0.12
0.83
0.01
…
0.12
0.34
0.62
0.41
…
0.83
0.62
0.13
0.55
…
0.01
0.41
0.55
0.62
…
0.53
0.51
0.31
0.66
…
…
…
…
…
…
IP: 0.934
14
ISI Laboratory
Seminar
DDI
Approach
Primary
DC
Super
family
Domain Combination
Weight
PF00069-PF00053
0.3421
PF00069-PF00032
0.557
PF00031-PF00053
0.811
PF00031-PF00032
1.0
PF00069,PF00031PF00053
0.311
PF00069,PF00031PF00032
0.765
……….
……….
Weight Equation
15
ISI Laboratory
Seminar
Approach
Domain Combination
Weight
PF00069-PF00053
1.0
PF00069-PF00032
1.0
PF00031-PF00053
1.0
……….
……….
• Domain Combination Pair의
Standard Table
PF00031-PF00032
1.0
PF00069,PF000310.311
PF00053
• 빠른 계산 결과
PF00069,PF000310.765
PF00032
• 향상되는 정확도
16
ISI Laboratory
Seminar
•
•
•
•
Future Work
Domain Combination Pair에 Weight를 부여하는 식 고안
Table 완성
IP 값을 구하는 식 고안
기존 PreSPI와의 비교를 통한 검증
17