Transcript Document

蛋白質功能預測開發環境
971506 謝長鴻
971502 卓彥甫
971534 黃希鈞
指導教授:歐昱言
專題目的
開發一個程式環境幫助生物學
家可以利用簡單的序列資料得
到此蛋白質的基本功能標註
專題架構
資料取得
1. AAC(Amino Acid Composition)
序列剖析
屬性選取
各個分類器結果分析
2. DPC(Dipepdite Composition)
3. PSSM(Position Specific Scoring
Matrix)
Query (Transport):
existence:"evidence at protein level"
AND annotation:(type:location
membrane confidence:experimental)
AND reviewed:yes AND
(keyword:transport or go:transport)
機器學習簡介
類別 1:香蕉
類別 2:蘋果
類別 3:西瓜
屬性 1:顏色
屬性 2:重量
屬性 3:形狀
香蕉
顏色:黃色
重量:300克
形狀:長條狀
蘋果
顏色:紅色
重量:150克
形狀:圓形
西瓜
顏色:綠色
重量:900克
形狀:圓形
機器學習簡介
?
顏色:?
重量:?
形狀:長條
?
顏色:紅色
重量:?
形狀:圓形
?
顏色:?
重量:840克
形狀:圓形
一.資料取得
Query:
existence:"evidence at protein level" AND
annotation:(type:location membrane
confidence:experimental) AND
reviewed:yes AND
(keyword:transport or go:transport)
<尋找Transport的Qiery>
二.序列剖析
 1. AAC: 計算20種胺基酸在每條protein上各自出現的
比例當成屬性
 2. DPC: 計算20種胺基酸兩兩配對在protein上各自出
現的比例當成屬性
 3. PSSM: 統計20種胺基酸能被其他胺基酸所取代的可
能性做為一種屬性
三.屬性選取
 加入AAIndex內的屬性,利用Fscore公式算出來值較
高的屬性增加到AAC、DPC或PSSM
EX:
屬性
AAIndex1
AAIndex2
AAIndex3
AAIndex4
Fscore值
0.52
0.01
0.45
0.03
四.各分類器分析
序列分析AAC與DPC
利用產生出來的屬性AAC與DPC來跑weka
執行後所產生的檔案
原有檔案
產生每條Protein的sequence
file
四.各分類器分析
以下結果由其他組利用我們所開發得工具做成果
報告結束 謝謝大家