Transcript Document
蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授:歐昱言 專題目的 開發一個程式環境幫助生物學 家可以利用簡單的序列資料得 到此蛋白質的基本功能標註 專題架構 資料取得 1. AAC(Amino Acid Composition) 序列剖析 屬性選取 各個分類器結果分析 2. DPC(Dipepdite Composition) 3. PSSM(Position Specific Scoring Matrix) Query (Transport): existence:"evidence at protein level" AND annotation:(type:location membrane confidence:experimental) AND reviewed:yes AND (keyword:transport or go:transport) 機器學習簡介 類別 1:香蕉 類別 2:蘋果 類別 3:西瓜 屬性 1:顏色 屬性 2:重量 屬性 3:形狀 香蕉 顏色:黃色 重量:300克 形狀:長條狀 蘋果 顏色:紅色 重量:150克 形狀:圓形 西瓜 顏色:綠色 重量:900克 形狀:圓形 機器學習簡介 ? 顏色:? 重量:? 形狀:長條 ? 顏色:紅色 重量:? 形狀:圓形 ? 顏色:? 重量:840克 形狀:圓形 一.資料取得 Query: existence:"evidence at protein level" AND annotation:(type:location membrane confidence:experimental) AND reviewed:yes AND (keyword:transport or go:transport) <尋找Transport的Qiery> 二.序列剖析 1. AAC: 計算20種胺基酸在每條protein上各自出現的 比例當成屬性 2. DPC: 計算20種胺基酸兩兩配對在protein上各自出 現的比例當成屬性 3. PSSM: 統計20種胺基酸能被其他胺基酸所取代的可 能性做為一種屬性 三.屬性選取 加入AAIndex內的屬性,利用Fscore公式算出來值較 高的屬性增加到AAC、DPC或PSSM EX: 屬性 AAIndex1 AAIndex2 AAIndex3 AAIndex4 Fscore值 0.52 0.01 0.45 0.03 四.各分類器分析 序列分析AAC與DPC 利用產生出來的屬性AAC與DPC來跑weka 執行後所產生的檔案 原有檔案 產生每條Protein的sequence file 四.各分類器分析 以下結果由其他組利用我們所開發得工具做成果 報告結束 謝謝大家