運輸蛋白”與

Download Report

Transcript 運輸蛋白”與

指導教授:
歐昱言
膜運輸蛋白的鑑別與預測
學生:
張晃銘
王仁亨
賈惟勛
目錄
前言
介紹與流程





膜蛋白
運輸蛋白
結晶法
軟體介紹
相關屬性
 步驟總結
 數據平均值
 總結
2
為什麼我們做這個?
 在我們替蛋白質定序時,經常發現新的蛋白質序列,這
些序列既多且複雜,傳統方法上我們使用化學實驗去驗
證它們的特性。
 可是蛋白質序列變化千百種,有沒有更快的方式呢?
3
前言

膜蛋白上的運輸蛋白在細胞傳輸物質中占有
重要的地位,生物實驗中,經常會用到結晶法,
但現行技術成功率低(1%),若能先取得相關蛋白
質,並且輔以程式預測,透過這種方式,可以降
低實驗成本,大幅提高效率。
4
MEMBRANE PROTEIN
連接相關胞器或細胞的蛋白質分子者稱之為膜蛋
白。其主要功能是協助交換內外分子或保護細
胞、建立細胞間溝通的管道。具有特殊的功能。
5
MEMBRANE TRANSPORT PROTEIN
凡膜蛋白協助離子/小分子/分子等移動者
稱之。
6
目的
利用已知蛋白質之屬性,將未知蛋白質做分類。
利用機器自動判斷,可提前驗證實驗方向及正確
性。
 問題:正確率呢?
 我們利用幾個分類器和不同屬性,來看看它們的正確率。
7
分類也是大學問
 類別
 屬性
 類別:
 老虎
 大象
 屬性:
 型態大小
 組織差異(鼻子、象牙)
8
5-FOLD
 我們必須要知道,面對不同資料時,是不是仍然有判斷出正確所需
資料的能力。
 於是我們必須從已知的資料中先學習判斷特徵(定義屬性)。
 如果已知的資料都是具有同一特殊特徵,會不會影響判斷?
 所以我們將資料分成數堆,先蓋住其中一堆,判斷其他堆的屬性,
再來判斷蓋住的資料,重複步驟直到所有分類都被蓋過且判斷為
止。
9
Data
fold1 fold2
Test data
Test data
fold3
fold4
Test data
Training data
Test data
fold5
Test data
classifier
10
架構圖
製作5-fold所需資料
從Uniprot下載所需資料
非運輸蛋白
運輸蛋白
非運輸蛋白
Get_sequence.cpp
Test_1
train1
Test_1
Train2
train3
Train2
train4
train5
Test_1
砍相似度
(40%)
非運輸蛋白
運輸蛋白
(4606條)
(2367條)
train4
train1
train3
train5
產生屬性
Select_train_test.cpp
Blastclust
運輸蛋白
AAC、DPC、PSSM
Train1
AAC、DPC、PSSM
Train2
AAC、DPC、PSSM
Train3
AAC、DPC、PSSM
Train4
AAC、DPC、PSSM
Train5
AAC、DPC、PSSM
Independent test
5-fold
WEKA、LIBSVM、QUICKRBF
Blastpgp
產生PSSM檔
結果數據資料
11
步驟
資料取得
資料分析與處理
分類器
結果
12
步驟概述
 將網站下載的膜蛋白之蛋白質序列分類成”運輸蛋白”
與”不是運輸蛋白”兩類,再將兩類資料經由程式分別
平均放入名為test_1(independent test用(1161
條))、train1~5(5-fold用(各1163條))的資料夾中。
(MEMBRANE:6973條 TRANSPORT:2367條 NON-TRANSPORT:4606條)
 產生AAC、DPC、PSSM屬性。
 利用這些屬性作為分類器分類的依據。
 分析和比較結果的正確率。
13
相關屬性
AAC(Amino acid composition)
每個蛋白質可用20種胺基酸組合而成,這20種可作為第一種屬性,可以統
計它們在特別蛋白質中分別出現的次數。
DPC(Dipepdite composition)
20種胺基酸又可兩兩組合成400種不同的因子,此400種作為第二種屬性,
可以統計它們在特別蛋白質中分別出現的次數。
PSSM(Position specific scoring matrix)
利用BL AST程式產生
14
BLAST

兩個不同的蛋白質,且蛋白質序列差異極小,具有類似功
能,可以歸類為同一類型蛋白質,此例子會影響到我們的數據判斷
(因為要分析不同類型的蛋白質),這種狀況稱為相似度。而利用的
BLASTCLUST內建相關數據庫,可幫我們移除相似度的問題。
然後我們再用BLASTPGP來產生PSSM檔案進入下一個分析的步驟。
15
PSSM
PSSM(Position-Specific Scoring Matrix)
利用PSSM.cpp來產生400個屬性,產生方法為將protein.pssm內的
pssm值算出每一個acid可以被其他acid(包含自己)所取代的數值
 從PSSM上的資料,找出每種acid可以被其他acid所取代的比例
16
PSSM
17
軟體介紹
Weka
QuickRBF
LIBSVM
18
WEKA
 Waikato Environment for Knowledge Analysis
 可用於機器學習、數據分析的data mining軟體
19
WEKA演算法
 我們使用以下三種演算法:
 RandomForests:
 對於很多種資料,它可以產生高準確度的分類器。 它可以處理大量的輸入變
數。 它可以在決定類別時,評估變數的重要性。
 IBK:
 採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以
藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。
 J48:
 機器學習中,決策樹是一個預測模型
 能夠同時處理數據型和常規型屬性,不必先統一資料來源(一般化)。
 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。
20
LIBSVM
 LIBSVM是SVM的一種,而SVM是兩種不同類別進行分類的分類
器。
 原始data:
21
SVM
可以發現原先三種顏色的點被分區了,這邊
所有的點就是我們的training data,而
model記錄的就是點的分區狀況。
22
架構
23
分析結果-同一屬性不同分類器之比較
 AAC
 DPC
 PSSM
24
分析結果-同一分類器不同屬性之比較
 WEKA
 QuickRBF
 LIBSVM
25
總結
這次實驗的結果,PSSM搭配QuickRBF的預測正確率較為精準,
比其他方法高出2-3%。
雖然結果只有小幅提升,但是在降低相關實驗成本和提升效率
兩大要求上已是相當重要,如果能進一步發展,機器學習將可在生物
實驗中佔有舉足輕重的地位。
26
REFERENCE
WEKA
 http://www.cs.waikato.ac.nz/ml/weka/
LIBSVM
 http://www.csie.ntu.edu.tw/~cjlin/libsvm /
 www.cmlab.csie.ntu.edu.tw /~cyy/learning/tutorials/libsvm.pdf
QuickRBF
 http://csie.org/~yien/quickrbf/quickstart.php
 http://zh.wikipedia.org/wiki/Wiki
27
Q & A
28
Thank you!
29