Transcript Document

守護健康
增生少數合成技術結合參數優化之支援向量
機用於卵巢癌預測
指導教授: 陳牧言老師 蔡孟勳老師
班級:資管研一
姓名:林佩樺
學號:1802b101
日期:2014/05/29
大綱
•前言
•文獻探討
•研究模型
•實驗結果
•結論
1
前言
2
前言
• 研究動機
– 找出卵巢癌各期別的關鍵基因
– 利用找出的各期別關鍵基因建構預測模型
• 研究目的
– 透過該模型提升預測卵巢癌各期別之準確性
– 未來應用在生物科技領域之癌症篩檢
– SMOTE增生少數合成技術(Synthetic Minority
Oversampling Technique)結合參數優化之支援向量機
(Support Vector Machines)用於卵巢癌預測
3
文獻探討
4
SMOTE增生少數合成技術
• Chawla等學者(2002)提出 SMOTE 是一種
增加樣本的技術。
• 常見的SMOTE增加樣本技術
– 1.減少多數
– 2.增加少數(本專題採用)
5
SMOTE增生少數合成技術
•優點
–改善少數類別正確率
–可以改善整體之正確率
–不會導致過度配適(overfitting)
•應用領域
–各領域之不平衡樣本
6
仿生運算
• 觀察生物的日常生活社會行為如鳥群覓
食,是一種演化式演算法。
•優點
– 求問題最佳解
– 能快速收斂
7
仿生運算
• 本專題使用到的SVM之參數優化的演化式演
算法
– 基因演算法(Genetic Algorithm, GA)
– 粒子群優化(Particle Swarm Optimization, PSO)
– 人工蜂群(Artificial Bee Colony, ABC)
8
參數優化之支援向量機
• 優點
– 找出SVM核心方程式中最佳的參數設定
– 提高整體模型的穩定度與準確率
• 應用領域
– 各種領域分類問題
9
研究模型
10
研究流程
原始資料集
(不平衡資料)
PSO-SVM
GA-SVM
ABC-SVM
DFABC-SVM
預測模型成效
評估
SMOTE
重新採樣原始
資料集
建立預測模型
整體成效評估
特徵選取
驗證預測模型
(10-fold
交叉驗證)
圖.1. 研究流程圖
11
資料來源
• 臺中中國醫藥大學以cDNA微陣列收集紀錄41
位罹患卵巢癌的病患基因表現資料。
• 在每位病患中,用作分析的基因數9600個。
表.1. 41位病患罹患卵巢癌的期別
卵巢癌期別
樣本
良性卵巢瘤 (OVT)
13
低惡性卵巢瘤 (BOT)
6
卵巢癌惡性瘤第一期(OVCAI)
7
卵巢癌惡性瘤第三期(OVCAIII)
15
12
實驗資料集類別介紹
•將實驗資料分為下列幾期去做比較,找出該期
表現活躍基因。
表.2. 卵巢癌實驗資料集類別介紹
實驗期別
Class all (OVT、BOT、OVCAI、OVCAIII)
Class 1 (BOT與其他三期之區別)
Class 2 (OVCAIII與其他三期區別)
Class 3 (OVT與BOT區別其他兩類)
Class 4 (BOT與OVCAIII區別另外兩階段)
Class 5 (OVT區別另外三期)
13
研究步驟-SMOTE
• 利用SMOTE將原始樣本數比較少的BOT、
OVCAI類別樣本數增加一倍。
表.3. 41位病患罹患卵巢癌樣本及使用SMOTE技術的樣本介紹
卵巢癌期別
原始樣本
SMOTE
良性卵巢瘤 (OVT)
13
13
低惡性卵巢瘤 (BOT)
6
12
卵巢癌惡性瘤第一期(OVCAI)
7
14
卵巢癌惡性瘤第三期(OVCAIII)
15
15
總計
41
54
14
研究步驟-特徵選取
• 特徵選取
– INFORMATION GAIN (Class_all)
– GAIN RATIO (Class_1~Class_5)
– C4.5 (Class_1~Class_5)
表.4. 41位病患罹患卵巢癌樣本特徵選取技術介紹
期別
Class_all
Class_1
Class_2
Class_3
Class_4
Class_5
特徵選取技術
Information gain=>1
Gain ratio =1
Gain ratio >0.8
C4.5
Gain ratio >0.8
C4.5
總使用變數
變數
14
35
2
2
6
2
61
15
研究步驟-建模(SMOTE)
• 利用參數優化之SVM建立預測模型,將
資料以7:3的比例分為訓練資料集及測試
資料集。
–
–
–
–
SMOTE+GA-SVM
SMOTE+PSO-SVM
SMOTE+ABC-SVM
SMOTE+DFABC-SVM
16
研究步驟-評估
• 每種方法皆利用10-fold交叉驗證
• 利用預測模型的訓練及測試資料集的準
確度做模型的評估。
17
實驗結果
18
實驗結果- Class_all
• Class_all (OVT、BOT、OVCAI、
OVCAIII)的實驗結果。
• Information Gain >=1以上,共取14個基
因。
表.5.使用SMOTE技術的41位病患罹患卵巢癌在Class_all實驗結果
SMOTE+GA-SVM
SMOTE+PSO-SVM
SMOTE+ABC-SVM
SMOTE+DABC-SVM
訓練集準確度 測試集準確度
100
94.1176
100
94.1176
100
94.1176
100
94.1176
交叉驗證
94.5956
94.5956
94.5956
94.5956
19
實驗結果- Class_1
• Class_1 (BOT與其他三期之區別)的實驗
結果。
• Gain Ratio =1,共取35個基因。
表.6.使用SMOTE技術的41位病患罹患卵巢癌在Class_1實驗結果
訓練集準確度 測試集準確度
SMOTE+GA-SVM
100
100
SMOTE+PSO-SVM
100
100
SMOTE+ABC-SVM
100
100
SMOTE+DABC-SVM
100
100
交叉驗證
100
100
100
100
20
實驗結果- Class_2
• Class_2 (OVCAIII與其他三期區別)的實
驗結果。
• Gain Ratio >0.8,共取2個基因。
表.7.使用SMOTE技術的41位病患罹患卵巢癌在Class_2實驗結果
SMOTE+GA-SVM
SMOTE+PSO-SVM
SMOTE+ABC-SVM
SMOTE+DABC-SVM
訓練集準確度 測試集準確度
100
94.1176
100
94.1176
100
94.1176
100
94.1176
交叉驗證
100
100
100
100
21
實驗結果- Class_3
• Class_3 (OVT與BOT區別其他兩類)的實
驗結果。
• 利用C4.5萃取出2個變數。
表.8.使用SMOTE技術的41位病患罹患卵巢癌在Class_3實驗結果
訓練集準確度 測試集準確度
SMOTE+GA-SVM
100
94.1176
SMOTE+PSO-SVM
100
94.1176
SMOTE+ABC-SVM
100
94.1176
SMOTE+DABC-SVM
100
94.1176
交叉驗證
100
100
100
100
22
實驗結果- Class_4
• Class_4 (BOT與OVCAIII區別另外兩階段)
的實驗結果。
• Gain Ratio >0.8。取出6個基因。
表.9.使用SMOTE技術的41位病患罹患卵巢癌在Class_4實驗結果
訓練集準確度 測試集準確度
SMOTE+GA-SVM
100
100
SMOTE+PSO-SVM
100
100
SMOTE+ABC-SVM
100
100
SMOTE+DABC-SVM
100
100
交叉驗證
100
100
100
100
23
實驗結果- Class_5
• Class_5 (OVT區別另外三期)的實驗結果。
• 利用C4.5萃取出2個變數。
表.10.使用SMOTE技術的41位病患罹患卵巢癌在Class_5實驗結果
訓練集準確度 測試集準確度
SMOTE+GA-SVM
100
82.3529
SMOTE+PSO-SVM
97.2973
94.1176
SMOTE+ABC-SVM
100
82.3529
SMOTE+DABC-SVM
100
94.1176
交叉驗證
94.5946
97.2973
94.5946
94.5946
24
結論
25
結論
• 可以找出各期別表現活耀之基因,可用
於後續在生物領域做癌症篩檢的候選基
因。
• 使用SMOTE技術比單純參數優化-SVM
來的優秀。
26
Thanks for your listening
27