Transcript Document
守護健康 增生少數合成技術結合參數優化之支援向量 機用於卵巢癌預測 指導教授: 陳牧言老師 蔡孟勳老師 班級:資管研一 姓名:林佩樺 學號:1802b101 日期:2014/05/29 大綱 •前言 •文獻探討 •研究模型 •實驗結果 •結論 1 前言 2 前言 • 研究動機 – 找出卵巢癌各期別的關鍵基因 – 利用找出的各期別關鍵基因建構預測模型 • 研究目的 – 透過該模型提升預測卵巢癌各期別之準確性 – 未來應用在生物科技領域之癌症篩檢 – SMOTE增生少數合成技術(Synthetic Minority Oversampling Technique)結合參數優化之支援向量機 (Support Vector Machines)用於卵巢癌預測 3 文獻探討 4 SMOTE增生少數合成技術 • Chawla等學者(2002)提出 SMOTE 是一種 增加樣本的技術。 • 常見的SMOTE增加樣本技術 – 1.減少多數 – 2.增加少數(本專題採用) 5 SMOTE增生少數合成技術 •優點 –改善少數類別正確率 –可以改善整體之正確率 –不會導致過度配適(overfitting) •應用領域 –各領域之不平衡樣本 6 仿生運算 • 觀察生物的日常生活社會行為如鳥群覓 食,是一種演化式演算法。 •優點 – 求問題最佳解 – 能快速收斂 7 仿生運算 • 本專題使用到的SVM之參數優化的演化式演 算法 – 基因演算法(Genetic Algorithm, GA) – 粒子群優化(Particle Swarm Optimization, PSO) – 人工蜂群(Artificial Bee Colony, ABC) 8 參數優化之支援向量機 • 優點 – 找出SVM核心方程式中最佳的參數設定 – 提高整體模型的穩定度與準確率 • 應用領域 – 各種領域分類問題 9 研究模型 10 研究流程 原始資料集 (不平衡資料) PSO-SVM GA-SVM ABC-SVM DFABC-SVM 預測模型成效 評估 SMOTE 重新採樣原始 資料集 建立預測模型 整體成效評估 特徵選取 驗證預測模型 (10-fold 交叉驗證) 圖.1. 研究流程圖 11 資料來源 • 臺中中國醫藥大學以cDNA微陣列收集紀錄41 位罹患卵巢癌的病患基因表現資料。 • 在每位病患中,用作分析的基因數9600個。 表.1. 41位病患罹患卵巢癌的期別 卵巢癌期別 樣本 良性卵巢瘤 (OVT) 13 低惡性卵巢瘤 (BOT) 6 卵巢癌惡性瘤第一期(OVCAI) 7 卵巢癌惡性瘤第三期(OVCAIII) 15 12 實驗資料集類別介紹 •將實驗資料分為下列幾期去做比較,找出該期 表現活躍基因。 表.2. 卵巢癌實驗資料集類別介紹 實驗期別 Class all (OVT、BOT、OVCAI、OVCAIII) Class 1 (BOT與其他三期之區別) Class 2 (OVCAIII與其他三期區別) Class 3 (OVT與BOT區別其他兩類) Class 4 (BOT與OVCAIII區別另外兩階段) Class 5 (OVT區別另外三期) 13 研究步驟-SMOTE • 利用SMOTE將原始樣本數比較少的BOT、 OVCAI類別樣本數增加一倍。 表.3. 41位病患罹患卵巢癌樣本及使用SMOTE技術的樣本介紹 卵巢癌期別 原始樣本 SMOTE 良性卵巢瘤 (OVT) 13 13 低惡性卵巢瘤 (BOT) 6 12 卵巢癌惡性瘤第一期(OVCAI) 7 14 卵巢癌惡性瘤第三期(OVCAIII) 15 15 總計 41 54 14 研究步驟-特徵選取 • 特徵選取 – INFORMATION GAIN (Class_all) – GAIN RATIO (Class_1~Class_5) – C4.5 (Class_1~Class_5) 表.4. 41位病患罹患卵巢癌樣本特徵選取技術介紹 期別 Class_all Class_1 Class_2 Class_3 Class_4 Class_5 特徵選取技術 Information gain=>1 Gain ratio =1 Gain ratio >0.8 C4.5 Gain ratio >0.8 C4.5 總使用變數 變數 14 35 2 2 6 2 61 15 研究步驟-建模(SMOTE) • 利用參數優化之SVM建立預測模型,將 資料以7:3的比例分為訓練資料集及測試 資料集。 – – – – SMOTE+GA-SVM SMOTE+PSO-SVM SMOTE+ABC-SVM SMOTE+DFABC-SVM 16 研究步驟-評估 • 每種方法皆利用10-fold交叉驗證 • 利用預測模型的訓練及測試資料集的準 確度做模型的評估。 17 實驗結果 18 實驗結果- Class_all • Class_all (OVT、BOT、OVCAI、 OVCAIII)的實驗結果。 • Information Gain >=1以上,共取14個基 因。 表.5.使用SMOTE技術的41位病患罹患卵巢癌在Class_all實驗結果 SMOTE+GA-SVM SMOTE+PSO-SVM SMOTE+ABC-SVM SMOTE+DABC-SVM 訓練集準確度 測試集準確度 100 94.1176 100 94.1176 100 94.1176 100 94.1176 交叉驗證 94.5956 94.5956 94.5956 94.5956 19 實驗結果- Class_1 • Class_1 (BOT與其他三期之區別)的實驗 結果。 • Gain Ratio =1,共取35個基因。 表.6.使用SMOTE技術的41位病患罹患卵巢癌在Class_1實驗結果 訓練集準確度 測試集準確度 SMOTE+GA-SVM 100 100 SMOTE+PSO-SVM 100 100 SMOTE+ABC-SVM 100 100 SMOTE+DABC-SVM 100 100 交叉驗證 100 100 100 100 20 實驗結果- Class_2 • Class_2 (OVCAIII與其他三期區別)的實 驗結果。 • Gain Ratio >0.8,共取2個基因。 表.7.使用SMOTE技術的41位病患罹患卵巢癌在Class_2實驗結果 SMOTE+GA-SVM SMOTE+PSO-SVM SMOTE+ABC-SVM SMOTE+DABC-SVM 訓練集準確度 測試集準確度 100 94.1176 100 94.1176 100 94.1176 100 94.1176 交叉驗證 100 100 100 100 21 實驗結果- Class_3 • Class_3 (OVT與BOT區別其他兩類)的實 驗結果。 • 利用C4.5萃取出2個變數。 表.8.使用SMOTE技術的41位病患罹患卵巢癌在Class_3實驗結果 訓練集準確度 測試集準確度 SMOTE+GA-SVM 100 94.1176 SMOTE+PSO-SVM 100 94.1176 SMOTE+ABC-SVM 100 94.1176 SMOTE+DABC-SVM 100 94.1176 交叉驗證 100 100 100 100 22 實驗結果- Class_4 • Class_4 (BOT與OVCAIII區別另外兩階段) 的實驗結果。 • Gain Ratio >0.8。取出6個基因。 表.9.使用SMOTE技術的41位病患罹患卵巢癌在Class_4實驗結果 訓練集準確度 測試集準確度 SMOTE+GA-SVM 100 100 SMOTE+PSO-SVM 100 100 SMOTE+ABC-SVM 100 100 SMOTE+DABC-SVM 100 100 交叉驗證 100 100 100 100 23 實驗結果- Class_5 • Class_5 (OVT區別另外三期)的實驗結果。 • 利用C4.5萃取出2個變數。 表.10.使用SMOTE技術的41位病患罹患卵巢癌在Class_5實驗結果 訓練集準確度 測試集準確度 SMOTE+GA-SVM 100 82.3529 SMOTE+PSO-SVM 97.2973 94.1176 SMOTE+ABC-SVM 100 82.3529 SMOTE+DABC-SVM 100 94.1176 交叉驗證 94.5946 97.2973 94.5946 94.5946 24 結論 25 結論 • 可以找出各期別表現活耀之基因,可用 於後續在生物領域做癌症篩檢的候選基 因。 • 使用SMOTE技術比單純參數優化-SVM 來的優秀。 26 Thanks for your listening 27