資料建模與預測之研究-以冠狀動脈疾病為例

Download Report

Transcript 資料建模與預測之研究-以冠狀動脈疾病為例

資料建模與預測之研究-以冠狀動脈疾病為例
指導教授: 蔡進聰
學生: 陳勤廣
研究目的與背景
疾病系統分析與建立是了解疾病病因的方法之一,資料探勘技術來分析與預測疾病是現代醫學技術
的一種趨勢,利用資料探勘與程式設計技術,以冠狀動脈疾病為例進行研究,希望能為對疾病系統
分析與建立有所幫助,並精進自我之本質學能。
研究方法與步驟
本研究使用Matlab程式語言進行程
式撰寫,主要分成四個階段來完成:
1.建立隨機切割資料庫技術
研究成果與分析
此研究對來源資料,如圖2,進行切割。
Traindata: 80%的原始資料為訓練資料
Testdata: 20%的原始資料為預測資料
2.建立類神經網路建模技術
3.開發類神經網路預測模組
4.分析冠狀動脈疾病重要因子
圖2 來源資料分析
類神經網路中-倒傳遞神經網路,
使
用
Traindata
經
過
訓
練
程
式
後
觀
察
MSE
(Mean
如 圖 1 , 是 利 用 最 陡 坡 降 (Gradient
Squared
Error)
變化,得到網路隱藏層的範圍在10~100時,
Steepest Descent Method)的觀念,把誤
MSE
的
範
圍
介
在
0.06~0.08
。
而
Testdata
的
MSE
介
在
差函數最小化。在此方法的學習過程中,
0.07~0.10之間。透過閥值分析發現,當設定閥值於0.4為1
會利用訓練範例來執行,當完成所有的
時,其準確率皆在90%左右。如圖3。
訓練範例即完成一個學習回合 (Learning
Epoch),重複訓練這些範例,至網路的
學習達到收斂。
此研究使用倒傳遞方法進行建模,
再開發預測模組,並利用測試案例進行
預測,若準確性高(MSE範圍穩定),則
完成預測模組之開發,若準確性低且誤
圖3
MSE與正確率紀錄表
差高(MSE範圍過大),則回到建模階段。
結果顯示隱藏層的範圍很大,但MSE的改變很小,推
在模組穩定之後利用敏感度分析技術,
統計冠狀動脈疾病數據每個欄位的平均 論原因可能因原始資料中Status為1的數據,涵蓋整份數據
值與標準差,進行程式撰寫,分析疾病 的極大部份,所以所建立的模式較傾向Status為1,因此在
因子,找出產生冠狀動脈疾病的欄位, 利用預測資料 (Status 1佔80%),預測的結果亦傾向Status
為1,所以所得的正確率亦很高。
也就是重要因子。
因子敏感度分析部分,針對原始數據每一欄位(共17
欄)做敏感度分析,此研究發現LDL-C等七項相關欄位是會
造成疾病的重要因子。如圖4。
圖1
類神經網路層與層之間關係
結論與未來展望
圖4 重要因子排序
類神經網路技術在各個領域被廣泛使用,證明在分析資料和預測上有一定的成效,雖然此研究只
針對冠狀動脈疾病,但其他的疾病也可以使用此方法進行預測,希望此研究可以讓更多研究者知
道這個方法,更深入的研究和發展。