資料建模與預測之研究-以冠狀動脈疾病為例

Transcript 資料建模與預測之研究-以冠狀動脈疾病為例

資料建模與預測之研究-以冠狀動脈疾病為例
指導教授: 蔡進聰
學生: 陳勤廣
研究目的與背景
疾病系統分析與建立是了解疾病病因的方法之一，資料探勘技術來分析與預測疾病是現代醫學技術
的一種趨勢，利用資料探勘與程式設計技術，以冠狀動脈疾病為例進行研究，希望能為對疾病系統
分析與建立有所幫助，並精進自我之本質學能。
研究方法與步驟
本研究使用Matlab程式語言進行程
式撰寫，主要分成四個階段來完成:
1.建立隨機切割資料庫技術
研究成果與分析
此研究對來源資料，如圖2，進行切割。
Traindata: 80%的原始資料為訓練資料
Testdata: 20%的原始資料為預測資料
2.建立類神經網路建模技術
3.開發類神經網路預測模組
4.分析冠狀動脈疾病重要因子
圖2 來源資料分析
類神經網路中－倒傳遞神經網路，
使
用
Traindata
經
過
訓
練
程
式
後
觀
察
MSE
(Mean
如圖 1 ，是利用最陡坡降 (Gradient
Squared
Error)
變化，得到網路隱藏層的範圍在10~100時，
Steepest Descent Method)的觀念，把誤
MSE
的
範
圍
介
在
0.06~0.08
。
而
Testdata
的
MSE
介
在
差函數最小化。在此方法的學習過程中，
0.07~0.10之間。透過閥值分析發現，當設定閥值於0.4為1
會利用訓練範例來執行，當完成所有的
時，其準確率皆在90%左右。如圖3。
訓練範例即完成一個學習回合 (Learning
Epoch)，重複訓練這些範例，至網路的
學習達到收斂。
此研究使用倒傳遞方法進行建模，
再開發預測模組，並利用測試案例進行
預測，若準確性高(MSE範圍穩定)，則
完成預測模組之開發，若準確性低且誤
圖3
MSE與正確率紀錄表
差高(MSE範圍過大)，則回到建模階段。
結果顯示隱藏層的範圍很大，但MSE的改變很小，推
在模組穩定之後利用敏感度分析技術，
統計冠狀動脈疾病數據每個欄位的平均論原因可能因原始資料中Status為1的數據，涵蓋整份數據
值與標準差，進行程式撰寫，分析疾病的極大部份，所以所建立的模式較傾向Status為1，因此在
因子，找出產生冠狀動脈疾病的欄位，利用預測資料 (Status 1佔80%)，預測的結果亦傾向Status
為1，所以所得的正確率亦很高。
也就是重要因子。
因子敏感度分析部分，針對原始數據每一欄位(共17
欄)做敏感度分析，此研究發現LDL-C等七項相關欄位是會
造成疾病的重要因子。如圖4。
圖1
類神經網路層與層之間關係
結論與未來展望
圖4 重要因子排序
類神經網路技術在各個領域被廣泛使用，證明在分析資料和預測上有一定的成效，雖然此研究只
針對冠狀動脈疾病，但其他的疾病也可以使用此方法進行預測，希望此研究可以讓更多研究者知
道這個方法，更深入的研究和發展。

資料建模與預測之研究-以冠狀動脈疾病為例

Transcript 資料建模與預測之研究-以冠狀動脈疾病為例

Directory