Transcript Data mining

胡念祖
國立虎尾科技大學 資訊管理系 助理教授
個人簡歷

現任虎尾科大專任助理教授、交通大學兼任助理教授

台中港務局、興農實業、恒耀工業、靜宜大學、日東電工BI訓練與導入建置
彰化基督教醫院-健保資料庫分析、慈濟醫院大林分院-病歷分析
朝陽科大、屏東商業技術學院、台中技術學院協助SOA教育訓練
網格非線性最佳化系統開發
新竹市政府、公路局網頁系統開發
東元電機配料管理系統
農委會育苗管理系統
榮民製藥廠、金門電力公司人事薪資系統







相關證照:
Sun Certified Java Programmer
IBM Certificated SOA Solution Designer
IBM Cognos Administrator
IBM Cognos Author
IBM DB2 Fundamental
Microsoft SQL Server 2008 Implementation and Maintenance
Microsoft SQL Server 2008 Business Intelligence
2
BI Lab
Business Intelligence (Microsoft, IBM, Strategy Analyzer)
SQL Server, Oracle
iOS, Android development (native, html5)
Citrix XenApp/XenDesktop, VMWare ESX
SOA, J2EE
.Net Framework development
Lab成員: 廖乙學、劉宣麟、趙柏翔、楊勝復、郭小瑋
瑞士刀??
母體特質
機率分配
信心水準
適用方法
解釋手法
一、資料採礦的功能
 Classification (分類)
 Estimation (推估)
 Cluster (群集化)
 Affinity Group (同質分組)
 Sequential (序列)
 Description (描述)
Classification (分類)
 變數的種類
 連續變數、類別變數
 預測連續數值
 找出未知但明確的準則
 相關應用
 信用風險違約機率預測
 交叉銷售
 顧客流失
Estimation (推估)
 預測連續數值
 預測未來的走向、趨勢
 應用
 風險管理的違約
 金融商品的價格趨勢變化
 進貨、銷售、存貨價量變化趨勢
 顧客貢獻度、價值
Cluster (群集化)
 沒有分類準則、找出事物相似性的內部結構
 應用
 顧客分群
 協同式過濾產品推薦
 晶圓製程瑕疵分佈
 文件分類
Affinity Group(同質分組)
 從歷史資料找出那些物件/事件是相伴發生
 尿布與啤酒、藍乳酪
 應用
 產品交叉銷售、自動化推薦
 網頁結構分析
 文件(病歷、專利文件)關鍵字關聯性分析
Sequential(序列)
 找出事物「先後」發生的順序、週期
 59.1%的消費者會在27-57天再購買精油蠟燭
 應用
 產品提升銷售
 網頁瀏覽序列分析
 逾期繳款行為模式分析
Description(描述)
 視覺化分析資料中隱藏的規則
 信用卡的免費保單
資料採礦的應用
 直效行銷
 電話行銷的忠誠度(?)、配對
 交叉銷售
 金融業(種類少、獲利高、個別產品回應模型)
 零售業、財富管理(種類多、獲利低、關聯規則)
 信用風險管理
 違約機率模型、違約曝險額模型、違約損失率模型
 流失分析
 流失率減少5%,利潤成長 100%
 20%的好顧客貢獻利潤的150%,最差40%的顧客使利潤縮減50%
二、資料採礦流程(CRISP-DM)
 Cross-Industry Process for Data Mining
 定義商業問題(Business Understanding)
 定義分析資料(Data Understanding)
 資料預處理(Data Preparation)
 建立模型(Modeling)
 模型評估(Evaluation)
 應用模型(Deployment)
定義商業問題(Business Understanding)
 配合企業現況以解決商業問題
 同樣的主題在不同的產業,作法會不同
 同樣的主題在相同的產業之不同產品,作法就不用
定義分析資料(Data Understanding)
 預測的意義來自於比較
 過與不及,酸黃瓜
 排除常識的樣本預區隔
 電信業手機租期分析
 時窗分析
 樣本時窗(愈多愈好?)、緩衝期、觀察時窗
 預測客戶是否真的會流失?
 訓練組、鑑效組(規則重現檢測)、測試組
 過度學習(Over-Fitting)
 稀有事件
 具影響性、誤差抽樣(多的抽少、漸進式)
資料預處理
 異常值處理
 遺漏值(邏輯填補、統計值、新選項、採礦分析)
 極端值(Z分數、剔除、天花板、函數校正、全距法、
Sigmoid、十進位)
 變數轉換
 連續->類別(等寬、等分、Z分數、反曲點、監督式)
 類別->連續(連續性指派)
 變數篩選
 衍生變數(目前、曾經、累計、平均、比率、成長率)
 篩選有效變數(非重覆性x、選項多x、時點錯誤x、WOE)
 變數共線性(相關係數>0.8, 以IV值高的為主)
輪胎剖面圖
輪胎研發
硫化時間與物理性能關係圖
實驗數據
類神經網路示意圖
類神經網路分層圖
資料探勘-可信度??
 資料前處理(異常值、歷史資料、遺漏值等)
 資料熟悉度??
 變數選擇、處理
 抽樣比例
 模型選擇、參數設定
 單一模型 vs. 多種模型
 變數、參數貢獻度一成不變??
 模型可用壽命
祝 週末假日愉快