資料採掘（Data Mining，DM）概論

Transcript 資料採掘（Data Mining，DM）概論

資料採掘（Data Mining，DM）概論
Reference
資料採掘與OLAP理論與實務
林傑斌/劉明德/陳湘
文魁出版
DM
1
資料採掘－定義（ㄧ）



從資料中擷取資訊動作。用以發掘先前未知或預測性資訊的資
料
技術類型：利用分類、關聯性、序列分析、群集分析、機器自
我學習及其他統計方法
自資料庫龐大資料中，找出隱藏、未知；卻對企業經營有用資
訊
 資料庫指資料倉儲，資料倉儲為資料採掘的前置作業


資料倉儲做資料採掘較有效率，因為資料倉儲本身是clean （沒
有錯誤資料）、complete且integrated
又稱
1.
2.
3.
4.
5.
DM
資料採礦、資料探勘
知識發掘（knowledge discovery in Database --KDD）
資料考古學（data archaeology）
資料樣型分析（data pattern analysis）
功能性相依分析（functional dependency analysis）
2
資料採掘－定義（二）
 定義二：（ Kenneth C.Laudon & Jane P.Laudon，2000 ）
 Data mining 傾向為發現導向
 於大型資料庫尋找資料的隱藏型態和關係，依據推
論規則來預測未來的行為
 並提供OLAP無法獲得的深入資料
 可用來指導決策制定和預測決策所帶來的影響
DM
3
資料採掘－定義（三）
 定義三：
 不是指單一的技術或某種電腦軟體，而是綜合多種
知識與技術
 透過模式與法則的運作，從資料庫大量的資料中，
萃取出有用的知識
DM
4
資料採掘－相關技術（方法1~6）
1. 統計學（Statistics）
2. 機器智能學習 (Machine Learning)
1) 類神經網路（artificial neural netwok）
2) 歸納系統
3. 遺傳演算法（genetic algorithm）
4. 決策樹（decision tree）
5. 關聯性分析（Association analysis）
6. 記憶導向推理（memory based reasoning）
DM
5
資料採掘－相關技術（方法7~13）
7. 購物籃分析/規則建構（market basket
8.
9.
10.
11.
12.
13.
DM
analysis/rule instruction）
模糊理論（fuzzy set）
專家系統（expert system）
灰色系統（gray system）
資料庫
資料視覺化(Data visualization)
高效能運算架構
6
Data mining與OLAP的不同點
 OLAP：
1. 忠實客觀的呈現出查詢者想查詢的眾多因素分析
彙總得出的報表
2. 報表的解讀將由查詢者判斷
 Data mining：
1. 能夠更進ㄧ步利用統計等方法將資料再分析，以
更深入獲得變因的理解，幫助查詢者得知原因
2. data mining 擁有預測的功能，藉由既有的資料來
預測未來
DM
7
資料採掘－為企業界做些什麼? （1~2）
直效行銷（Direct Marketing）
 將直銷訊息傳遞到正確的顧客上
 進行精準的DM發送
2. 顧客關係行銷（Customer Relation Management，CRM）
 建立顧客的消費模式
1.


DM
監控現有商品的消費情形
依照模型，主動促銷顧客感興趣的商品
8
資料採掘－為企業界做些什麼? （3~4）
3. 交叉銷售（Cross Sales）
 『從已花10元的顧客身上再賺10元, 絕對比從沒掏
出錢的顧客下手容易』
 找出商品之間的購買關聯性，建立交叉銷售的行
銷策略, 以降低商品行銷的成本
 讓20%的客戶製造出80 %的收益
4. 信用評估（Credit Evaluation）
 預測出誰是潛在的不良客戶（呆帳）
 早ㄧ步提出預防措施，減少企業損失
DM
9
資料採掘－為企業界做些什麼? （5）
5. 財務預測（Financial Prediction）
 利用時間序列分析（Time Series Analysis）or 類神
經網路（Neural Network）
 建立季節性 or非季節性的財務數字預測
 亦能預估進行促銷活動，對於銷售數字及獲利的
影響
DM
10
資料採掘—實例（1~3）
1.
CIA的資訊篩選：




2.
3.
點式行銷（Pointcasting）：
 客戶當成獨特的個體，為量身訂做的行銷方式
 例：Amazon網站、Bluemountain.com、Della.com或
Ashford.com（禮物願望記載）
入口網站（Portal）：

DM
自動謄寫聲音訊號，自動翻譯中文、俄文等語文網頁
生活實況視覺化轉成三度空間示意圖
Fluent（流暢）軟體：執行交叉語言功能，在不同語言中以英文搜尋
Oasis（綠洲）軟體：聲音轉換成可以搜尋的格式文本
自動篩選出該公司所訴求的客戶層，提高營業效率
11
資料採掘—實例（4~5）
4.
尿布與啤酒：

5.
超級市場購買環境的設計：





DM
購物籃分析：運用關聯規則（Association Rules），說明實
體商品之間的相關性和為什麼會組合在一起的原因
進門區設計為的水果區
廚房用品按照女性的視線高度來擺放（美國婦女的視線高
度是150cm ，男性為163cm）
最舒適的視線角度是視線高度以下15度左右，最好的貨品
陳列位置是在130至135cm之間
新產品擺在暢銷產品旁邊會提升其形象及銷售量
超市撥放的音樂會影響顧客停留的時間。例如：音樂從每
分鐘108拍快板換成60拍慢板，購物量會增加38％
12
Data Mining的步驟
6
5
Interpretation/
Evaluation
4
Visualization
Data Mining
2
1
Transformation
and reduction
Preprocessing
and cleaning
Selection
and sampling
3
OLAP
展示工具
Patterns/model
Transformed
Data
cleaned
Data
Target Data
Database/data
warehouse
DM
13
資料採掘的基本方法
－採掘知識的類型－資料採掘任務（Task）
classification rules（分類規則）：
1.




DM
按照分析對象的屬性分門別類加以定義，建立類組(class)
方法：
 為已知訓練值的特徵和分類結果作分類
 找到一個合理的描述或模型，對未知的新資料進行分類
例如：
 將客戶信用申請者的風險屬性，區分為高度風險申請者，
中度風險申請者及低度風險申請者，並藉此預測新客戶
信用等級
技術：建立決策樹、記憶基礎推理(memory-based reasoning)
等
14
資料採掘任務（Task） - Classification
No.
Attributes
Class
Outlook
Humidity
Windy
1
sunny
high
FALSE
N
2
sunny
high
TRUE
N
3
overcast
high
FALSE
Y
4
rain
high
FALSE
Y
5
rain
normal
FALSE
Y
6
rain
normal
TRUE
N
7
overcast
normal
TRUE
Y
8
sunny
high
FALSE
N
9
sunny
normal
FALSE
Y
10
rain
normal
FALSE
Y
11
sunny
normal
TRUE
Y
12
overcast
high
TRUE
Y
13
overcast
normal
FALSE
Y
rain
high
TRUE
N
14DM
15
資料採礦-類型– Classification
Decision tree
outlook
DM
sunny
overcast
rain
humidity
Y
windy
high
normal
true
false
N
Y
N
Y
16
資料採掘任務（Task）
－ estimation（推估）
2.
estimation（推估）：
找出資料的順序規則，以便導出資料間的順序關係
 根據既有連續性數值之相關屬性資料，以獲致某一
屬性未知之值
 例如：

1.
2.
光碟租售店發現：看過阿諾史瓦辛格主演的片子後，就會
緊接著看湯姆漢克的電影
按照信用申請者之教育程度、購物行為來推估其信用卡消
費量
技術：包括統計方法上之相關分析、迴歸分析及類
神經網路方法
 分類和推估通常會一起運用

DM
17
資料採掘任務（Task）
－ association rules（關聯規則）
3.
association rules（關聯規則）：



又稱 affinity grouping (關聯分組、同質分組)
判斷哪些事物會一起出現，決定那些相關物件應該放在一
起
找出資料的關聯性規則，以便推出資料之間的關聯性



DM
A1 →A2，支援度 = S%，信賴度=C%
其中，S和C為客戶指定的支援度和信賴度的門檻值
例如：
R1「尿布→ 啤酒，支援度 = 5%，信賴度=50% 」
R2「嬰兒用品→ 飲料類，支援度 = 25%，信賴度=80% 」

R2 ：更高的抽象層次，更為客觀，有較大的支援度及信賴
度，適合高層決策需求
18
資料採掘任務（Task）
－ association rules（關聯規則）範例
3.
Association rules（關聯）：（續）
1.
2.
3.
4.
DM
例如：經由記錄客戶購物車的物品，可推出大多數
客戶買了牛奶之後會順便買麵包或包子、饅頭，可
以合併促銷
例如：超市中相關之盥洗用品(牙刷、牙膏、牙線)，
放在同一間貨架上
例如：大多數客戶在週五買了尿布的同時會再買啤
酒，看似不相關的物品竟然會有關聯
客戶行銷系統：確認交叉銷售(cross selling)的機會
以設計出吸引人的產品群組
19
資料採掘任務（Task）
－ association rules（關聯規則）實作
Association rules（關聯）：（續）
3.

實作：一個超級市場的銷售系統，記錄了客戶購物的情況，表
格1記錄了5個客戶的購物清單
表格1
記錄號
DM
購物清單
1
啤酒、尿布、嬰兒爽身粉、麵包、雨傘
2
尿布、嬰兒爽身粉
3
啤酒、尿布、牛奶
4
尿布、啤酒、洗衣粉
5
啤酒、牛奶、可樂（coke）
20
資料採掘任務（Task）
－ association rules（關聯規則）實作作法
3.
Association rules（關聯）：（續）


需求：超市經理想知道商品之間的關聯，要求列出那些同
時購買的，且支援度 >= 40 %（即在5筆記錄，至少出現兩
次）的商品名稱
作法：


DM
利用Apriori（驗證）演算法，多次掃描資料庫
去除支援度 < 0.4 的資料，即在5筆記錄中，出現一次以下的
商品名稱
1.
單項：去除{麵包} 、{雨傘}
2.
雙項：去除{尿布、牛奶}
3.
三項：去除{啤酒、尿布、牛奶}
21
資料採掘任務（Task）
－ association rules（關聯規則）實作表格
3.
Association rules（關聯）：（續）
得出下列表格2及表格3
表格2
單項統計
表格3
支援度
雙項統計
支援度
{啤酒、尿布}
3/5=0.6
{尿布}
4/5=0.8
4/5=0.8
{啤酒、牛奶}
2/5=0.4
{嬰兒爽身粉}
2/5=0.4
{尿布、嬰兒爽身粉}
2/5=0.4
{牛奶}
2/5=0.4
{啤酒}
規則
DM
22
資料採掘任務（Task）
－ association rules（關聯規則）實作知識
3.
Association rules（關聯）：（續）

DM
獲得的知識：（DbMiner軟體中, 系統自動解釋）
1.
單項統計：

80%的客戶買了啤酒

80%的客戶買了尿布
2.
雙項統計：

60%的客戶同時買了啤酒和尿布

40%的客戶買了啤酒和牛奶

40%的客戶買了尿布和爽身粉
3.
觀察：

買了啤酒的客戶中，又買了尿布的佔
0.6 {啤酒，尿布} / 0.8 {啤酒} ＝ 75 %（信賴度 confident Level）
23
資料採掘任務（Task）
－ association rules（關聯規則）實作規則
Association rules（關聯）：（續）
3.

得出6條規則：（S：支援度support level，C：信賴度）
1.
2.
3.
4.
5.
6.

表格
S = 60%，C = 0.6 / 0.8 = 75%
R2：尿布→啤酒
 S = 60%，C = 0.6 / 0.8 = 75%
R3：牛奶→啤酒，S = 40%，C = 0.4 / 0.4 = 100%
R4：啤酒→牛奶，S = 40%，C = 0.4 / 0.8 = 50%
R5：尿布→爽身粉，S = 40%，C = 0.4 / 0.8 = 50%
R6：爽身粉→尿布，S = 40%，C = 0.4 / 0.4 = 100%
說明：
1.
2.
DM
R1：啤酒→尿布
R6：爽身粉→尿布，有很高的信賴度，相當合理
R3：牛奶→啤酒，有很高的信賴度，需進一步調查分析
24
資料採掘任務（Task）
－ prediction、forecasting （預測）
4.
prediction、forecasting （預測）：


根據資料集內的樣式預估未來的數值
方法：



例如：
1.
2.

DM
根據對象屬性之過去觀察值（歷史性資料）來建立模型，
以檢視近年來觀察值的變化
若運用最新資料作為輸入值, 則可推估該屬性未來之值
由顧客過去之刷卡消費量預測其未來之刷卡消費量
購物籃分析（market basket analysis）
技術：迴歸分析、時間數列分析及類神經網路方
法
25
資料採掘任務（Task）
－ Clustering rules（群集規則）
5.
Clustering rules（群集規則）：







DM
又稱【無監督式分類】
將許多不同的群組，分成一些更相似的子群組或群集
將異質母體中區隔為較具同質性之群組(clusters)
沒有預先定義好的類別，也沒有訓練樣本，資料是自然產生
區隔，相當於行銷術語的區隔化(segmentation)
統計學早就使用，但只能處理數字型資料。在資料採掘是要
處理非數字性資料
做法：選定要將資料分成幾個群組，讓系統自動歸類，再由
專家觀察各群組特性
技術：k-means法及agglomeration法
26
資料採掘任務（Task）
－ Clustering rules 與分類規則的不同點


分類：訓練資訊導向
群集：


DM
直接對資料進行分類，不需事先定義，也不需事
先訓練組的資料
資料依靠本身的相似度（similarity）而群集一起
27
Data Mining 建立六種模式

模式（model）兩種用處：
1.
瞭解資料的特徵與關係可以提供你做決策所需要的資訊

2.
資料的特徵可以幫助你做預測


只對特定的對象做郵購推銷
六種模式：
1.
2.
3.
4.
5.
6.
DM
如 Association Model 可幫助超級市場或規畫如何擺設貨品
Classification：預測
Regression：預測
Time Series ：與 Regression 很像，不同點在於它所分析的數
值都與時間有關
Clustering ：預測、描述行為
Association：描述行為
Sequence：描述行為
28
資料採掘導入的四個階段
1.
2.
3.
4.
DM
目標(target)設定
Prototyping
系統建置
系統移植(migration)
29
Data Warehouse、OLAP 和
Data Mining 三者的關係
Data mining ：
找出資料倉儲的Pattern
Data
warehouse
彙整不同來源
90
80
70
60
50
40
30
20
10
0
東部
中部
北部
第一季第二季
第三季第四季
OLAP：
利用Data mining 找出
的pattern，加以分析供
決策用
的資料
DM
30
Data Mining - 未來展望
 企業：
1. 取得競爭優勢
2. 化被動為主動
 研究者：
1. 致力於知識發掘技術與方法的研究
2. 提供更有用的工具於企業所需的實務操作
DM
31
資料採掘- 軟體
 IBM DB2 Intelligent Miner（IM）
DM
32

資料採掘（Data Mining，DM）概論

Transcript 資料採掘（Data Mining，DM）概論

Directory