資料採掘(Data Mining,DM)概論

Download Report

Transcript 資料採掘(Data Mining,DM)概論

資料採掘(Data Mining,DM)概論
Reference
資料採掘與OLAP理論與實務
林傑斌/劉明德/陳湘
文魁出版
DM
1
資料採掘-定義(ㄧ)



從資料中擷取資訊動作。用以發掘先前未知或預測性資訊的資
料
技術類型:利用分類、關聯性、序列分析、群集分析、機器自
我學習及其他統計方法
自資料庫龐大資料中,找出隱藏、未知;卻對企業經營有用資
訊
 資料庫指資料倉儲,資料倉儲為資料採掘的前置作業


資料倉儲做資料採掘較有效率,因為資料倉儲本身是clean (沒
有錯誤資料)、complete且integrated
又稱
1.
2.
3.
4.
5.
DM
資料採礦、資料探勘
知識發掘(knowledge discovery in Database --KDD)
資料考古學(data archaeology)
資料樣型分析(data pattern analysis)
功能性相依分析(functional dependency analysis)
2
資料採掘-定義(二)
 定義二:( Kenneth C.Laudon & Jane P.Laudon,2000 )
 Data mining 傾向為發現導向
 於大型資料庫尋找資料的隱藏型態和關係,依據推
論規則來預測未來的行為
 並提供OLAP無法獲得的深入資料
 可用來指導決策制定和預測決策所帶來的影響
DM
3
資料採掘-定義(三)
 定義三:
 不是指單一的技術或某種電腦軟體,而是綜合多種
知識與技術
 透過模式與法則的運作,從資料庫大量的資料中,
萃取出有用的知識
DM
4
資料採掘-相關技術(方法1~6)
1. 統計學(Statistics)
2. 機器智能學習 (Machine Learning)
1) 類神經網路(artificial neural netwok)
2) 歸納系統
3. 遺傳演算法(genetic algorithm)
4. 決策樹(decision tree)
5. 關聯性分析(Association analysis)
6. 記憶導向推理(memory based reasoning)
DM
5
資料採掘-相關技術(方法7~13)
7. 購物籃分析/規則建構(market basket
8.
9.
10.
11.
12.
13.
DM
analysis/rule instruction)
模糊理論(fuzzy set)
專家系統(expert system)
灰色系統(gray system)
資料庫
資料視覺化(Data visualization)
高效能運算架構
6
Data mining與OLAP的不同點
 OLAP:
1. 忠實客觀的呈現出查詢者想查詢的眾多因素分析
彙總得出的報表
2. 報表的解讀將由查詢者判斷
 Data mining:
1. 能夠更進ㄧ步利用統計等方法將資料再分析,以
更深入獲得變因的理解,幫助查詢者得知原因
2. data mining 擁有預測的功能,藉由既有的資料來
預測未來
DM
7
資料採掘-為企業界做些什麼? (1~2)
直效行銷(Direct Marketing)
 將直銷訊息傳遞到正確的顧客上
 進行精準的DM發送
2. 顧客關係行銷(Customer Relation Management,CRM)
 建立顧客的消費模式
1.


DM
監控現有商品的消費情形
依照模型,主動促銷顧客感興趣的商品
8
資料採掘-為企業界做些什麼? (3~4)
3. 交叉銷售(Cross Sales)
 『從已花10元的顧客身上再賺10元, 絕對比從沒掏
出錢的顧客下手容易』
 找出商品之間的購買關聯性,建立交叉銷售的行
銷策略, 以降低商品行銷的成本
 讓20%的客戶製造出80 %的收益
4. 信用評估(Credit Evaluation)
 預測出誰是潛在的不良客戶(呆帳)
 早ㄧ步提出預防措施,減少企業損失
DM
9
資料採掘-為企業界做些什麼? (5)
5. 財務預測(Financial Prediction)
 利用時間序列分析(Time Series Analysis)or 類神
經網路(Neural Network)
 建立季節性 or非季節性的財務數字預測
 亦能預估進行促銷活動,對於銷售數字及獲利的
影響
DM
10
資料採掘—實例(1~3)
1.
CIA的資訊篩選:




2.
3.
點式行銷(Pointcasting):
 客戶當成獨特的個體,為量身訂做的行銷方式
 例:Amazon網站、Bluemountain.com、Della.com或
Ashford.com(禮物願望記載)
入口網站(Portal):

DM
自動謄寫聲音訊號,自動翻譯中文、俄文等語文網頁
生活實況視覺化轉成三度空間示意圖
Fluent(流暢)軟體:執行交叉語言功能,在不同語言中以英文搜尋
Oasis(綠洲)軟體:聲音轉換成可以搜尋的格式文本
自動篩選出該公司所訴求的客戶層,提高營業效率
11
資料採掘—實例(4~5)
4.
尿布與啤酒:

5.
超級市場購買環境的設計:





DM
購物籃分析:運用關聯規則(Association Rules),說明實
體商品之間的 相關性和為什麼會組合在一起的原因
進門區設計為的水果區
廚房用品按照女性的視線高度來擺放(美國婦女的視線高
度是150cm ,男性為163cm)
最舒適的視線角度是視線高度以下15度左右,最好的貨品
陳列位置是在130至135cm之間
新產品擺在暢銷產品旁邊會提升其形象及銷售量
超市撥放的音樂會影響顧客停留的時間。例如:音樂從每
分鐘108拍快板換成60拍慢板,購物量會增加38%
12
Data Mining的步驟
6
5
Interpretation/
Evaluation
4
Visualization
Data Mining
2
1
Transformation
and reduction
Preprocessing
and cleaning
Selection
and sampling
3
OLAP
展示工具
Patterns/model
Transformed
Data
cleaned
Data
Target Data
Database/data
warehouse
DM
13
資料採掘的基本方法
-採掘知識的類型-資料採掘任務(Task)
classification rules(分類規則):
1.




DM
按照分析對象的屬性分門別類加以定義,建立類組(class)
方法:
 為已知訓練值的特徵和分類結果作分類
 找到一個合理的描述或模型,對未知的新資料進行分類
例如:
 將客戶信用申請者的風險屬性,區分為高度風險申請者,
中度風險申請者及低度風險申請者,並藉此預測新客戶
信用等級
技術:建立決策樹、記憶基礎推理(memory-based reasoning)
等
14
資料採掘任務(Task) - Classification
No.
Attributes
Class
Outlook
Humidity
Windy
1
sunny
high
FALSE
N
2
sunny
high
TRUE
N
3
overcast
high
FALSE
Y
4
rain
high
FALSE
Y
5
rain
normal
FALSE
Y
6
rain
normal
TRUE
N
7
overcast
normal
TRUE
Y
8
sunny
high
FALSE
N
9
sunny
normal
FALSE
Y
10
rain
normal
FALSE
Y
11
sunny
normal
TRUE
Y
12
overcast
high
TRUE
Y
13
overcast
normal
FALSE
Y
rain
high
TRUE
N
14DM
15
資料採礦-類型– Classification
Decision tree
outlook
DM
sunny
overcast
rain
humidity
Y
windy
high
normal
true
false
N
Y
N
Y
16
資料採掘任務(Task)
- estimation(推估 )
2.
estimation(推估 ) :
找出資料的順序規則,以便導出資料間的順序關係
 根據既有連續性數值之相關屬性資料,以獲致某一
屬性未知之值
 例如:

1.
2.
光碟租售店發現:看過阿諾史瓦辛格主演的片子後,就會
緊接著看湯姆漢克的電影
按照信用申請者之教育程度、購物行為來推估其信用卡消
費量
技術:包括統計方法上之相關分析、迴歸分析及類
神經網路方法
 分類和推估通常會一起運用

DM
17
資料採掘任務(Task)
- association rules(關聯規則)
3.
association rules(關聯規則):



又稱 affinity grouping (關聯分組、同質分組)
判斷哪些事物會一起出現,決定那些相關物件應該放在一
起
找出資料的關聯性規則,以便推出資料之間的關聯性



DM
A1 →A2,支援度 = S%,信賴度=C%
其中,S和C為客戶指定的支援度 和信賴度的門檻值
例如:
R1「尿布→ 啤酒,支援度 = 5%,信賴度=50% 」
R2「嬰兒用品→ 飲料類,支援度 = 25%,信賴度=80% 」

R2 :更高的抽象層次,更為客觀,有較大的支援度及信賴
度,適合高層決策需求
18
資料採掘任務(Task)
- association rules(關聯規則)範例
3.
Association rules(關聯): (續)
1.
2.
3.
4.
DM
例如:經由記錄客戶購物車的物品,可推出大多數
客戶買了牛奶之後會順便買麵包或包子、饅頭,可
以合併促銷
例如:超市中相關之盥洗用品(牙刷、牙膏、牙線),
放在同一間貨架上
例如:大多數客戶在週五買了尿布的同時會再買啤
酒,看似不相關的物品竟然會有關聯
客戶行銷系統:確認交叉銷售(cross selling)的機會
以設計出吸引人的產品群組
19
資料採掘任務(Task)
- association rules(關聯規則)實作
Association rules(關聯): (續)
3.

實作:一個超級市場的銷售系統,記錄了客戶購物的情況, 表
格1記錄了5個客戶的購物清單
表格1
記錄號
DM
購物清單
1
啤酒、尿布、嬰兒爽身粉、麵包、雨傘
2
尿布、嬰兒爽身粉
3
啤酒、尿布、牛奶
4
尿布、啤酒、洗衣粉
5
啤酒、牛奶、可樂(coke)
20
資料採掘任務(Task)
- association rules(關聯規則)實作作法
3.
Association rules(關聯): (續)


需求:超市經理想知道商品之間的關聯,要求列出那些同
時購買的,且支援度 >= 40 %(即在5筆記錄,至少出現兩
次)的商品名稱
作法:


DM
利用Apriori(驗證)演算法,多次掃描資料庫
去除支援度 < 0.4 的資料,即在5筆記錄中,出現一次以下的
商品名稱
1.
單項:去除{麵包} 、{雨傘}
2.
雙項:去除{尿布、牛奶}
3.
三項:去除{啤酒、尿布、牛奶}
21
資料採掘任務(Task)
- association rules(關聯規則)實作表格
3.
Association rules(關聯): (續)
得出下列表格2及表格3
表格2
單項統計
表格3
支援度
雙項統計
支援度
{啤酒、尿布}
3/5=0.6
{尿布}
4/5=0.8
4/5=0.8
{啤酒、牛奶}
2/5=0.4
{嬰兒爽身粉}
2/5=0.4
{尿布、嬰兒爽身粉}
2/5=0.4
{牛奶}
2/5=0.4
{啤酒}
規則
DM
22
資料採掘任務(Task)
- association rules(關聯規則)實作知識
3.
Association rules(關聯): (續)

DM
獲得的知識:(DbMiner軟體中, 系統自動解釋)
1.
單項統計:

80%的客戶買了啤酒

80%的客戶買了尿布
2.
雙項統計:

60%的客戶同時買了啤酒和尿布

40%的客戶買了啤酒和牛奶

40%的客戶買了尿布和爽身粉
3.
觀察:

買了啤酒的客戶中,又買了尿布的佔
0.6 {啤酒,尿布} / 0.8 {啤酒} = 75 %(信賴度 confident Level)
23
資料採掘任務(Task)
- association rules(關聯規則)實作規則
Association rules(關聯): (續)
3.

得出6條規則:(S:支援度support level,C:信賴度)
1.
2.
3.
4.
5.
6.

表格
S = 60%,C = 0.6 / 0.8 = 75%
R2:尿布→啤酒
 S = 60%,C = 0.6 / 0.8 = 75%
R3:牛奶→啤酒,S = 40%,C = 0.4 / 0.4 = 100%
R4:啤酒→牛奶,S = 40%,C = 0.4 / 0.8 = 50%
R5:尿布→爽身粉,S = 40%,C = 0.4 / 0.8 = 50%
R6:爽身粉→尿布,S = 40%,C = 0.4 / 0.4 = 100%
說明:
1.
2.
DM
R1:啤酒→尿布
R6:爽身粉→尿布,有很高的信賴度,相當合理
R3:牛奶→啤酒,有很高的信賴度,需進一步調查分析
24
資料採掘任務(Task)
- prediction、forecasting (預測)
4.
prediction、forecasting (預測) :


根據資料集內的樣式預估未來的數值
方法:



例如:
1.
2.

DM
根據對象屬性之過去觀察值(歷史性資料)來建立模型,
以檢視近年來觀察值的變化
若運用最新資料作為輸入值, 則可推估該屬性未來之值
由顧客過去之刷卡消費量預測其未來之刷卡消費量
購物籃分析(market basket analysis)
技術:迴歸分析、時間數列分析及類神經網路方
法
25
資料採掘任務(Task)
- Clustering rules(群集規則)
5.
Clustering rules(群集規則):







DM
又稱【無監督式分類】
將許多不同的群組,分成一些更相似的子群組或群集
將異質母體中區隔為較具同質性之群組(clusters)
沒有預先定義好的類別,也沒有訓練樣本,資料是自然產生
區隔,相當於行銷術語的區隔化(segmentation)
統計學早就使用,但只能處理數字型資料。在資料採掘是要
處理非數字性資料
做法:選定要將資料分成幾個群組,讓系統自動歸類,再由
專家觀察各群組特性
技術:k-means法及agglomeration法
26
資料採掘任務(Task)
- Clustering rules 與分類規則的不同點


分類:訓練資訊導向
群集:


DM
直接對資料進行分類,不需事先定義,也不需事
先訓練組的資料
資料依靠本身的相似度(similarity)而群集一起
27
Data Mining 建立六種模式

模式(model)兩種用處:
1.
瞭解資料的特徵與關係可以提供你做決策所需要的資訊

2.
資料的特徵可以幫助你做預測


只對特定的對象做郵購推銷
六種模式 :
1.
2.
3.
4.
5.
6.
DM
如 Association Model 可幫助超級市場或規畫如何擺設貨品
Classification:預測
Regression:預測
Time Series :與 Regression 很像,不同點在於它所分析的數
值都與時間有關
Clustering :預測、描述行為
Association:描述行為
Sequence:描述行為
28
資料採掘導入的四個階段
1.
2.
3.
4.
DM
目標(target)設定
Prototyping
系統建置
系統移植(migration)
29
Data Warehouse、OLAP 和
Data Mining 三者的關係
Data mining :
找出資料倉儲的Pattern
Data
warehouse
彙整不同來源
90
80
70
60
50
40
30
20
10
0
東部
中部
北部
第一季 第二季
第三季 第四季
OLAP:
利用Data mining 找出
的pattern,加以分析供
決策用
的資料
DM
30
Data Mining - 未來展望
 企業:
1. 取得競爭優勢
2. 化被動為主動
 研究者:
1. 致力於知識發掘技術與方法的研究
2. 提供更有用的工具於企業所需的實務操作
DM
31
資料採掘- 軟體
 IBM DB2 Intelligent Miner(IM)
DM
32