關聯規則分析

Download Report

Transcript 關聯規則分析

資料探勘期末報告
第 10 組
組員姓名:
黃順安、張駿凱、蘇麒文、陳汝建
一.摘要:

在以滿足市場需求為競爭關鍵的時代中,
良好的銷售分析管理是企業提昇競爭力的
重要關鍵。企業若能掌握住銷售關鍵必能
帶來高額的獲利及減少損失。

本研究從 A 公司 2003 年銷售 6 萬 8 千
多筆資料中運用資料探勘之相關技術:決
策樹分析、貝氏機率分析、關聯規則分析、
群集分析等四種技術。

本次分析係以盈虧(最主要是分析盈餘)
作為自變數輸出,因此新增一欄「級距」

設定盈虧 <0 時為 0;盈虧大於等於零,
小於等於 30000 時為 1;盈虧大於等於
30001,小於等於 50000 時為 2;盈虧大
於等於 50001,小於等於 70000 時為 3;
盈虧大於等於 70001 時為 4,藉此條件來
分析 A 公司 2003 年的銷售情況並發掘出
有價值的知識,以供企業經營決策的參考。
使用之採礦技術:
ㄧ.
二.
三.
四.
決策樹
單純貝氏分類器
關聯規則
集群分析
分析過程:


資料篩選及取樣:
將取得之數據進行異常值與離群值篩選,
其中離群值部份則係將單價、全部商品成
本 與 盈虧 三欄位,利用 Z 分數判定法
與 盒型圖判定法 進行篩選。如下圖所示。
單價
全部商品成本
取得之原始數據
盈虧
Z分數判定法
盒型圖判定法

經由篩選後之資料數為 58951 筆,透過
Integration Service 之百分比取樣,先
隨機取樣 10% ,再將 10% 的取樣資料依
3:7 比例再次取樣為訓練檔與測試檔,
得出訓練檔 4618 組資料,測試檔 1162
組資料。
Integration Service SSIS 百分比取樣


將資料匯入SQL中,形成訓練檔、測試檔
兩資料表,並檢視其欄位資料形態是否正
確。
進行決策樹、貝氏機率、關聯規則與群集
採礦結構分析,並藉由系統建議設定商品
成本、折扣總額、尺寸、數量、單價折扣
及顏色作為因變數,並將輸出資料欄
「級距」之內容類型設為 Discrete。
將級距改為連續不分段Discrete
分析方法 :
一. 決策樹
設定模型檢視器預測值設為1
決策樹之資料採礦增益圖
決策樹之採礦圖例百分比於母體55.51%預測機率為99.87%
決策樹之分類矩陣,實際1與預測1為最高
分析方法 :
二. 貝氏機率分析
貝氏機率分析級距與商品成本關聯性最強
貝氏機率分析級距與商品成本關聯性最強其次為折扣總額
設定模型檢視器預測值設為1
貝氏機率之資料採礦增益圖
貝氏機率之採礦圖例百分比於母體55.61%預測機率為99.38%
貝氏機率之分類矩陣,實際1與預測1為最高
分析方法 :
三. 關聯規則分析
採礦模型中之相依性網路, 當級距=1時與單價折扣<4有強關聯性
當級距=0時與單價折扣=4-7有強關聯性
關聯規則之資料採礦增益圖
關聯規則之採礦圖例百分比於母體53.55%預測機率為89.77%
關聯規則之分類矩陣,實際1與預測1為最高
分析方法 :
四. 群集分析
採礦模型中之相依性網路
群集9與群集10有強關連性
群集9與群集10有強關連性其次為群集1與群集8
群集之資料採礦增益圖於百分比於母體53.61%預測機率為98.37%
群集之分類矩陣,實際1與預測1為最高
結論:

從本研究發現商品成本與單價總額、單價
折扣有密切關係而且最有可能影響商品盈
虧,機率為最高,在市場上,相同的商品,
當在制定單價並進行折扣行銷時,應該密
切注意所取得的商品成本與銷售的數量,
以確保基本利潤的獲得。由此得到之結果
將有助於企業在於行銷策略銷售方面有更
進一步幫助。掌握前者三者關係勢必可帶
來更大的獲利並且也可降低虧損達到最大
效果。


同時,本組將四種採礦分析之預測機率與
分類矩陣整理成一覽表,並且嘗試在不經
由取樣的過程而完整的分析整分資料,所
得出之機率更高。
透過一覽表,我們也發現,就此次研究而
言,決策樹採礦分析所提供的數據最具準
確性,也具有ㄧ定的參考價值。



數據提供者所提供的資料欄位如果有所缺
失,將導致無法在探勘分析時獲知更進一
步詳細的資料。
例如,資料欄位提供銷售分店的地區名稱
或消費者的性別或年齡層,可藉此得知當
地消費者習性,藉以調整進貨庫存的分析
依據。
因此,資料的完整取得以及數據的正規化
是影響分析結果相當重要的ㄧ環。
四種採礦分析之預測機率ㄧ覽表
http://219.87.146.50/cit.htm
The End