Transcript 關聯規則分析
資料探勘期末報告 第 10 組 組員姓名: 黃順安、張駿凱、蘇麒文、陳汝建 一.摘要: 在以滿足市場需求為競爭關鍵的時代中, 良好的銷售分析管理是企業提昇競爭力的 重要關鍵。企業若能掌握住銷售關鍵必能 帶來高額的獲利及減少損失。 本研究從 A 公司 2003 年銷售 6 萬 8 千 多筆資料中運用資料探勘之相關技術:決 策樹分析、貝氏機率分析、關聯規則分析、 群集分析等四種技術。 本次分析係以盈虧(最主要是分析盈餘) 作為自變數輸出,因此新增一欄「級距」 設定盈虧 <0 時為 0;盈虧大於等於零, 小於等於 30000 時為 1;盈虧大於等於 30001,小於等於 50000 時為 2;盈虧大 於等於 50001,小於等於 70000 時為 3; 盈虧大於等於 70001 時為 4,藉此條件來 分析 A 公司 2003 年的銷售情況並發掘出 有價值的知識,以供企業經營決策的參考。 使用之採礦技術: ㄧ. 二. 三. 四. 決策樹 單純貝氏分類器 關聯規則 集群分析 分析過程: 資料篩選及取樣: 將取得之數據進行異常值與離群值篩選, 其中離群值部份則係將單價、全部商品成 本 與 盈虧 三欄位,利用 Z 分數判定法 與 盒型圖判定法 進行篩選。如下圖所示。 單價 全部商品成本 取得之原始數據 盈虧 Z分數判定法 盒型圖判定法 經由篩選後之資料數為 58951 筆,透過 Integration Service 之百分比取樣,先 隨機取樣 10% ,再將 10% 的取樣資料依 3:7 比例再次取樣為訓練檔與測試檔, 得出訓練檔 4618 組資料,測試檔 1162 組資料。 Integration Service SSIS 百分比取樣 將資料匯入SQL中,形成訓練檔、測試檔 兩資料表,並檢視其欄位資料形態是否正 確。 進行決策樹、貝氏機率、關聯規則與群集 採礦結構分析,並藉由系統建議設定商品 成本、折扣總額、尺寸、數量、單價折扣 及顏色作為因變數,並將輸出資料欄 「級距」之內容類型設為 Discrete。 將級距改為連續不分段Discrete 分析方法 : 一. 決策樹 設定模型檢視器預測值設為1 決策樹之資料採礦增益圖 決策樹之採礦圖例百分比於母體55.51%預測機率為99.87% 決策樹之分類矩陣,實際1與預測1為最高 分析方法 : 二. 貝氏機率分析 貝氏機率分析級距與商品成本關聯性最強 貝氏機率分析級距與商品成本關聯性最強其次為折扣總額 設定模型檢視器預測值設為1 貝氏機率之資料採礦增益圖 貝氏機率之採礦圖例百分比於母體55.61%預測機率為99.38% 貝氏機率之分類矩陣,實際1與預測1為最高 分析方法 : 三. 關聯規則分析 採礦模型中之相依性網路, 當級距=1時與單價折扣<4有強關聯性 當級距=0時與單價折扣=4-7有強關聯性 關聯規則之資料採礦增益圖 關聯規則之採礦圖例百分比於母體53.55%預測機率為89.77% 關聯規則之分類矩陣,實際1與預測1為最高 分析方法 : 四. 群集分析 採礦模型中之相依性網路 群集9與群集10有強關連性 群集9與群集10有強關連性其次為群集1與群集8 群集之資料採礦增益圖於百分比於母體53.61%預測機率為98.37% 群集之分類矩陣,實際1與預測1為最高 結論: 從本研究發現商品成本與單價總額、單價 折扣有密切關係而且最有可能影響商品盈 虧,機率為最高,在市場上,相同的商品, 當在制定單價並進行折扣行銷時,應該密 切注意所取得的商品成本與銷售的數量, 以確保基本利潤的獲得。由此得到之結果 將有助於企業在於行銷策略銷售方面有更 進一步幫助。掌握前者三者關係勢必可帶 來更大的獲利並且也可降低虧損達到最大 效果。 同時,本組將四種採礦分析之預測機率與 分類矩陣整理成一覽表,並且嘗試在不經 由取樣的過程而完整的分析整分資料,所 得出之機率更高。 透過一覽表,我們也發現,就此次研究而 言,決策樹採礦分析所提供的數據最具準 確性,也具有ㄧ定的參考價值。 數據提供者所提供的資料欄位如果有所缺 失,將導致無法在探勘分析時獲知更進一 步詳細的資料。 例如,資料欄位提供銷售分店的地區名稱 或消費者的性別或年齡層,可藉此得知當 地消費者習性,藉以調整進貨庫存的分析 依據。 因此,資料的完整取得以及數據的正規化 是影響分析結果相當重要的ㄧ環。 四種採礦分析之預測機率ㄧ覽表 http://219.87.146.50/cit.htm The End