Transcript Document

第5章 資料倉儲的應用與管理
5.1 資料倉儲的使用者
5.2 資料倉儲應用實例
5.3 資料倉儲的執行技術管理
5.4 資料倉儲的超資料管理
5.5 資料倉儲應用中的法律問題
5.6 資料倉儲的成本與效益分析
習題
5.1 資料倉儲的使用者
5.1.1 資料倉儲的使用者-資訊的使用者與知
識的採掘者
常常需要對倉儲中的龐大資料進行採掘,而採掘的
內容可能是:
• 企業所面對的客戶群中,哪些客戶是使企業營利
的客戶;
• 這些營利客戶應該具有哪些特徵;
• 這些營利客戶在採購程序中經常採購的是哪些種
類的產品;
• 所採購的這些產品彼此之間有什麼樣的相互關係。
5.1.2 資訊使用者的資料倉儲使用方式
資料倉儲的資訊使用者經常是在策略管理階層上,
利用資料倉儲來監控企業策略的實行績效,即經由
對企業營運狀況的關鍵指標之監控,來判斷某一經
營策略是否有效,並將具體的評估結果回饋給資料
採掘者。
5.1.3 資料採掘者的資料倉儲使用方式
資料採掘者使用資料倉儲的一般程序主要有:
1. 狀況分析
資料採掘者所進行的機率分析的內容可能有:
• 經常來採購的客戶性別比例。
• 總共有多少客戶光臨。
• 經常進行採購的客戶數量及其中的比例情況為
何。
•
•
•
客戶的平均採購量。
有多少客戶超過平均採購量。
有多少客戶低於平均採購量等。
2. 資料擷取
資料擷取工作是根據資料採掘的需要和機率分析的
結果,將需要進行分析的資料從資料倉儲中擷取出
來。
3. 建模分析
資料採掘中的建模分析是資料採掘者使用資料倉儲
的核心工作,建模分析是開發用於描述客戶、產品
或銷售商模型的程序。
4. 分類處理
經由建模分析,資料採掘者己從所建模型中分析出
需要的資料,之後他們便可以根據所採掘出的知識
對資料倉儲中的所有資料進行分類。
5.2
資料倉儲應用實例
管理者希望透過使用資料進行各式各樣的分析內
容,以發現有價值的資訊,來用於輔助決策。但
是,管理決策所遇到的問題是不同的,資料倉儲的
應用也各有其特色,應該根據具體的實際情況選擇
適當的資料倉儲開發方案。
5.2.1 分層式決策系統
例如,在各子公司的局部資料倉儲中存放著公司的
電器銷售資訊,各子公司可以對這些細部資料進行
分析、整合,萃取出有用的資訊以供決策之用。表
5-1所示的是設在台北某地的子公司的銷售記錄。
在每次編製好這種整體資料倉儲格式的記錄檔案之
後,便可以將其送入整體資料倉儲中。表5-2所示就
是整體資料倉儲中的彩色電視機銷售匯總資訊。
5.2.2 資料抽樣分析
某化學公司想在不增加投資、不購買設備的條件下
採用採掘現有生產潛力的辦法來增加產量,以提高
效益。公司用產出率來評估每次化學產品生產的效
率,其目的是想經由提高產出率來提高每爐化學產
品的產量。
5.2.3 發揮歷史資料的經濟效益
遠程銷售商為了開展郵購銷售,需要定期向外寄送
商品型錄。消費者接到型錄後,若對某種商品感興
趣,可以打電話詢問更多的資訊。
其中的一種分析報表 (如表5-4所示)從資料倉儲中擷
取了有關客戶的幾個資訊,包括:
• 零售商最後一次與該客戶接觸是什麼時候?
• 客戶上次購買的商品是什麼?
• 該客戶喜歡哪類商品?
5.2.4 回扣分析
當航空公司想要制定某個合理的回扣比率時,就可
以方便而快捷地調出當前匯總資料和歷史匯總資料
進行比較和計算,以便公司在保證航班滿載的條件
下盡量降低成本。
5.2.5
顧客關係管理(CRM)
在顧客關係管理策略中,資料倉儲儲存的客戶之各
類資料,能提供顧客的詳細資訊,用來引導市場銷
售部門與客戶保持緊密的聯繫,使資料倉儲在顧客
關係管理中發揮重要的功能。
1. 穩住顧客
在競爭激烈的市場上,企業所面臨的最大挑戰來自
於客戶的流失。市場競爭中的客戶流失現象是必然
發生的,問題是必須避免重要客戶的流失。所以應
該不斷地進行客戶的細分工作。
2. 管理的收益
利用資料倉儲可以統一掌握客戶資訊,資料倉儲集
中管理了客戶的所有資料,包括購買的歷史資訊和
網路資訊,能夠提供一個統一的顧客資訊管理系
統。這樣就可以迅速並準確地預測客戶需求,提高
盈利能力。
3. 企業的行銷策略管理
現有的客戶可能會帶來新的收益機會,利用交叉銷
售或提升銷售可以使企業獲得銷售額的成長。通
常,企業的業務處理資料是一種特定的資訊來源,
一般僅適用於本企業。
4. 改變競爭的利基
從資料倉儲中的歷史資料中收集關於客戶的知識,
並經由對實際執行結果的快速回饋來加強這些客戶
知識。
5.3 資料倉儲的執行技術管理
5.3.1 資料載入的一些問題
1. 資料準備區
由於資料倉儲的資料擷取、清理、載入需要較長的
工作時間,因此常常設定一個作為資料準備區的臨
時資料庫,專門用於資料擷取、清理和載入的操
作。
2. 資料載入方式的選擇
資料載入的方式一般考慮用整批處理。因為資料的
載入活動使用到的系統資源較多,需要資料來源和
資料倉儲的處理器、記憶體和外部儲存設備。
3. 大批數量資料載入的處理
有的資料源禁止單純的大容量資料載入,這就需要
採用一些特殊的技術來處理大量資料的載入。
大量資料的載入往往會導致資料的更新,而對資料
倉儲的更新,實際上是不允許的,因為資料的更新
將導致資料倉儲中歷史資料的遺失。
5.3.2 故障回復管理
在故障回復管理中可以採用這樣一些步驟
• 停止包括作業系統 (OS) 在內的伺服器。
• 更新安裝和配置作業系統。
• 更新標定驅動器。
• 重新安裝和配置關係資料庫系統、監控程序和中
間元件。
• 對資料進行更新載入和重新索引。
5.3.3 查詢控制與安全管理
控制對資料倉儲的查詢是一個重要的問題,同時任
務也是相當複雜的,主要由以下多種因素造成:
(1) 資料倉儲應用的公開性與安全之間的矛盾
資料倉儲主要用於企業公開搜集的資料,但是,資
料倉儲的安全性控制則要求限制資料執行的公開
化。這就形成了明顯的矛盾。
(2) 使用者的不同查詢請求
在資料倉儲的操作中,使用者按照不同的彙總程度
查詢資料倉儲內的資料。
(3) 知識發現程序對安全的影響
大多數使用者經由“知識發現程序”來使用資料倉
儲。由於使用者需要進行深入的探索,安全控制就
與這一程序間產生了矛盾。
有些隱憂的危害較大,一些不懷好意的使用者可能
會使大量的資源處於停頓狀態,從而使資料倉儲無
法使用。管理無法控制的查詢、建置臨時報表、將
資源範圍用於使用者側面描述等都能指出這些隱
患。
5.3.4 資料增加的管理
(1) 彙總技術
大量使用彙總技術可以明顯地減少資料量。
(2) 對細剖資料的控制。
控制細剖的程度可以大大減少資料量。
(3) 歷史資料的限制。
限制必須儲存到資料倉儲中的歷史資料的長度。
(4) 資料使用範圍的限制
利用能夠改變收集資料環境的商業事件知識來限制
必須管理的資料範圍。
(5) 睡眠資料的移出
有些資料在資料倉儲中長期無人使用。這些原因都
造成了資料倉儲中有大量的睡眠資料。隨著睡眠資
料的增加,導致真正用於查詢處理的實際可用資料
的百分比不斷降低。
解決這個問題的一種辦法就是找出並移除很少被查
詢的資料。將這些很少使用的資料移出資料倉儲,
減少儲存量,便可以提高查詢處理的效率。也可以
採用鄰線儲存系統的二級儲存模式。
5.4 資料倉儲的超資料管理
5.4.1 超資料的儲存、管理與維護
1. 超資料的儲存
(1) 使用商業或資料倉儲資訊目錄。
資訊目錄可以儲存和管理超資料,用於資料倉儲應
用程式。資料倉儲的所有內部程式都可以查詢該目
錄。
(2) 使用超資料庫/資料字典。
超資料庫或資料字典是一種一般意義上的分類方
法,通常用於儲存、分類和管理超資料。
2. 超資料的管理
(1) 將超資料組織成易於了解的分類方案。能夠依
靠超資料庫或資料字典的資訊,將超資料組織
為易於理解的分類方案。
(2) 績效分析和搜尋有效範圍的能力。具備對資料
倉儲的使用進行績效分析和搜尋有效範圍的能
力。
(3) 將設計開發超資料與運作超資料分隔成各自獨
立的功能。
將設計開發超資料與運作超資料分離成各自獨立的
功能,一般用於分隔邏輯分析模型和實體資料庫模
型。
(4) 反應修改歷史的超資料版本資訊
版本資訊能夠反應超資料版本變化的日期以及進行
修改的操作人。
3. 超資料的維護
在超資料儲存進入系統以後,就需要經常對超資料
進行維護,才能保證超資料的可用性。超資料的維
護方式取決於超資料產生時的收集方式、變化頻率
和超資料量。
5.4.2
超資料的使用者與使用方法
1. 超資料的資料倉儲開發使用者
資料倉儲開發人員使用的超資料主要包括
• 資料源的實體結構。
• 企業資料模型和資料倉儲資料模型。
在資料倉儲開發工作中需要對資料源的超資料進行
分析,根據分析結果在資料源和資料倉儲之間建立
映射。
2. 超資料的資料倉儲維護使用者
在資料倉儲開發好以後,資料倉儲維護人員需要對
資料倉儲進行維護,超資料在資料倉儲的維護工作
中可以發揮重要的作用。
•
維護人員用超資料能夠了解資料源的變化、資
料倉儲的變化對資料倉儲的性能及應用等方面
的影響。
• 資料倉儲維護人員還可以利用超資料保持資料倉
儲的完備性和正確性。
• 資料倉儲維護人員對超資料的使用包括到所有的
超資料,並且要求能夠直接對超資料進行查詢。
3. 超資料的資料倉儲終端使用者
資料倉儲最終使用者對超資料的查詢範圍要遠小於
超資料的資料倉儲開發使用者和維護使用者,但是
對超資料查詢的要求卻要高於其他使用者。
資料倉儲終端使用者在使用超資料時,主要希望能
夠經由超資料了解資料倉儲中有什麼資料,以及這
些資料是從哪些地方來的。
4. 超資料的使用方法
目前,超資料的使用方法主要有以下幾種:
(1) 超資料與分析資料同時各自顯示,
是指在一台電腦上分別用兩種工具顯示超資料和分
析資料。
(2) 將超資料作為分析資料的協助工具。
使用者在這種超資料使用方式下,可以利用系統的
協助來了解所查詢的分析資料。
(3) 超資料的直接查詢
超資料的查詢工具可以直接地、動態地查詢超資
料,能為使用者提供最新的協助系統。
(4) 超資料與分析資料的互動。
超資料與分析資料執行互動以後,使用者在超資料
瀏覽器中瀏覽超資料時,就可以將所選定的表或查
詢自動地輸入查詢工具。
5.4.3 超資料管理模型
在討論超資料模型時,必須提到超資料交換規則
(MDIS)。這是一個由包括微軟在內的有上百個成員
的超資料聯盟所提出的超資料交換規則,規則涵蓋
了資料庫、檔案、關係、使用者自訂定義、專用超
資料等不同物件類型。
1.
開發資訊模型
在開發資訊模型結構中的統一建模語言模型(UML,
Unified Modeling Language Model)是其他模型的原
型,其他模型都由此衍生而來。
• UML延伸模型(UML Extension Model)為UML提供
了一套彙總的延伸,為建立在UML概念水準上的
固定形式提供模型。
• 資料類型模型(DTM,,Data Type Model)為描述資
料類型規定了介面,其中包括執行語言和資料庫。
• 彙總模型(Gen,Generic Model)為多個資訊模型之
間的使用,提供了一系列普遍目的或一般的介面。
• 元件描述模型(CDM,Component Description
Model)為即時元件及其規格建立了介面和等級。
• 元件物件模型(COM,Component Object Model)為
其本身提供了一係列延伸。
• 資料庫模型(DBM,Database Model)描述了企業的
資料庫計劃資訊。
• SQL Server模型(Sql,SQL Server Model)用於SQL
Server的資料庫模型延伸。
• DB2模型(DB2,DB2 Model)用於Db2的資料庫模型
延伸。
• OLAP模型(Olap,OLAP Model)是資料庫模型的延
伸,描述了資料的多維視覺圖。
• Informix模型(Ifx,Informix Model)用於Informix資
料庫模型延伸。
• 資料庫轉換模型(DTM,Database Transformation
Model)描述了資料庫之間的資訊活動。
• Orac1e模型(Ocl,Oracle Model)用於0racle的資料庫
模型延伸。
• 語義資訊模型(SIM,Semantic Information Model)允
許使用者不用學習查詢資料庫的語言就可以處理
資料庫中的資料。
2. 通用倉儲超資料
Oracle與IBM在OLAP委員會的超資料API(MDAPI)基
礎上提出了超資料模型的解決方案-通用倉儲超資
料(CWM,Common Warehouse Metadata)。
5.5 資料倉儲應用中的法律問題
在資料倉儲與資料採掘中所擴及到的法律問題,主
要是指客戶的隱私權權保護與處理問題。由於資料
倉儲與資料採掘所具有的強大的資料處理功能,可
以將原本分散在各系統中、隱藏在資料背後的客戶
資訊集中在一起,並清晰地表現出來。
5.5.1 資料的隱私權權問題
客戶的隱私權問題是全世界所有企業都關注的議
題。雖然這在資料倉儲管理中只是一個背景問題,
卻已引起了各方的關注,當大最的客戶資訊儲存在
資料倉儲中時,資料倉儲的擁有者就有義務保護這
些客戶的資料,以免遭到濫用。
5.5.2 資料隱私權權的處理
1. 資料隱私權的處理
(1) 應該讓客戶知道以下資訊:
所收集或使用的個人資訊的存在性及本質、資料收
集的政策;任何類型處理的預期目的。
例如:資料的收集、應用或揭露等;“資料控制員”
以及其他接收資料人員的身份;任何自動處理中包
括的邏輯。
(2) 收集和使用限制
應將收集和使用限定為有明確、具體和合法目的
的。相對於起始目的來說,資料必須是適當的、相
關的且不過分的。
(3) 接受和拒絕。
客戶應能接受將個人資料用於直接行銷,並可以拒
絕將個人資料透露給第三者。客戶也可以經由明確
接受,表示同意資料的使用目的。
(4) 資料品質、查詢、準確性和修正。
應該給客戶提供一種能力,使他們能對不準確或不
完全的個人資料加以檢查和修正。
(5) 資料安全
確保個人資料不流失,不發生未經授權的查詢、破
壞、更動、使用或洩露。
(6) 義務、強制和求助。
支援現存法律和補充規則的強制執行,支援國家隱
私權管理部門所認定,應該達到的隱私權控制要
求。
2. 資料隱私權控制結構
為了達到上述隱私權處理要求,需要建立一個隱私
權控制架構。其架構如下:
(1) 加強邏輯資料模型。
為了強調隱私權,應該首先檢查一下公司已開發的
邏輯資料模型,並將所有與“客戶”相關的資料進行
實際確認
(2) 用隱私權視支援限制性查詢、拒絕和匿名
應該將應用分類應用於下述類型的視圖中:
•
•
•
•
分析應用:"匿名化"視覺圖。
採取行動應用:"直接行銷拒絕"視覺圖。
揭露應用:"選擇性匿名化"視覺圖。
特別管理應用和使用者:"個人資料"視覺圖。
•
所有其他應用:"標準"視覺圖。
(3) 為個人資料管理提供互動式客戶服務介面
在建立了延伸模式導向的資料倉儲,並加進了額外
個人資料欄位和“拒絕”標示之後,就需要一種方法
為這些額外的列加入特殊的客戶資料。
(4) 提供報告,驗證是否遵重隱私權。
隱私權問題的另一個方面是需要對遵守情況進行驗
證。驗證可以由一個獨立組織、政府部門或自我驗
證來完成。
5.6 資料倉儲的成本與效益分析
資料倉儲和所有的資訊技術(Information
Technology,IT)一樣,都是經由投資來提高企業的
競爭能力和營利水平的,因此,企業需要制定資料
倉儲計劃(商業的和技術的),並進行成本/效益分
析(Cost Benefit Analysis)。
5.6.1 資料倉儲的投資報酬的定量分析
評估投資機會的方法有很多,主要有投資報酬率
(ROI,Return On Investment)、回收期間(Payback
Period)、淨現值(Net Present Value);,和內部報酬率
(Internal Rate of Return)等。
ROI的數學運算式如下:
回收時間,是指一個企業收回所有投資需要的全部
時間。許多重視投資產生效益所需要的時間的企業
往往很關心這一個指標。投資回收時間的計算公式
如下:
I
T=t+
B- C
5.6.2 資料倉儲投資報酬的定性分析
資料倉儲的投資報酬的定性分析可以從下列幾個層
面考量:
(1) 以客為尊
資料倉儲可以為企業建立一個關於客戶與產品種
類、地區與銷售通路之間關係的整合的視覺圖。
(2) 建立企業內部的合作關係
企業中各個部門之間的合作關係不佳,往往是困擾
企業管理的主要問題,它嚴重地妨礙了企業的發
展。資料倉儲為各個獨立的視覺圖與企業最終目標
的聯合提供了基礎。
(3) 掌握商機作出快速反應
資料倉儲能夠及時地為決策提供需要的豐富資訊,
包括當前的細節資訊、各個不同時間點的歷史資
訊,以及日、周、月、年的各種匯總資訊。
(4) 既能夠管理整體性資料也能夠管理局部性資料。
如何在維護企業的整體視覺圖與維護企業內部的細
節性資料之間進行權衡,一直是管理人員難以解決
的問題。
(5) 持續改善控管能力
資料倉儲能夠妥善地處理大量資料,為主管提供監
視與測量事件狀況的能力,提供對事情發展控管的
能力,使管理者能夠得出僅憑直覺難以獲得的結
論,而有效地提高控管能力。