Company LOGO

Download Report

Transcript Company LOGO

Chapter 2
Data warehouse
คล ังข้อมูล
อ .กุสุมา สุธาคา
Company LOGO
www.ajkusuma.com
ว ัตถุประสงค์ของการเรียนรู ้
COMPANY
LOGO
อธิบายถึงการทางานของคล ังข้อมูล (data
warehousing) และแนวทางการใชร้ ะบบ
สน ับสนุน
คุณล ักษณะของคล ังข้อมูล
ี ของคล ังข้อมูล
ข้อดีขอ
้ เสย
สถาปัตยกรรมของคล ังข้อมูล
การวิเคราะห์ขอ
้ มูลในคล ังข้อมูล
Chapter 1
2
ความหมาย
COMPANY
LOGO
่
คลังข้อมู ล หมายถึงหลักการหรือวิธก
ี าร เพือรวม
่ การประมวลผลรายการข้อมู ลที่
ระบบสารสนเทศเพือ
้
เกิดขึนในแต่
ละว ันแต่ละสายงาน มารวมเป็ นหน่ วย
่
เดียวก ันเพือสนั
บสนุ นการตัดสินใจให้มป
ี ระสิทธิภาพ
่ น
้
มากยิงขึ

คลังข้อมู ล หมายถึงข้อมู ลในแหล่งข้อมู ลหลายๆ
่
แหล่ง เพือประกอบการตั
ดสินใจให้มป
ี ระสิทธิภาพมาก
่ น
้
ยิงขึ

Company Logo
คุณลักษณะของคลังข้อมู ล
COMPANY
LOGO
่
1) Organization ข้อมู ลถู กจ ัดแบ่งเป็ นหัวข้อและมีสารสนเทศทีสามารถน
ามาใช้
้
สนับสนุ นในการตัดสินใจเท่านัน
่
2) Consistency ข้อมู ลในฐานข้อมู ลทีแตกต่
างกัน (different operational
databases) อาจถู กรวบรวม (code) แตกต่างกัน แต่สาหร ับใน data
warehouse แล้ว มันจะต้องถู กรวบรวมในลักษณะ หรือ ในรู ปแบบเดียวกัน
ตลอดเวลา
้ นจึงสามารถนามาใช้
3) Time variant ข้อมู ลจะถู กเก็บรวมไว้หลาย ๆ ปี ดงั นันมั
ใน การทานายแนวโน้ม การพยากรณ์ และ การเปรียบเทียบต่าง ๆ ตลอดระยะเวลา
่ ด
ทีจ
ั เก็บ
่
4) Non-volatile ข้อมู ลจะต้องไม่ถูก update (ไม่ทาการเปลียนแปลงแก้
ไข)
หลังจาก เก็บเข้าไปใน warehouse แล้ว
5) Relational ในทางปฏิบต
ั แ
ิ ล้ว data warehouse จะใช้โครงสร ้างแบบ
Relational Structure
6) Client/server ใช้สถาปั ตยกรรมแบบ Client/server
7) Web-based ข้อมู ลของ data warehouse ในปั จจุบน
ั นี ้ จะถู กออกแบบให้ม ี
่
efficient computing environment เพือใช้
ใน web-based
application ต่าง ๆ
8) Integration ข้อมู ลมาจากหลายแหล่งต้องรวมเข้าด้วยกันได้
9) Real Time ควรทาให้เป็ นแบบ Real Time
Company Logo
ข้อดีของคล ังข้อมูล
COMPANY
LOGO
1. ให้ผลตอบแทนในการลงทุนสูง
2. ได้เปรียบคูแ
่ ข่ง วิเคราะห์ขอ
้ มูลเพือ
่ กาหนดเป็น
่ พฤติกรรมผูบ
แผนกลยุทธ์ได้กอ
่ นคูแ
่ ข่ง เชน
้ ริโภค
ิ ธิภาพในการต ัดสน
ิ ใจ มีขอ
3. เพิม
่ ประสท
้ มูล
ครบถ้วนจากอดีตจนถึงปัจจุบ ัน
Chapter 1
5
ี ของคล ังข้อมูล
ข้อเสย
COMPANY
LOGO
ั
1. ขนตอนการกรองข้
ั้
อมูลใชเ้ วลานาน ต้องอาศย
ผูท
้ ม
ี่ ค
ี วามชานาญในการกรองข้อมูล
้ เรือ
2. แนวโน้มในการกรองข้อมูลเพิม
่ มากขึน
่ ยๆ
ั อ
้ นให้กระบวนการทางาน
เพิม
่ ความซบซ
3.ใชเ้ วลานานในการพ ัฒนาคล ังข้อมูล
ั อ
้ นสูง
4.ระบบคล ังข้อมูลมีความซบซ
Chapter 1
6
สถาปั ตยกรรมของคลังข้อมู ล
COMPANY
LOGO
Company Logo
กระบวนการทา ETL
COMPANY
LOGO
 ETL ย่อมาจาก Extract, transform, and load คือ
การดึงข้อมู ลจาก Data Source ต่างๆ เข้าสู ่ Data
้
Warehouseแบ่งเป็ น 3 ขันตอนหลั
กด ังนี ้
่
1. Extract คือ การดึงข้อมู ลจากแหล่งข้อมู ลทีแตกต่
างกัน
่ มาจากการ Extract
2. Transform คือ การนาข้อมู ลทีได้
มาจัดรู ปแบบให้ถูกต้องสอดคล้องกัน เช่น
่ ความหมาย
• Data Mapping การทาให้ขอ
้ มู ลทีมี
่
เดียวก ันแต่อยู ่ในรู ปแบบทีแตกต่
างกันให้อยู ่ในรู ปแบบเดียวกัน
• Data Cleansing การตรวจสอบและแก้ไขข้อมู ลให้
ถู กต้อง
่ านการ Transform แล้ว เข้าสู ่
3. Load คือ การนาข้อมู ลทีผ่
Data Warehouse
Company Logo
ความสามารถของ ETL Tools
COMPANY
LOGO
่ ขอ
 Data Cleansing – เมือมี
้ มู ลมาแล้ว เราจะต้องมีการตรวจสอบ
้ าจัดข้อมู ลที่
ความถูกต้องของข้อมู ล แล้วปร ับให้มน
ั ดีขน
ึ ้ รวมทังก
่ อของ ETL Tools ไม่ใช่วา
ผิดพลาดไป (ก็แล้วแต่ราคา และยีห้
่ ทุกๆตัวทา
ได้เหมือนๆกัน)
่
 Data Transformation – ข้อมู ลบางอย่างทีเราได้
มามันไม่ได้อยู ่ใน
่
รู ปแบบทีเราจะเอาไปวิ
เคราะห ์ได้ ง่ ายๆ เช่น เรามีขอ
้ มู ลของคน เช่นวัน
เดือนปี เกิด ของลู กค้า แล้วเวลาเราเอาไปวิเคราะห ์เราไม่ได้เฉพาะเจาะจง
เป็ นวัน เราจะคานวนเป็ นช่วงอายุ เช่นวัยเด็ก ผู ใ้ หญ่ ชรา เป็ นต้น ทาให้
เราต้อง convert ก่อนว่าเป็ นวัยไหน เป็ นต้น แต่วา
่ ยังไงก็ตามบางทีเรา
ไม่ได้ใช้คา
่ จริงๆของมันหรอก เราจะใช้คา
่ เชิงหมวดหมู ่ของมันเป็ นต้น
้ นหน้าทีของ
่
่ ามี ETL Tools ดีๆ
ตรงนี เป็
data transformation ซึงถ้
เราสามารถกาหนดเงื่อนไขในการแปลงให้ได้เลย
 Data Loading and Refreshing – กาหนด schedule ได้วา
่ จะ
่ หรือทุกๆเท่าไหร่ รวมทังยั
้ งสามารถกาหนด
ให้โหลดมาทุกๆกีวัน
storage ปลายทางได้อก
ี ด้วย
Company Logo
การวิเคราะห์ขอ
้ มูลในคล ังข้อมูล
COMPANY
LOGO
1. Query and Report Generator
2. Multidimensional Data Analysis
3. Online Analysis Processing (OLAP)
4. Data Mining Tools
Chapter 1
10
การวิเคราะห์ขอ
้ มูลในคล ังข้อมูล
Chapter 1
COMPANY
LOGO
11
Online Analysis Processing
(OLAP)
COMPANY
LOGO
คือ กระบวนการประมวลผลข้อมู ลทางคอมพิวเตอร ์ ที่
ช่วยให้วเิ คราะห ์ข้อมู ลในมิตต
ิ า
่ งๆ
(Multidimensional Data Analysis)
วิธก
ี ารสร ้าง OLAP Engine อยู ่ 3 แบบตาม
แหล่งข้อมู ลและตามการจัดเก็บผลลัพธ ์การ
ประมวลผล
Company Logo
ROLAP Relational OLAP
COMPANY
LOGO
่
คือ แหล่งทีมาของข้
อมู ลเข้ากระบวนการ OLAP จะ
เป็ นตารางหลายมิตท
ิ เป็
ี่ นตารางข้อมู ลเชิงสัมพันธ ์
่ านวณหา
(Relational) กระบวนการ OLAP เพือค
ผลสรุปรวม (Aggregation) จะสร ้างผลลัพธ ์
กลับไปในเป็ นตารางข้อมู ลเชิงสัมพันธ ์เก็บในที่
่
เดียวก ันก ับแหล่งทีมาข้
อมู ลของข้อมู ลเดิม การ
้
สืบค้นข้อมู ล OLAP ทังหมดจะมาจากตารางเชิ
ง
้
สัมพันธ ์ทังหมด
Company Logo
MOLAP
COMPANY
LOGO
(Multidimensional OLAP)
่
มีการนาข้อมู ลจากแหล่งทีมาและผลลั
พธ ์จากการ
คานวณหาผลสรุปมาจัดเก็บด้วยโครงสร ้างจัดเก็บ
และ Index ใน Server ใหม่ ซึง่ Microsoft จะ
ใช้ชอว่
ื่ า "Plato" เสมือนเป็ นกล่องลู กบาศก ์
่
(Cube) ทีมองเห็
นเป็ นเซลข้อมู ล โดยเป็ นเซลของ
ข้อเท็จจริงตัวเลขตามมิตต
ิ า
่ ง ๆ การพิจารณาข้อมู ล
่
่
ใด ๆ ก็เหมือนการมองข้อมู ลจากมุมทีเปลี
ยนไป
การ
้
สืบค้นข้อมู ล OLAP ทังหมด
จะมาจากกล่อง
้ั
ลู กบาศก ์ของโครงสร ้างใหม่ทงหมด
Company Logo
HOLAP หรือ Hybrid OLAP
COMPANY
LOGO
ลักษณะลู กผสม ด้วยการคงแหล่งข้อมู ลเดิมไว้ แต่จะ
สร ้างข้อมู ลจากผลลัพธ ์สรุปรวม ในโครงสร ้างจัดเก็บ
และ Index ของ Plato แบบใหม่ การสืบค้นข้อมู ล
้
OLAP จะแยกเป็ นทังจากตารางเชิ
งสัมพันธ ์เดิม และ
จากข้อมู ลตามโครงสร ้างใหม่
Company Logo
Online Analysis Processing (OLAP)
COMPANY
LOGO
่ ยให้วเิ คราะห์
 กระบวนการประมวลผลข้อมูลทางคอมพิวเตอร์ ทีช
่ ว
ข้อมูลในมิตต
ิ า่ งๆ (Multidimensional Data Analysis)
 การดาเนินการก ับ OLAP
 1. Roll up / Consolidation
่ .ี่ .
• การปรับระดับความละเอียดของข ้อมูล จากระดับทีล
่ ะเอียด...มาสูท
หยาบขึน
้
 2. Drill Down
่ .ี่ .
• การปรับระดับความละเอียดของข ้อมูล จากระดับทีห
่ ยาบ...ไปสูท
ละเอียดมากขึน
้
 3. Slice
• การเลือกพิจารณาผลลัพธ์บางสว่ นทีเ่ ราสนใจ โดยเลือกเฉพาะค่าทีถ
่ ก
ู
กากับด ้วยข ้อมูลบางค่าของแต่ละมิตเิ ท่านั น
้
 4. Dice
• กระบวนการพลิกแกนหรือมิตข
ิ องข ้อมูล ให ้ตรงตามความต ้องการของ
้
ผู ้ใชงาน

Chapter 1
16
การวางคลังข้อมู ล (warehouse) บน
อินทราเน็ ต
COMPANY
LOGO
Company Logo
Star Schema
COMPANY
LOGO
่
แนวคิดของข้อมู ลใช้งานเพือสนั
บสนุ นการตัดสินใจ
จ ะ มี รู ป แ บ บ แ ส ด ง ข้ อ มู ล แ บ บ ห ล า ย มิ ติ
(Multidimensional Model) โดยมีโครงสร ้าง
่ ตาราง
ตารางข้อมู ลแบบดาว (Star Schema) ทีมี
ข้อเท็จจริงหรือ Fact Table เป็ นตารางข้อมู ลเก็บ
ค่ า ตัว เ ล ข ข อ ง ก า ร วัด ค่ า เ ช่ น ย อ ด ข า ย สิ น ค้ า
้ น ค้า (Quantity) ก าไร
(Amount) จ านวนชินสิ
่
(Profit) และดัช นี ข อ
้ มู ล ส าหร ับการเชือมโยงไปยั
ง
ตารางของมิ ต ิต่ า ง ๆ เช่ น มิต ิเ วลา มิต ิส ิน ค้า มิ ต ิ
สาขาและมิตล
ิ ู กค้า
Company Logo
COMPANY
LOGO
ดัช นี ข้อ มู ลไม่ ว่ า จะเป็ น
Timekey,
Productkey,
Storekey
หรือ
Customerkey จะต้องเป็ นดัชนี ทมี
ี่ ค่าหนึ่ งเดียวใน
ตารางของมิต ิ (Unique) หรือ เรีย กว่ า ดัช นี ห ลัก
่
(Primary Key) ซึงอาจมี
ความหมายเป็ นรหัส
แทนสิ น ค้า หรือ สาขา หรือ อาจเป็ นดัช นี ของค่ า
ต่ อ เนื่ องไม่ ม ี ค วามหมาย ใช้เ พี ย งเพื่ อให้เ กิด การ
่
เชือมโยงจากตารางมิ
ต ิไ ปสู ่ ต ารางข้อ เท็ จ จริง ของ
ตัวเลขสาคัญต่าง ๆ
Company Logo
COMPANY
LOGO
ดัช นี ข อ
้ มู ล ที่มาจากตารางมิต ิเ พื่อบรรจุในตาราง
ข้อ เท็ จ จริง จะถื อ เป็ นดัช นี มาจากภายนอกหรือ
่ องมีการ
เรียกว่า ดช
ั นี ต่างด้าว (Foreign Key) ทีต้
นิ ย ามหรือ ก าหนดไว้แ ล้วในตารางมิต ิ ดัช นี ข ้อ มู ล
้
หลาย ๆ ดัชนี นีรวมก
ัน จะถือเป็ นชุดของค่าหนึ่ งเดียว
่ ซาก
้ น
ทีไม่
ั (Primary
Key
เหมือนกน
ั ) จาก
โครงสร า้ งข้อ มู ลดัง กล่ า วท าให้เ กิด การเชื่อมโยง
ข้อมู ลเป็ นแบบหลายมิต ิ เช่น การแสดงยอดขายรวม
้
(Sum
Amount) และจานวนชินรวม
(Sum
่
Quantity) ของการขายสิน ค้า ของแผนกเครือง
เขี ย น (Product
Department:
"Stationary") ของสาขาในภาคอีส าน (Store
Region = "North East") ประจาเดือนมิถุนายน
Company Logo
(Month = "June") ปี ค.ศ. 1993 (Year
=
COMPANY
LOGO
หลักการสร ้างและการออกแบบข้อมู ล
Snowflake Schema
Store Dimension
Fact Table
Product Dimension
Store Key
Store Key
Store Name
City Key
Product Key
Period Key
Product Key
Product Desc
Units
Price
City Key
Time Dimension
City
Period Key
State
Year
Region
Quarter
City Dimension
Month
COMPANY
LOGO
งาน : ศึกษา กรณี ศก
ึ ษา
คลังข้อมู ลของ Victoria’s Secre
Thank you
Company LOGO
www.themegallery.
com