www.ict.up.ac.th

Download Report

Transcript www.ict.up.ac.th

Chapter 7
คลังข้ อมูล
(Data Warehouse)
วิชา MIS อ. สุ รินทร์ทิพ ศักดิ์ภูวดล
ปี การศึกษา 2553
คลังข้ อมูล (Data Warehouse)
หมายถึง ฐานข้ อมูลที่จดั เก็บข้ อมูลที่ได้ มาจากการสกัดข้ อมูล(Extract)
จากฐานข้ อมูลอื่น ซึงอาจมีโครงสร้ างแตกต่างกัน หรื ออยูบ่ นระบบ
ปฎิบตั ิการแตกต่างกันได้ เพื่อประโยชน์ในการวิเคราะห์และตัดสินใจ
เชิงธุรกิจ
คลังข้ อมูล หมายถึง ฐานข้ อมูลขนาดใหญ่ขององค์กร ซึง่ Extract ข้ อมูล
ที่มาจากฐานข้ อมูลระบบงานประจาวัน หรื อเรี ยกอีกอย่างว่า operational
database และฐานข้ อมูลอื่นภายนอกองค์กร หรื อเรี ยกว่า external
database โดยข้ อมูลในคลังข้ อมูลจะถูกนามาใช้ เพื่อสนับสนุนการตัดสินใจ
บริหารงานของผู้บริหาร โดยเฉพาะการเป็ นข้ อมูลพื ้นฐานให้ กบั ระบบงาน
เพื่อการบริหารงานอื่น เช่น ระบบ DSS หรื อ MIS เป็ นต้ น
Components of a data warehouse
Data warehouse
ESS
Decision & Strategy Making
MIS
DSS
Process Integration &
Consolidated
Data
Data Warehousing
Admin
Transaction Processing
HR
Student
Affairs
Payroll
Library
Finance
Students
คุณสมบัตขิ อง Data warehouse




Subject-Oriented ข้ อมูลจะต้ องถูกสร้ างขึ ้นจากหัวข้ อ (subject) ธุรกิจที่
สนใจ เช่น ถ้ าบริษัทประกันภัยต้ องการใช้ คลังข้ อมูล ฐานข้ อมูลที่ได้ จะต้ อง
สร้ างขึ ้นจากประวัติลกู ค้ า, เบี ้ยประกัน และการเรี ยกร้ องแทนที่จะแยกตาม
ชนิดของผลิตภัณฑ์ หรื อบริการประกันภัย/ประกันชีวิต ข้ อมูลที่สร้ างขึ ้นจะ
ประกอบด้ วยหัวข้ อที่เก็บเฉพาะข่าวสารที่จาเป็ น สาหรับกระบวนการตัดสิน
เท่านัน้
Integrated คือการรวบรวมข้ อมูลจากหลายฐานข้ อมูลปฏิบตั ิการเข้ าด้ วยกัน
และทาให้ ข้อมูลมีมาตราฐานเดียวกัน เช่นกาหนดให้ มีคา่ ตัวแปรของข้ อมูล
ในเนื ้อหาเดียวกันให้ เป็ นแบบเดียวกันทังหมด
้
Time-variant ข้ อมูลซึง่ ใช้ ตดั สินใจที่เก็บไว้ จะต้ องมีอายุประมาณ 5 ถึง 10
ปี เพื่อใช้ เปรี ยบเทียบ หาแนวโน้ ม และทานายผลลัพธ์ในอนาคตได้
Non-volatile ข้ อมูลจะไม่อพั เดตหรื อถูกทาให้ เปลี่ยนแปลงง่ายๆ
ข้ อมูลที่จดั เก็บภายในคลังข้ อมูล จะไม่ถกู แก้ ไข แต่จะถูกเพิ่มข้ อมูลใหม่
ต่อท้ าย โดยไม่ทาการแทนที่ข้อมูลเดิม
OLTP (Online Transaction Processing)




เป็ นการจัดการข้ อมูลรายวัน
มีการ เพิ่ม ลบ แก้ ไขข้ อมูลได้ ตลอดเวลา
ในองค์ กรมีผ้ ูใช้ เป็ นจานวนมาก
มักมีการแก้ ไขข้ อมูลพร้ อมๆกันอยู่ตลอดเวลา
Operational เปรี ยบเทียบกับ Data warehouse
Topic/Function
Operational (OLTP)
Data Warehouse
การเก็บข้อมูล
ข้อมูลจะมีการเก็บกระจัด
กระจายอยูห่ ลายที่
ข้อมูลจะถูกเก็บเป็ นระเบียบ มีขอ้ มูล
สรุปผล (Summary) ข้อมูลสาหรับการ
คานวณต่างๆ และข้อมูลรายละเอียดตาม
ความต้องการ นัน่ คือจะเก็บข้อมูลที่ระดับ
ต่าสุ ดของ transactional detail หรื อหลาย
ๆ ระดับของบทสรุ ปข้อมูล
องค์ประกอบข้อมูล
Application by Application
การรวมข้อมูลทั้งหมดในองค์กร
การจัดเก็บและช่วงเวลา
เก็บข้อมูลปั จจุบนั และข้อมูล เก็บข้อมูล อดีตย้อนหลังเป็ นเวลาหลายปี
อดีตย้อนหลังไม่นาน
Dynamic
Static และมีการ refreshed เป็ นรอบๆ
ลักษณะของข้อมูล
Operational เปรียบเทียบกับ Data warehouse
Topic/Function
Operational (OLTP)
Data Warehouse
การ Normalization
จาเป็ นต้อง Normalization ไม่ตอ้ งทา Normalization
การแก้ไขข้อมูล
เป็ นการแก้ไข field ต่อ
field
รวดเร็ วมีโครงสร้างเพื่อ
การทาซ้ าหลายๆครั้ง
การใช้ประโยชน์
http://sot.swu.ac.th/cp342/lesson15/ms2t1.htm
http://www2.cs.science.cmu.ac.th/useminar/2543/dataware/Design.htm
ไม่ให้มีการแก้ไขข้อมูล
โดยตรง
รวดเร็ ว มีโครงสร้าง
เหมาะสาหรับการ
วิเคราะห์
Data Mart
Data Mart คือ คลังข้ อมูลขนาดเล็ก เพื่อเก็บไว้ ใช้ เป็ นคลังข้ อมูลสาหรับบางส่วน
ขององค์กร Data Mart จึงเป็ นเสมือนส่วนหนึง่ ของคลังข้ อมูลที่เน้ นเฉพาะ
ข้ อมูลสาหรับวัตถุประสงค์บางอย่าง และมักจะถูกเก็บแยกไว้ ในส่วนของ
องค์กรที่ต้องการใช้ ข้อมูลนี ้เท่านัน้ เช่น Data mart สาหรับฝ่ ายขาย และ
การตลาด เพื่อใช้ เป็ นข้ อมูลสาหรับบริการลูกค้ าแตเพียงผู้เดียว
Data Mart
ในบางครัง้ การใช้ งานคลังข้ อมูลโดยตรงอาจทาไม่สะดวก และเกินความ
จาเป็ น (สาหรับงานที่ต้องใช้ เพียงข้ อมูลของตัวเองเท่านัน)
้ ดังนัน้ การแยก
ข้ อมูล Data Warehouse ที่ตรงกับการทางานของแต่ละแผนกออกมา จึง
ต้ องทา Data Mart เพื่อจากัดขอบเขตเฉพาะแต่ละฟั งก์ชนั
การบริหารจัดการ
การเงิน
การผลิต
การตลาด
Data
Warehouse
การขาย
การบัญชี
การบริหารงานบุคคล
แสดงความสัมพันธ์ ระหว่ างคลังข้ อมูล, Data Mart และผู้ใช้
ลักษณะโดยทั่วไปของ Data Mart มีดังนี ้

ข้อมูลเจาะจงไปยังฟังก์ชนั เฉพาะกลุ่ม หรื อหน่วยงานภายในขององค์กร

ให้ผลตอบแทนที่รวดเร็ ว คุม้ ค่ากับการลงทุนในด้านเวลา

การบริ หาร และจัดการข้อมูลสามารถทาได้ง่าย

ช่วยเพิม่ ประสิ ทธิ ภาพ เนื่องจากการสอบถามข้ อมูล(Query) ถูกแบ่งไปยัง
ข้อมูลแต่ละส่ วนของฟังก์ชนั
Online Analytical Processing : OLAP






การประมวลผลเชิงวิเคราะห์แบบออนไลน์ เป็ นการวิเคราะห์ข้อมูล
จานวนมากที่จดั เก็บอยูใ่ นฐานข้ อมูล Data Mart, Data
Warehouse
คือเทคโนโลยี ที่ใช้ ดงึ ข้ อมูลจาก Data Warehouse เพื่อนาไป
วิเคราะห์และหาคาตอบที่ต้องการได้ อย่างมีประสิทธิภาพ
ช่วยในการตัดสินใจทางธุรกิจอย่างมีประสิทธิภาพ
ค้ นหาข้ อมูลรวดเร็ว
หาผลรวมได้ ง่าย และมีประสิทธิภาพ
เรี ยก ดูข้อมูลได้ อย่างรวดเร็ว
Online Analytical Processing : OLAP


OLAP เป็ นการวิเคราะห์ข้อมูลแบบหลายมิติ (Multidimensional data
analysis)
องค์กรอาจใช้ Software วิเคราะห์ข้อมูลหลายมิติ หรื อเครื่ องมือสาหรับการ
สร้ างข้ อมูลหลายมิติโดยตรงจากระบบฐานข้ อมูลเชิงสัมพันธ์ แต่ละมิติของ
ข้ อมูล เช่น สินค้ า ราคา ค่าใช้ จ่าย เขตการขาย หรื อช่วงระยะเวลา สามารถ
แสดงให้ เห็นแนวโน้ มของข้ อมูลในแต่ละมิตเิ หล่านัน้
ตัวอย่างรูปแบบการแสดงผลการวิเคราะห์แบบหลายมิติที่เปรี ยบเทียบ
สินค้ า เขตการขาย ยอดขายจริง และยอดขายที่คาดเดา
Online Analytical Processing : OLAP
Software ที่ใช้ ทา OLAP




Oracle OLAP
IBM DB2 OLAP Server
Microsoft SQL Server Analysis Services
OlapCube
เหมืองข้ อมูล (Data mining)
หมายถึง Software ที่ใช้ ในการค้ นหารูปแบบที่ซอ่ นอยู่ และ
ความสัมพันธ์ระหว่างข้ อมูล และกฏเกณฑ์สาหรับการอ้ างอิงใน
ฐานข้ อมูลขนาดใหญ่มาก สิง่ ที่ได้ รับคือการคาดเดาที่มีผลต่อข้ อมุลที่
จะเกิดขึ ้นในอนาคตซึง่ สามารถนาไปใช้ ในการตัดสินใจของผู้บริหารได้
ผลประโยชน์ ท่ อี งค์ ธุรกิจได้ รับจากการทาเหมืองข้ อมูล
องค์ กร
การนาเหมืองข้ อมูลไปใช้
ShopKo Stores ใช้ เหมืองข้ อมูลค้ นหาความสัมพันธ์ระหว่าง “เหตุ-และ-ผลกระทบ”
ระหว่างสินค้ าที่มีขายในร้ านและนิสยั การซื ้อสินค้ าของลูกค้ า
Northstrom
ใช้ เทคนิคเหมืองข้ อมูลวิเคราะห์ข้อมูลที่ตอบสนองความต้ องการของผู้ใช้
ในเว็บไซท์เพื่อปรับปรุงวิธีการโฆษณาและการให้ บริ การแก่ลกู ค้ า
KeyCorp.
ใช้ เทคนิคเหมืองข้ อมูลกับสินค้ าในครัวเรื อน 3.3 ล้ านชิ ้นและผู้ใช้ 7 ล้ านคน
ในคลังข้ อมูลเพื่อค้ นหาระยะเวลาในการตอบสนองของลูกค้ าต่อสินค้ าที่
โฆษณาด้ วยการส่งจดหมายไปยังลูกค้ าโดยตรง จะได้ ทราบว่าสินค้ าใดที่
ไม่ค้ มุ ค่ากับการตลาดนี ้
วิเคราะห์ข้อมูลลูกค้ าของบริ ษัทเพื่อค้ นหาลูกค้ าใหม่และให้ บริ การหลังการ
ขาย รวมทังให้
้ ข้อเสนอแนะแก่ลกู ค้ าที่ควรเปลี่ยนแผนการโปรโมทไปใช้
บริ การชนิดอื่น
Verizon
Wireless
ซอฟต์แวร์ในระดับ Data Mining




SAS Enterprise Miner
DBMiner
Weka – A suite of machine learning software
written in the Java language.
Microsoft Analysis Services – data mining
software provided by Microsoft.
http://lbdwww.epfl.ch/f/teaching/courses/TPsIBD/DBMinerTutorial.pdf
ประจาภาคการศึกษาที่ 1 ปี การศึกษา 2554
เรี ยนวันที่ 4/1/2554