229-611 Data Warehousing and Data Mining ผศ.ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์

Download Report

Transcript 229-611 Data Warehousing and Data Mining ผศ.ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์

229-611 Data Warehousing
and Data Mining
ผศ.ดร. วิภาดา เวทย์ประสิ ทธิ์
ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์
ห้ อง CS 108 E-mail : [email protected]
Website : http://staff.cs.psu.ac.th/wiphada
วัตถุประสงค์
1. ให้นกั ศึกษามีความรู ้ความเข้าใจเกี่ยวกับการจัดการเหมืองข้อมูลได้
2. ให้นกั ศึกษาสามารถทาเหมืองข้อมูลได้
3. ให้นกั ศึกษาสามารถศึกษาค้นคว้าด้วยตนเองเกี่ยวกับการทา
เหมืองข้อมูลได้
344-662 Data Warehousing and Data Mining
2
Chapter 1
เนื้อหา
•
•
•
•
•
•
•
•
•
•
•
•
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
Chapter
1 : Introduction
2 : Data Warehouse
3 : Data Mining
4 : Basic Data Mining Techniques
5: Data Mining a Closer Look
6 : Cross Validation
7 : Decision Tree
8 : Association Rules
9 : The K- Means Algorithm
10 : Neural Networks
11 : Statistical Techniques
12 : Rule Base System
344-662 Data Warehousing and Data Mining
3
Chapter 1
เอกสารประกอบการสอน
1. Data Mining A tutorial-Based Primer, Richard J. Roiger and Michael W. Geatz,
Pearson Education Inc., 2003.
2. Mining Very Large Databases with Parallel Processing, Alex A. Freitas
and Simon H. Lavington, Kluwer Academic Publishers, 1998.
3. การออกแบบและพัฒนาคลังข้อมูล (Data Warehouse), กิตติ ภักดีวฒั นะกุล,
บริ ษทั เคทีพี คอมพ์ แอนด์ คอนซัลท์, 2546
4. คัมภีร์ระบบสนับสนุนการตัดสิ นใจ และระบบผูเ้ ชี่ยวชาญ (Decision Support
Systems and Expert Systems), กิตติพงษ์ กลมกล่อม, บริ ษทั เคทีพี คอมพ์ แอนด์
คอนซัลท์, 2546
344-662 Data Warehousing and Data Mining
4
Chapter 1
Chapter 1
Introduction
Content
• Data Warehouse (คลังข ้อมูล)
• Data Warehousing (การคลังข ้อมูล)
• Data Mining (เหมืองข ้อมูล)
344-662 Data Warehousing and Data Mining
6
Chapter 1
ปัญหาของการนาฐานข้อมูลหลายแบบมารวมกัน
•
•
•
•
1. H/W S/W หลายชนิด
้
2. Data Redundancy เกิดความซ้าซอนของข
้อมูล
3. Data Inconsistency ข ้อมูลไม่สอดคล ้องกัน
4. Coding System ระบบการให ้รหัสเกิดปั ญหา
้ (Multiple Standard)
มาตราฐานซอน
• การพัฒนาระบบแบบยุ ้งฉาง (Silo-based System)
– งานใครงานมัน
344-662 Data Warehousing and Data Mining
7
Chapter 1
ที่มาของคลังข้อมูล
• Business Integration
– ต ้องการมีมาตราฐานเดียวในการเก็บข ้อมูลขององค์กร
• มี 2 แบบ
• 1. Partial Business Integration
– Point to Point Business Integration
– Middleware Business Integration
• 2. Overall Business Integration
344-662 Data Warehousing and Data Mining
8
Chapter 1
ที่มาของคลังข้อมูล
• 1. Partial Business Integration
– Point to Point Business Integration
ื่ มโยงระหว่างระบบ 2 ระบบให ้ติดต่อกันได ้
• เชอ
• แต่ละระบบงานทางานทดแทนกันไม่ได ้
• มีปัญหา Spaghetti Phenomenon
– Middleware Business Integration
• มีกลุม
่ H/W S/W ทีเ่ ป็ นตัวกลางในการแปลงและแลกเปลีย
่ น
ข ้อมูลระหว่างระบบงานต่างๆ
ิ ธิภาพมากขึน
• มีประสท
้
344-662 Data Warehousing and Data Mining
9
Chapter 1
Point to Point Business Integration
344-662 Data Warehousing and Data Mining
10
Chapter 1
ที่มาของคลังข้อมูล
• 2. Overall Business Integration
• ออกแบบและพัฒนาระบบใหม่ โดยรวมเอาเนือ
้ หาของข ้อมูล
ทัง้ หมดในองค์กรให ้เป็ นหนึง่ เดียว ไม่แยกออกเป็ นสว่ นๆ
• หลายองค์กรเป็ นระบบเดียว เนือ
้ หาเดียวกัน
• Unified Standard
• Maximize data consistency
• Minimize data redundancy
344-662 Data Warehousing and Data Mining
11
Chapter 1
Data Warehouse (คลังข ้อมูล)
• คลังข ้อมูล หมายถึง.... หลักการหรือวิธก
ี าร เพือ
่ รวมระบบ
สารสเทศเพือ
่ การประมวลผลรายการข ้อมูลทีเ่ กิดขึน
้
ในแต่ละวันแต่ละสายงาน มารวมเป็ นหน่วยเดียวกัน
ิ ใจให ้มีประสท
ิ ธิภาพมากยิง่ ขึน
เพือ
่ สนับสนุนการตัดสน
้
• คลังข ้อมูล หมายถึง.... ข ้อมูลในแหล่งข ้อมูลหลายๆแหล่ง
ิ ใจให ้มีประสท
ิ ธิภาพมากยิง่ ขึน
เพือ
่ ประกอบการตัดสน
้
่ ลิตภัณฑ์ หรือระบบสาเร็จรูป
• คลังข ้อมูล ไม่ใชผ
• คลังข ้อมูล มีความเป็ นสว่ นตัวของแต่ละองค์กร
(Organization Customized System)
344-662 Data Warehousing and Data Mining
12
Chapter 1
คุณลักษณะของคลังข ้อมูล
•
•
•
•
1.
2.
3.
4.
Subject-Oriented
Integrated
Time-Variant
Non-Volatile
344-662 Data Warehousing and Data Mining
13
Chapter 1
คุณลักษณะของคลังข ้อมูล
• 1. Subject-Oriented
ื ค ้น จัดตามประเด็นหลักของ
– ข ้อมูลถูกจัดกลุม
่ ให ้เหมาะสมกับการสบ
่
องค์กร เชน
ิ ค ้า ยอดขาย
• ลูกค ้า สน
– ข ้อมูลจะ....ไม่ถก
ู จัดตามหน ้าทีก
่ ารงาน....ของโปรแกรมใดโปรแกรม
่
หนึง่ เชน
ิ ค ้า การออกใบกากับภาษี
• การควบคุมคลังสน
• 2. Integrated
– จัดข ้อมูลให ้อยูใ่ นรูปแบบเดียวกัน จากแหล่งข ้อมูลหลายแหล่ง
344-662 Data Warehousing and Data Mining
14
Chapter 1
คุณลักษณะของคลังข ้อมูล
• 3. Time-Variant
้
– ข ้อมูลต ้องมีความถูกต ้อง เพราะเก็บไว ้ใชนาน
5-10 ปี
• 4. Non-Volatile
่ าร
– การปรับปรุงข ้อมูลเป็ นการเพิม
่ ข ้อมูลใหม่เข ้าไปเรือ
่ ยๆ ไม่ใชก
แทนทีข
่ ้อมูลเก่า
– ข ้อมูลในคลังข ้อมูล....ไม่จาเป็ น...ต ้องทาการ Normalize เหมือนใน
ฐานข ้อมูล (Data based)
344-662 Data Warehousing and Data Mining
15
Chapter 1
ข ้อดีของคลังข ้อมูล
• 1. ให ้ผลตอบแทนในการลงทุนสูง
• 2. ได ้เปรียบคูแ
่ ข่ง วิเคราะห์ข ้อมูลเพือ
่ กาหนดเป็ น
่ พฤติกรรมผู ้บริโภค
แผนกลยุทธ์ได ้ก่อนคูแ
่ ข่ง เชน
ิ ธิภาพในการตัดสน
ิ ใจ มีข ้อมูล
• 3. เพิม
่ ประสท
ครบถ ้วนจากอดีตจนถึงปั จจุบน
ั
344-662 Data Warehousing and Data Mining
16
Chapter 1
ี ของคลังข ้อมูล
ข ้อเสย
้
ั ผู ้
• 1. ขัน
้ ตอนการกรองข ้อมูลใชเวลานาน
ต ้องอาศย
ทีม
่ ค
ี วามชานาญในการกรองข ้อมูล
• 2. แนวโน ้มในการกรองข ้อมูลเพิม
่ มากขึน
้ เรือ
่ ยๆ
ั ซอนให
้
เพิม
่ ความซบ
้กระบวนการทางาน
้
• 3.ใชเวลานานในการพั
ฒนาคลังข ้อมูล
ั ซอนสู
้
• 4.ระบบคลังข ้อมูลมีความซบ
ง
344-662 Data Warehousing and Data Mining
17
Chapter 1
Data Warehousing (การคลังข ้อมูล)
• การคลังข ้อมูล คือ การออกแบบ และสร ้าง
โครงสร ้างของข ้อมูลในคลังข ้อมูล รวมถึง
– วิธก
ี ารได ้มาของข ้อมูล
– วิธก
ี ารสร ้างผลลัพธ์จากข ้อมูลทีม
่ ี
ิ ธิภาพ
– วิธก
ี ารดูแลรักษา และวิธก
ี ารปรับปรุงประสท
344-662 Data Warehousing and Data Mining
18
Chapter 1
สถาปั ตยกรรมของคลังข ้อมูล
•
•
•
•
•
•
1. Data Acquisition System
2. Data Staging Area
3. Data Warehouse Database /Data Store
4. Data Provisioning Area /Data Mart
5. End User Terminal
6. Metadata Repository
344-662 Data Warehousing and Data Mining
19
Chapter 1
สถาปั ตยกรรมของคลังข ้อมูล
344-662 Data Warehousing and Data Mining
20
Chapter 1
สถาปั ตยกรรมของคลังข ้อมูล
• 1. Data Acquisition System
– รับข ้อมูลจากภายนอก
• 2. Data Staging Area
้
– Data Cleansing ลดความซ้าซอนของข
้อมูล
– Filtering เลือกเฉพาะข ้อมูลทีม
่ ป
ี ระโยชน์
• 3. Data Warehouse Database /Data Store
– Data Model การออกแบบจาลองข ้อมูล
– การจัดเก็บข ้อมูล
344-662 Data Warehousing and Data Mining
21
Chapter 1
สถาปั ตยกรรมของคลังข ้อมูล
• 4. Data Provisioning Area / Data Mart
– การรายงานผลลัพธ์ตา่ งๆทีจ
่ าเป็ นสาหรับการวิเคราะห์ข ้อมูล
• 5. End User Terminal
– Simple Report Tool
– Multi Dimensional Tools
– Data Mining Tools
• 6. Metadata Repository
้ บข ้อมูลทีใ่ ชควบคุ
้
– ใชเก็
มการทางานในคลังข ้อมูล
344-662 Data Warehousing and Data Mining
22
Chapter 1
การวิเคราะห์ข ้อมูลในคลังข ้อมูล
•
•
•
•
1. Query and Report Generator
2. Multidimensional Data Analysis
3. Online Analysis Processing (OLAP)
4. Data Mining Tools
344-662 Data Warehousing and Data Mining
23
Chapter 1
การวิเคราะห์ข ้อมูลในคลังข ้อมูล
344-662 Data Warehousing and Data Mining
24
Chapter 1
การวิเคราะห์ข ้อมูลในคลังข ้อมูล
344-662 Data Warehousing and Data Mining
25
Chapter 1
Online Analysis Processing (OLAP)
• กระบวนการประมวลผลข ้อมูลทางคอมพิวเตอร์ ทีช
่ ว่ ยให ้วิเคราะห์ข ้อมูล
ในมิตต
ิ า่ งๆ (Multidimensional Data Analysis)
• การดาเนินการกับ OLAP
– 1. Roll up / Consolidation
่ .ี่ .
• การปรับระดับความละเอียดของข ้อมูล จากระดับทีล
่ ะเอียด...มาสูท
หยาบขึน
้
– 2. Drill Down
่ .ี่ .
• การปรับระดับความละเอียดของข ้อมูล จากระดับทีห
่ ยาบ...ไปสูท
ละเอียดมากขึน
้
– 3. Slice
• การเลือกพิจารณาผลลัพธ์บางสว่ นทีเ่ ราสนใจ โดยเลือกเฉพาะค่าทีถ
่ ก
ู
กากับด ้วยข ้อมูลบางค่าของแต่ละมิตเิ ท่านั น
้
– 4. Dice
• กระบวนการพลิกแกนหรือมิตข
ิ องข ้อมูล ให ้ตรงตามความต ้องการของ
้
ผู ้ใชงาน
•
344-662 Data Warehousing and Data Mining
26
Chapter 1
Data Mining (เหมืองข ้อมูล)
้ ้าถึงข ้อมูลได ้
• เหมืองข ้อมูล เป็ นเครือ
่ งมือทีช
่ ว่ ยให ้ผู ้ใชเข
โดยตรงจากฐานข ้อมูลขนาดใหญ่
• เหมืองข ้อมูล เป็ นเครือ
่ งมือ และ Application ทีส
่ ามารถ
แสดงผลการวิเคราะห์ข ้อมูลทางสถิตไิ ด ้
• เหมืองข ้อมูล หมายถึงการวิเคราะห์ข ้อมูล เพือ
่ แยกประเภท
ั พันธ์ของข ้อมูลจากคลังข ้อมูล
จาแนกรูปแบบและความสม
้
หรือฐานข ้อมูลขนาดใหญ่ นาสารสนเทศไปใชในการ
ิ ใจธุรกิจ
ตัดสน
• ได ้องค์ความรู ้ใหม่ (Knowledge Discovery)
• อาจอยูใ่ นรูปแบบของกฎเกณฑ์ (Rule)
344-662 Data Warehousing and Data Mining
27
Chapter 1
เทคนิคการทาเหมืองข ้อมูล
•
•
•
•
1. Classification
2. Clustering
3. Association
4. Visualization
344-662 Data Warehousing and Data Mining
28
Chapter 1
เทคนิคการทาเหมืองข ้อมูล
p.85
• 1. Classification : เทคนิคในการจาแนกกลุม
่ ข ้อมูลด ้วยคุณลักษณะต่างๆ
ทีไ่ ด ้มีการกาหนดไว ้แล ้ว
– สร ้างแบบจาลองเพือ
่ การพยากรณ์คา่ ข ้อมูล (Predictive Model) ใน
อนาคต เรียกว่า ......Supervised Learning
– มี 2 รูปแบบ
• Tree Induction
• Neural Network
• 2. Clustering : เทคนิคในการจาแนกกลุม
่ ข ้อมูลใหม่ทม
ี่ ล
ี ก
ั ษณะคล ้ายกัน
ไว ้กลุม
่ เดียวกัน โดยไม่มก
ี ารจัดกลุม
่ ข ้อมูลตัวอย่างไว ้ล่วงหน ้า เรียกว่า
.......Unsupervised Learning
ื่ มโยง
• 3. Association : เทคนิคในการค ้นพบองค์ความรู ้ใหม่ ด ้วยการเชอ
กลุม
่ ของข ้อมูลทีเ่ กิดขึน
้ ในเหตุการณ์เดียวกันไว ้ด ้วยกัน
้
• 4. Visualization :เทคนิคทีใ่ ชในการแสดงผลในรู
ปแบบกราฟิ กหรือ
ข ้อมูลหลายมิต ิ
344-662 Data Warehousing and Data Mining
29
Chapter 1
คุณลักษณะของเหมืองข ้อมูล
ี้ นวทางการตัดสน
ิ ใจและคาดการณ์ผลลัพธ์
• 1. ชแ
• 2. เพิม
่ ความเร็วในการวิเคราะห์ข ้อมูล จากฐานข ้อมูลขนาด
ใหญ่
่ นอยูใ่ นเอกสาร รวมถึง
• 3. ค ้นหาสว่ นประกอบทีซ
่ อ
ั พันธ์ระหว่างสว่ นประกอบต่างๆ
ความสม
• 4. จัดกลุม
่ เอกสารตามหัวข ้อต่างๆตามนโยบายบริษัท
344-662 Data Warehousing and Data Mining
30
Chapter 1
้
ตัวอย่างการนาเหมืองข ้อมูลมาใชงาน
• 1. การตลาด
ิ ค ้าลง
– ทานายยอดขายเมือ
่ มีการลดจานวนสน
• 2. การเงินการธนาคาร
– คาดการณ์โอกาสในการชาระหนีข
้ องลูกค ้า
•
•
•
•
•
•
•
3.
4.
5.
6.
7.
8.
9.
การค ้าขาย
โรงงาน การผลิต
ตลาดหลักทรัพย์
ธุรกิจการประกัน
H/W S/W คอมพิวเตอร์
กระทรวงกลาโหม
โรงพยาบาล
344-662 Data Warehousing and Data Mining
31
Chapter 1
ประโยชน์ของเหมืองข ้อมูล
ั เทคโนโลยีของเหมืองข ้อมูล
1. ค ้นหาข ้อมูลโดยอาศย
้
2. ใชสถาปั
ตยกรรมแบบ Client/Server
้
3. ผู ้ใชระบบไม่
จาเป็ นต ้องทักษะในการเขียนโปรแกรม
ั เจน
4. ผู ้ใชต้ ้องกาหนดขอบเขตและเป้ าหมายของระบบให ้ชด
เพือ
่ ความรวดเร็วและถูกต ้องตามความต ้องการ
ิ ธิภาพและ
• 5. การประมวลผลแบบขนานจะชว่ ยเพิม
่ ประสท
ความเร็วในการค ้นหาข ้อมูล
•
•
•
•
344-662 Data Warehousing and Data Mining
32
Chapter 1
Homework 1
• 1. จงหาความหมายของคานิยามต่อไปนี้ มาอย่างน ้อย 2 แหล่ง
อ ้างอิงพร ้อมบอกทีม
่ าของแหล่งอ ้างอิงด ้วย
– Data Warehouse (คลังข ้อมูล)
– Data Mining (เหมืองข ้อมูล)
• 2. จงหาว่า Data Mining Tool มีอะไรบ ้าง พร ้อมทัง้ อธิบายมาพอสงั เขป
่ รายงาน
สง
(next week in class)
» Hard Copy
» File
» Presentation 2 min (no slide)
344-662 Data Warehousing and Data Mining
33
Chapter 1
Jim Miller