229-611 Data Warehousing and Data Mining ผศ.ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์
Download ReportTranscript 229-611 Data Warehousing and Data Mining ผศ.ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์
229-611 Data Warehousing and Data Mining ผศ.ดร. วิภาดา เวทย์ประสิ ทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์ ห้ อง CS 108 E-mail : [email protected] Website : http://staff.cs.psu.ac.th/wiphada วัตถุประสงค์ 1. ให้นกั ศึกษามีความรู ้ความเข้าใจเกี่ยวกับการจัดการเหมืองข้อมูลได้ 2. ให้นกั ศึกษาสามารถทาเหมืองข้อมูลได้ 3. ให้นกั ศึกษาสามารถศึกษาค้นคว้าด้วยตนเองเกี่ยวกับการทา เหมืองข้อมูลได้ 344-662 Data Warehousing and Data Mining 2 Chapter 1 เนื้อหา • • • • • • • • • • • • Chapter Chapter Chapter Chapter Chapter Chapter Chapter Chapter Chapter Chapter Chapter Chapter 1 : Introduction 2 : Data Warehouse 3 : Data Mining 4 : Basic Data Mining Techniques 5: Data Mining a Closer Look 6 : Cross Validation 7 : Decision Tree 8 : Association Rules 9 : The K- Means Algorithm 10 : Neural Networks 11 : Statistical Techniques 12 : Rule Base System 344-662 Data Warehousing and Data Mining 3 Chapter 1 เอกสารประกอบการสอน 1. Data Mining A tutorial-Based Primer, Richard J. Roiger and Michael W. Geatz, Pearson Education Inc., 2003. 2. Mining Very Large Databases with Parallel Processing, Alex A. Freitas and Simon H. Lavington, Kluwer Academic Publishers, 1998. 3. การออกแบบและพัฒนาคลังข้อมูล (Data Warehouse), กิตติ ภักดีวฒั นะกุล, บริ ษทั เคทีพี คอมพ์ แอนด์ คอนซัลท์, 2546 4. คัมภีร์ระบบสนับสนุนการตัดสิ นใจ และระบบผูเ้ ชี่ยวชาญ (Decision Support Systems and Expert Systems), กิตติพงษ์ กลมกล่อม, บริ ษทั เคทีพี คอมพ์ แอนด์ คอนซัลท์, 2546 344-662 Data Warehousing and Data Mining 4 Chapter 1 Chapter 1 Introduction Content • Data Warehouse (คลังข ้อมูล) • Data Warehousing (การคลังข ้อมูล) • Data Mining (เหมืองข ้อมูล) 344-662 Data Warehousing and Data Mining 6 Chapter 1 ปัญหาของการนาฐานข้อมูลหลายแบบมารวมกัน • • • • 1. H/W S/W หลายชนิด ้ 2. Data Redundancy เกิดความซ้าซอนของข ้อมูล 3. Data Inconsistency ข ้อมูลไม่สอดคล ้องกัน 4. Coding System ระบบการให ้รหัสเกิดปั ญหา ้ (Multiple Standard) มาตราฐานซอน • การพัฒนาระบบแบบยุ ้งฉาง (Silo-based System) – งานใครงานมัน 344-662 Data Warehousing and Data Mining 7 Chapter 1 ที่มาของคลังข้อมูล • Business Integration – ต ้องการมีมาตราฐานเดียวในการเก็บข ้อมูลขององค์กร • มี 2 แบบ • 1. Partial Business Integration – Point to Point Business Integration – Middleware Business Integration • 2. Overall Business Integration 344-662 Data Warehousing and Data Mining 8 Chapter 1 ที่มาของคลังข้อมูล • 1. Partial Business Integration – Point to Point Business Integration ื่ มโยงระหว่างระบบ 2 ระบบให ้ติดต่อกันได ้ • เชอ • แต่ละระบบงานทางานทดแทนกันไม่ได ้ • มีปัญหา Spaghetti Phenomenon – Middleware Business Integration • มีกลุม ่ H/W S/W ทีเ่ ป็ นตัวกลางในการแปลงและแลกเปลีย ่ น ข ้อมูลระหว่างระบบงานต่างๆ ิ ธิภาพมากขึน • มีประสท ้ 344-662 Data Warehousing and Data Mining 9 Chapter 1 Point to Point Business Integration 344-662 Data Warehousing and Data Mining 10 Chapter 1 ที่มาของคลังข้อมูล • 2. Overall Business Integration • ออกแบบและพัฒนาระบบใหม่ โดยรวมเอาเนือ ้ หาของข ้อมูล ทัง้ หมดในองค์กรให ้เป็ นหนึง่ เดียว ไม่แยกออกเป็ นสว่ นๆ • หลายองค์กรเป็ นระบบเดียว เนือ ้ หาเดียวกัน • Unified Standard • Maximize data consistency • Minimize data redundancy 344-662 Data Warehousing and Data Mining 11 Chapter 1 Data Warehouse (คลังข ้อมูล) • คลังข ้อมูล หมายถึง.... หลักการหรือวิธก ี าร เพือ ่ รวมระบบ สารสเทศเพือ ่ การประมวลผลรายการข ้อมูลทีเ่ กิดขึน ้ ในแต่ละวันแต่ละสายงาน มารวมเป็ นหน่วยเดียวกัน ิ ใจให ้มีประสท ิ ธิภาพมากยิง่ ขึน เพือ ่ สนับสนุนการตัดสน ้ • คลังข ้อมูล หมายถึง.... ข ้อมูลในแหล่งข ้อมูลหลายๆแหล่ง ิ ใจให ้มีประสท ิ ธิภาพมากยิง่ ขึน เพือ ่ ประกอบการตัดสน ้ ่ ลิตภัณฑ์ หรือระบบสาเร็จรูป • คลังข ้อมูล ไม่ใชผ • คลังข ้อมูล มีความเป็ นสว่ นตัวของแต่ละองค์กร (Organization Customized System) 344-662 Data Warehousing and Data Mining 12 Chapter 1 คุณลักษณะของคลังข ้อมูล • • • • 1. 2. 3. 4. Subject-Oriented Integrated Time-Variant Non-Volatile 344-662 Data Warehousing and Data Mining 13 Chapter 1 คุณลักษณะของคลังข ้อมูล • 1. Subject-Oriented ื ค ้น จัดตามประเด็นหลักของ – ข ้อมูลถูกจัดกลุม ่ ให ้เหมาะสมกับการสบ ่ องค์กร เชน ิ ค ้า ยอดขาย • ลูกค ้า สน – ข ้อมูลจะ....ไม่ถก ู จัดตามหน ้าทีก ่ ารงาน....ของโปรแกรมใดโปรแกรม ่ หนึง่ เชน ิ ค ้า การออกใบกากับภาษี • การควบคุมคลังสน • 2. Integrated – จัดข ้อมูลให ้อยูใ่ นรูปแบบเดียวกัน จากแหล่งข ้อมูลหลายแหล่ง 344-662 Data Warehousing and Data Mining 14 Chapter 1 คุณลักษณะของคลังข ้อมูล • 3. Time-Variant ้ – ข ้อมูลต ้องมีความถูกต ้อง เพราะเก็บไว ้ใชนาน 5-10 ปี • 4. Non-Volatile ่ าร – การปรับปรุงข ้อมูลเป็ นการเพิม ่ ข ้อมูลใหม่เข ้าไปเรือ ่ ยๆ ไม่ใชก แทนทีข ่ ้อมูลเก่า – ข ้อมูลในคลังข ้อมูล....ไม่จาเป็ น...ต ้องทาการ Normalize เหมือนใน ฐานข ้อมูล (Data based) 344-662 Data Warehousing and Data Mining 15 Chapter 1 ข ้อดีของคลังข ้อมูล • 1. ให ้ผลตอบแทนในการลงทุนสูง • 2. ได ้เปรียบคูแ ่ ข่ง วิเคราะห์ข ้อมูลเพือ ่ กาหนดเป็ น ่ พฤติกรรมผู ้บริโภค แผนกลยุทธ์ได ้ก่อนคูแ ่ ข่ง เชน ิ ธิภาพในการตัดสน ิ ใจ มีข ้อมูล • 3. เพิม ่ ประสท ครบถ ้วนจากอดีตจนถึงปั จจุบน ั 344-662 Data Warehousing and Data Mining 16 Chapter 1 ี ของคลังข ้อมูล ข ้อเสย ้ ั ผู ้ • 1. ขัน ้ ตอนการกรองข ้อมูลใชเวลานาน ต ้องอาศย ทีม ่ ค ี วามชานาญในการกรองข ้อมูล • 2. แนวโน ้มในการกรองข ้อมูลเพิม ่ มากขึน ้ เรือ ่ ยๆ ั ซอนให ้ เพิม ่ ความซบ ้กระบวนการทางาน ้ • 3.ใชเวลานานในการพั ฒนาคลังข ้อมูล ั ซอนสู ้ • 4.ระบบคลังข ้อมูลมีความซบ ง 344-662 Data Warehousing and Data Mining 17 Chapter 1 Data Warehousing (การคลังข ้อมูล) • การคลังข ้อมูล คือ การออกแบบ และสร ้าง โครงสร ้างของข ้อมูลในคลังข ้อมูล รวมถึง – วิธก ี ารได ้มาของข ้อมูล – วิธก ี ารสร ้างผลลัพธ์จากข ้อมูลทีม ่ ี ิ ธิภาพ – วิธก ี ารดูแลรักษา และวิธก ี ารปรับปรุงประสท 344-662 Data Warehousing and Data Mining 18 Chapter 1 สถาปั ตยกรรมของคลังข ้อมูล • • • • • • 1. Data Acquisition System 2. Data Staging Area 3. Data Warehouse Database /Data Store 4. Data Provisioning Area /Data Mart 5. End User Terminal 6. Metadata Repository 344-662 Data Warehousing and Data Mining 19 Chapter 1 สถาปั ตยกรรมของคลังข ้อมูล 344-662 Data Warehousing and Data Mining 20 Chapter 1 สถาปั ตยกรรมของคลังข ้อมูล • 1. Data Acquisition System – รับข ้อมูลจากภายนอก • 2. Data Staging Area ้ – Data Cleansing ลดความซ้าซอนของข ้อมูล – Filtering เลือกเฉพาะข ้อมูลทีม ่ ป ี ระโยชน์ • 3. Data Warehouse Database /Data Store – Data Model การออกแบบจาลองข ้อมูล – การจัดเก็บข ้อมูล 344-662 Data Warehousing and Data Mining 21 Chapter 1 สถาปั ตยกรรมของคลังข ้อมูล • 4. Data Provisioning Area / Data Mart – การรายงานผลลัพธ์ตา่ งๆทีจ ่ าเป็ นสาหรับการวิเคราะห์ข ้อมูล • 5. End User Terminal – Simple Report Tool – Multi Dimensional Tools – Data Mining Tools • 6. Metadata Repository ้ บข ้อมูลทีใ่ ชควบคุ ้ – ใชเก็ มการทางานในคลังข ้อมูล 344-662 Data Warehousing and Data Mining 22 Chapter 1 การวิเคราะห์ข ้อมูลในคลังข ้อมูล • • • • 1. Query and Report Generator 2. Multidimensional Data Analysis 3. Online Analysis Processing (OLAP) 4. Data Mining Tools 344-662 Data Warehousing and Data Mining 23 Chapter 1 การวิเคราะห์ข ้อมูลในคลังข ้อมูล 344-662 Data Warehousing and Data Mining 24 Chapter 1 การวิเคราะห์ข ้อมูลในคลังข ้อมูล 344-662 Data Warehousing and Data Mining 25 Chapter 1 Online Analysis Processing (OLAP) • กระบวนการประมวลผลข ้อมูลทางคอมพิวเตอร์ ทีช ่ ว่ ยให ้วิเคราะห์ข ้อมูล ในมิตต ิ า่ งๆ (Multidimensional Data Analysis) • การดาเนินการกับ OLAP – 1. Roll up / Consolidation ่ .ี่ . • การปรับระดับความละเอียดของข ้อมูล จากระดับทีล ่ ะเอียด...มาสูท หยาบขึน ้ – 2. Drill Down ่ .ี่ . • การปรับระดับความละเอียดของข ้อมูล จากระดับทีห ่ ยาบ...ไปสูท ละเอียดมากขึน ้ – 3. Slice • การเลือกพิจารณาผลลัพธ์บางสว่ นทีเ่ ราสนใจ โดยเลือกเฉพาะค่าทีถ ่ ก ู กากับด ้วยข ้อมูลบางค่าของแต่ละมิตเิ ท่านั น ้ – 4. Dice • กระบวนการพลิกแกนหรือมิตข ิ องข ้อมูล ให ้ตรงตามความต ้องการของ ้ ผู ้ใชงาน • 344-662 Data Warehousing and Data Mining 26 Chapter 1 Data Mining (เหมืองข ้อมูล) ้ ้าถึงข ้อมูลได ้ • เหมืองข ้อมูล เป็ นเครือ ่ งมือทีช ่ ว่ ยให ้ผู ้ใชเข โดยตรงจากฐานข ้อมูลขนาดใหญ่ • เหมืองข ้อมูล เป็ นเครือ ่ งมือ และ Application ทีส ่ ามารถ แสดงผลการวิเคราะห์ข ้อมูลทางสถิตไิ ด ้ • เหมืองข ้อมูล หมายถึงการวิเคราะห์ข ้อมูล เพือ ่ แยกประเภท ั พันธ์ของข ้อมูลจากคลังข ้อมูล จาแนกรูปแบบและความสม ้ หรือฐานข ้อมูลขนาดใหญ่ นาสารสนเทศไปใชในการ ิ ใจธุรกิจ ตัดสน • ได ้องค์ความรู ้ใหม่ (Knowledge Discovery) • อาจอยูใ่ นรูปแบบของกฎเกณฑ์ (Rule) 344-662 Data Warehousing and Data Mining 27 Chapter 1 เทคนิคการทาเหมืองข ้อมูล • • • • 1. Classification 2. Clustering 3. Association 4. Visualization 344-662 Data Warehousing and Data Mining 28 Chapter 1 เทคนิคการทาเหมืองข ้อมูล p.85 • 1. Classification : เทคนิคในการจาแนกกลุม ่ ข ้อมูลด ้วยคุณลักษณะต่างๆ ทีไ่ ด ้มีการกาหนดไว ้แล ้ว – สร ้างแบบจาลองเพือ ่ การพยากรณ์คา่ ข ้อมูล (Predictive Model) ใน อนาคต เรียกว่า ......Supervised Learning – มี 2 รูปแบบ • Tree Induction • Neural Network • 2. Clustering : เทคนิคในการจาแนกกลุม ่ ข ้อมูลใหม่ทม ี่ ล ี ก ั ษณะคล ้ายกัน ไว ้กลุม ่ เดียวกัน โดยไม่มก ี ารจัดกลุม ่ ข ้อมูลตัวอย่างไว ้ล่วงหน ้า เรียกว่า .......Unsupervised Learning ื่ มโยง • 3. Association : เทคนิคในการค ้นพบองค์ความรู ้ใหม่ ด ้วยการเชอ กลุม ่ ของข ้อมูลทีเ่ กิดขึน ้ ในเหตุการณ์เดียวกันไว ้ด ้วยกัน ้ • 4. Visualization :เทคนิคทีใ่ ชในการแสดงผลในรู ปแบบกราฟิ กหรือ ข ้อมูลหลายมิต ิ 344-662 Data Warehousing and Data Mining 29 Chapter 1 คุณลักษณะของเหมืองข ้อมูล ี้ นวทางการตัดสน ิ ใจและคาดการณ์ผลลัพธ์ • 1. ชแ • 2. เพิม ่ ความเร็วในการวิเคราะห์ข ้อมูล จากฐานข ้อมูลขนาด ใหญ่ ่ นอยูใ่ นเอกสาร รวมถึง • 3. ค ้นหาสว่ นประกอบทีซ ่ อ ั พันธ์ระหว่างสว่ นประกอบต่างๆ ความสม • 4. จัดกลุม ่ เอกสารตามหัวข ้อต่างๆตามนโยบายบริษัท 344-662 Data Warehousing and Data Mining 30 Chapter 1 ้ ตัวอย่างการนาเหมืองข ้อมูลมาใชงาน • 1. การตลาด ิ ค ้าลง – ทานายยอดขายเมือ ่ มีการลดจานวนสน • 2. การเงินการธนาคาร – คาดการณ์โอกาสในการชาระหนีข ้ องลูกค ้า • • • • • • • 3. 4. 5. 6. 7. 8. 9. การค ้าขาย โรงงาน การผลิต ตลาดหลักทรัพย์ ธุรกิจการประกัน H/W S/W คอมพิวเตอร์ กระทรวงกลาโหม โรงพยาบาล 344-662 Data Warehousing and Data Mining 31 Chapter 1 ประโยชน์ของเหมืองข ้อมูล ั เทคโนโลยีของเหมืองข ้อมูล 1. ค ้นหาข ้อมูลโดยอาศย ้ 2. ใชสถาปั ตยกรรมแบบ Client/Server ้ 3. ผู ้ใชระบบไม่ จาเป็ นต ้องทักษะในการเขียนโปรแกรม ั เจน 4. ผู ้ใชต้ ้องกาหนดขอบเขตและเป้ าหมายของระบบให ้ชด เพือ ่ ความรวดเร็วและถูกต ้องตามความต ้องการ ิ ธิภาพและ • 5. การประมวลผลแบบขนานจะชว่ ยเพิม ่ ประสท ความเร็วในการค ้นหาข ้อมูล • • • • 344-662 Data Warehousing and Data Mining 32 Chapter 1 Homework 1 • 1. จงหาความหมายของคานิยามต่อไปนี้ มาอย่างน ้อย 2 แหล่ง อ ้างอิงพร ้อมบอกทีม ่ าของแหล่งอ ้างอิงด ้วย – Data Warehouse (คลังข ้อมูล) – Data Mining (เหมืองข ้อมูล) • 2. จงหาว่า Data Mining Tool มีอะไรบ ้าง พร ้อมทัง้ อธิบายมาพอสงั เขป ่ รายงาน สง (next week in class) » Hard Copy » File » Presentation 2 min (no slide) 344-662 Data Warehousing and Data Mining 33 Chapter 1 Jim Miller