Document 7410292

Download Report

Transcript Document 7410292

Data Mining
นำเสนอโดย
อำจำรย์นงเยำว์ สอนจะโปะ
คณะสำรสนเทศศำสตร์
มหำวิทยำลัยศรีปทุม วิทยำเขตชลบุรี
8 สิงหำคม 2551
Topic
• Data Mining คืออะไร
• สถาปั ตยกรรมของระบบการทา Data Mining
• ประเภทข ้อมูลทีส
่ ามารถทา Data Mining
• เทคนิคต่าง ๆ ของ Data Mining
้
• ตัวอย่าง การประยุกต์ใชงาน
Data Mining
2
Data Mining คืออะไร
Data Mining เป็ นกระบวนการ (Process) ที่กระทากับข้อมูลขนาดใหญ่
เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยูใ่ นชุดข้อมูลนั้น
โดยอาศัยหลักสถิติ การรูจ้ า การเรียนรูข้ องเครื่อง และหลักคณิตศาสตร์
เพื่อให้ได้สารสนเทศที่เราไม่รูอ้ อกมา โดยสารสนเทศที่ได้จะมีเหตุผล
และสามารถนาไปใช้ประโยชน์ได้
3
Data Mining คืออะไร (ต่อ)
ลักษณะการทางานของ Data Mining คล้ายกับกระบวนการ
Knowledge Discovery in Databases : KDD เป็ นการสืบค้น
ความรูท้ ี่เป็ นประโยชน์ในฐานข้อมูลขนาดใหญ่
ซึ่งนิ ยมใช้ Data Mining เป็ นขั้นตอนหนึ่ งในกระบวนการ KDD
4
สถาปัตยกรรมของระบบการทา Data Mining
5
ประเภทของข้อมูลทีส
่ ามารถทา
Data Mining
• Relational databases
6
ประเภทของข้อมูลทีส
่ ามารถทา
Data Mining (ต่อ)
• Data Warehouses
ที่มา : http://www.persysinc.com/persys_database_datawarehouse.aspx
7
ประเภทของข้อมูลทีส
่ ามารถทา
Data Mining (ต่อ)
• Transactional databases
- ใบเสร็จรับเงิน
8
ประเภทของข้อมูลทีส
่ ามารถทา
Data Mining (ต่อ)
• Advanced database
เป็ นฐานข้อมูลที่จดั เก็บในรูปแบบอื่นๆ เช่น
-ข้อมูลแบบ Object oriented
- ข้อมูลที่เป็ น Text file
- ข้อมูลมัลติมีเดีย
- ข้อมูลในรูปของ Web Site
เป็ นต้น
9
เทคนิคต่าง ๆ ของ Data Mining
1. Association rule Discovery
2. Classification & Prediction
3. Database Clustering Or Segmentation
4. Deviation Detection
5. Link Analysis
10
เทคนิคต่าง ๆ ของ Data Mining (ต่อ)
1. Association rule Discovery
หลักกำรทำงำน คือ การค้นหาความสัมพันธ์ของข้อมูลจาก
ข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนาไปวิเคราะห์ หรือทานาย
ปรากฎการณ์ต่าง ๆ เช่น การวิเคราะห์การซื้ อสินค้าของลูกค้า
เรียกว่า “Market Basket Analysis”
11
เทคนิคต่าง ๆ ของ Data Mining (ต่อ)
2. Classification & Prediction
เป็ นการแบ่งประเภทของข้อมูล โดยจะหากฎเพื่อระบุประเภท
วัตถุจากคุณสมบัติของวัตถุ เช่น
การหาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่างๆ
กับการเกิดโรค โดยใช้ขอ้ มูลผูป้ ่ วยและการวินิจฉัยของแพทย์ที่
เก็บไว้เพื่อนามาช่วยในการวินิจฉัยโรคของผูป้ ่ วย
12
เทคนิคต่าง ๆ ของ Data Mining (ต่อ)
3. Database Clustering Or Segmentation
เป็ นเทคนิ คการลดขนาดของข้อมูล ด้วยการรวมกลุ่มตัวแปร
ที่มีลกั ษณะเดียวกันไว้ดว้ ยกัน เพื่อนาข้อมูลที่ได้ไปวิเคราะห์
เช่นตัวอย่าง
บริษัทจาหน่ วยรถยนต์ได้แยกกลุ่มลูกค้าออกเป็ น 3 กลุ่ม
1. กลุ่มผูม้ ีรายได้สูง (> 80,000)
2. กลุ่มผูม้ ีรายได้ปานกลาง (25,000 - 80,000)
3. กลุ่มผูม้ ีรายได้ตา่ (< 25,000)
13
เทคนิคต่าง ๆ ของ Data Mining (ต่อ)
4. Deviation Detection
เป็ นกรรมวิธีในการหาค่าที่แตกต่างไปจากมาตรฐาน หรือค่า
ที่คาดคิดไว้วา่ ต่างไปมากน้อยเพียงใด โดยทัว่ ไปมักใช้วิธีทาง
สถิติ หรือการแสดงให้เห็นภาพ (Visualization)
ตัวอย่างการนาเทคนิ คนี้ ใช้
- การตรวจสอบลายเซ็นปลอม
- บัตรเครดิตปลอม
- การหาจุดบกพร่องของชิ้ นงานในโรงงานอุตสาหกรรม
14
เทคนิคต่าง ๆ ของ Data Mining (ต่อ)
5. Link Analysis
จุดมุง่ หมายของ Ling Analysis คือ การสร้าง Link ที่เรียกว่า
“associations” ระหว่าง Recode เดียว หรือ กลุ่มของ
Record ในฐานข้อมูล
Link Analysis สามารถแบ่งออกเป็ น 3 ชนิ ด
- associations discovery
- sequential pattern discovery
- similar time sequence discovery
15
การประยุกต์ใชง้ าน Data Mining
• ธุรกิจค้ำปลีก
• กำรวิเครำะห์ผลิตภัณฑ์
• กำรวิเครำะห์บตั รเครดิต
• กำรวิเครำะห์กำรขำย
• E-Commerce
• ด้ำนกำรศึกษำ
16
แหล่งอ้างอิง
 http://www.twocrows.com/intro-dm.pdf
 http://www.twocrows.com/crm-dm.pdf
 http://www.persysinc.com/persys_database_datawarehouse.aspx
 http://en.wikipedia.org/wiki/Data_mining
 http://www.thearling.com/text/dmwhite/dmwhite.htm
17