วิธีการวิเคราะห์ความสัมพันธ์ด้วยวิธี Apriori  ข้อมูลที่ใช้ทดสอบที่ไม่เป็น

Download Report

Transcript วิธีการวิเคราะห์ความสัมพันธ์ด้วยวิธี Apriori  ข้อมูลที่ใช้ทดสอบที่ไม่เป็น

แนะนำกำรทำเหมืองข้อมูล
(Data Mining)
ด้วยซอฟต์แวร์วีกำ้ (WEKA)
Part 3: Association
Agenda
Association คืออะไร
วิธีในการวิเคราะห์ ความสั มพันธ์
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
Association คืออะไร
 นิยาม
 การทาเหมืองข้อมูลด้วยเทคนิคการวิเคราะห์ความสัมพันธ์
 การหารู ปแบบที่เกิดขึ้นบ่อย (frequent pattern) ความเชื่อมโยงที่
เกิดขึ้น (associate) หรื อสหสัมพันธ์ (correlation)
 ข้อมูลแบบ Transaction
 นาไปใช้ กบั
 การวิเคราะห์ตะกร้าการซื้ อ (Market basket analysis)
 การทาการตลาดข้ามผลิตภัณฑ์ (cross-marketing)
 การวางรู ปแบบและออกแบบหน้าแค็ตตาล็อค (catalog design)
Association คืออะไร
 แนวคิดหลักในการวิเคราะห์ ความสั มพันธ์
 ต้องการ กฎทั้งหมด ที่แสดงความสัมพันธ์กบั item นั้นๆ
• ลูกค้าที่เข้าร้านทาผมทั้งหมด
 เป็ นชาย 35% และตัดผม 25% แล้วจะทาสี ผมด้วย
 เป็ นหญิง 50% และตัดผม 35% แล้วจะยืดผมด้วย
 ลูกค้าที่ตดั ผม 30% และยืดผม 25% แล้วจะทาทรี ทเม้นต์ดว้ ย
 แนวทางการนาไปใช้
• การจัดโปรโมชัน่
• การวางขายสิ นค้าภายในร้าน
วิธีในการวิเคราะห์ ความสั มพันธ์
 Appriori
• ถูกออกแบบมาเพื่อใช้กบั ข้อมูลที่เป็ น Transaction
 FilteredAssociator
• วิธีวเิ คราะห์ที่ได้ผลลัพธ์ข้ ึนอยูก่ บั ตัวกรองแต่ละตัวที่เลือกใช้
 FPGrowth
 GeneralzedSequentialPatterns
ใช้อลั กอริ ทึม GSP เพื่อวิเคราะห์ขอ้ มูลให้มีรูปแบบการเรี ยง
ตามลาดับของข้อมูล (Dataset)
 PredictiveAppriori
• เป็ นการทานายค่าที่ดีที่สุดจากวิธี Appriori
 Tertuis
• เป็ นวิธีวิเคราะห์ขอ้ มูลโดยใช้อลั กอริ ทึม Tertius-type
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
 ประเภท Market Basket Analysis
 กฎจะเป็ นตัวบ่งบอกพฤติกรรมการซื้ อของลูกค้า
 โดยทัว่ ไปใช้กบั ฐานข้อมูลเชิงสัมพันธ์ที่บนั ทึกเป็ น Transaction โดยที่
แต่ละระเบียนคือการซื้ อสิ นค้าในหนึ่ งครั้ง
 ผลลัพธ์ที่ตอ้ งการได้คือ กฏจะแสดงความสัมพันธ์ของการซื้ อสิ นค้าต่าง
ชนิดกันโดยไม่ข้ ึนอยูก่ บั ลูกค้าคนใดคนหนึ่ ง
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
การทางานของขั้นตอน Apriori
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
การเตรียมแฟ้มข้ อมูล
 วิเคราะห์ ข้อมูล
• ความสัมพันธ์ของข้อมูล
• การซื้ อสิ นค้า
• ลักษณะประจาของสิ นค้า
 รายการสิ นค้าที่จะพิจารณา
 รหัสการซื้ อสิ นค้า
ข้ อมูลทีน่ ามาใช้
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
การเตรียมแฟ้มข้ อมูล
 เขียนโดยใช้ รูปแบบข้ อมูล ARFF
• Relation ชื่อของความสัมพันธ์
 market
• Attribute เป็ น Boolean
 กาหนดค่าที่เป็ นไปได้ คือ y แทนการใช้ตวั เลข 1
• Data ข้อมูลการซื้ อ
 ตัวอย่าง การซื้ อ T100,I1,I2 เขียนเป็ น T100, 1, 1, ?, ?, ?
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
@relation market
@attribute
tid{T100,T200,T300,T400,T500,T600,
T700,T800,T900}
@attribute l1{y}
@attribute l2{y}
@attribute l3{y}
@attribute l4{y}
@attribute l5{y}
@data
T100,y,y,?,?,y
T200,?,y,?,y,?
T300,?,y,y,?,?
T400,y,y,?,?,y
T500,y,?,y,?,?
T600,?,y,y,?,?
T700,y,?,y,?,?
T800,y,y,y,?,y
T900,y,y,y,?,y
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
กระบวนการวิเคราะห์ ความสั มพันธ์
 เปิ ดไฟล์ market.arff ด้วยกระบวนการ
preprocess
 กดปุ่ ม Choose ใต้ Associator
 การเลือกขั้นตอนวิธี Apriori
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
กระบวนการวิเคราะห์ ความสั มพันธ์
 กดคลิกในกล่อง Associcator เพื่อ
ปรับเปลี่ยนค่าพารามิเตอร์
 กดปุ่ ม Stat
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
ตัวอย่างการปรับค่ าพารามิเตอร์
ปรับค่า min support ในกล่อง lowerBoundMinSuport เช่น 0.2
(หมายถึงค่าสนับสนุนต่าสุ ด 20%)
 ปรับค่า min confidence ในกล่อง minMetric โดย metricType เป็ น
Confidence เช่น 0.5 (หมายถึงค่าความเชื่อมัน่ ต่าสุ ด 50%)
 ปรับจานวนกฎที่แสดงผลในกล่อง numRules เช่น 100
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
ผลลัพธ์ ทไี่ ด้
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีเ่ ป็ น Transaction
ตัวอย่างการอ่ านค่ าจากกฎทีไ่ ด้
 กฎที่ 1 : ลูกค้าที่ซ้ื อสิ นค้า I5 แล้วจะซื้ อ
สิ นค้า I1 เสมอ
 กฎที่ 2 : ลูกค้าที่ซ้ื อสิ นค้า I4 แล้วจะซื้ อ
สิ นค้า I2 เสมอ
 กฎที่ 3 : ลูกค้าที่ซ้ื อสิ นค้า I2 และ I5
แล้วจะซื้ อสิ นค้า I1 เสมอ
 กฎที่ 9 : ลูกค้าที่ซ้ื อสิ นค้า I2, I3 และ I5
แล้วจะซื้ อสิ นค้า I1 เสมอ
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีไ่ ม่ เป็ น Transaction




ข้อมูลสภาพอากาศ
ใช้การเข้ารหัสของลักษณะประจาเป็ นชนิด Nominal หรื อ Ordinal
ใช้การเข้ารหัส dummy coding
แปลงค่าของ Nominal หรื อ Ordinal หนึ่งค่าแทนด้วยตัวแปรทวิภาค
เช่น
• ลักษณะประจา outlook มีค่าที่เป็ นไปได้คือ overcast, sunny, rainy
แล้วตัวแปรทวิภาคเขียนได้เป็ น outlook = overcast, outlook =
sunny, outlook = rainy
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีไ่ ม่ เป็ น Transaction
weather_norminal.arff
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีไ่ ม่ เป็ น Transaction
ผลลัพธ์ ทไี่ ด้
วิธีการวิเคราะห์ ความสั มพันธ์ ด้วยวิธี Apriori
 ข้ อมูลทีใ่ ช้ ทดสอบทีไ่ ม่ เป็ น Transaction
ตัวอย่างการอ่ านค่ าจากกฎทีไ่ ด้
 กฎที่ 1 : ถ้าสภาพอากาศเป็ น overcast
แล้ว play = yes เสมอ
 กฎที่ 2 : ถ้าอุณหภูมิเป็ น cool แล้ว
ความชื้นจะปรกติ (narmal) เสมอ
 ความหมายของกฎที่ 3:ถ้าความชื้น
ปรกติและไม่มีลม windy = FALSE
แล้ว play = yes เสมอ
สรุป
 การทาเหมืองข้อมูลด้วยเทคนิคการวิเคราะห์ความสัมพันธ์ คือ
• การหารู ปแบบที่เกิดขึ้นบ่อย (frequent pattern) ความเชื่อมโยงที่
เกิดขึ้น (associate) หรื อสหสัมพันธ์ (correlation)
• ข้อมูลแบบ Transaction
 แฟ้ มข้อมูลที่ถกู นามาใช้ในการวิเคราะห์ตอ้ งประกอบด้วยลักษณะ
ประจาที่เป็ น Nominal หรื อ Ordinal เท่านั้น
 วิธีการวิเคราะห์ความสัมพันธ์ดว้ ยวิธี Apriori
• ข้อมูลที่เป็ น Transaction
• ข้อมูลที่ไม่เป็ น Transaction
• ผลที่ได้คือกฏแสดงความสัมพันธ์ของข้อมูล