Transcript Apriori

Algorithm to Find
Frequent Itemsets
Association Rules
Goal: Provide an overview of basic
Association Rule mining techniques
• Association Rules Problem Overview
– Large itemsets
• Association Rules Algorithms
– Apriori
– FP-Growth
– Index-BitTableFI
Association Rule Techniques
Step1: Find Large Frequent Itemsets.
Step 2: Generate rules from frequent itemsets.
Apriori
Scan
DB
Scan
DB
Scan
DB
FP-growth
• การหา Frequent Itemsets ด้วยอัลกอริ ทึม FP-growth ประกอบไป
ด้วย 2 ขั้นตอน คือ
1. สร้าง FP-tree จากฐานข้อมูลที่กาหนดโดยจะมีการอ่านฐานข้อมูล 2 ครั้ง
 อ่านฐานข้อมูลครั้งที่ 1 เพื่อนับค่าความถี่ของแต่ละ items และทาการ
ตัด items ที่มีค่าความถี่ข้ นั ต่าออก หลังจากนั้นนา items ที่เหลือมา
เรี ยงลาดับตามค่าความถี่ของแต่ละ items จากมากไปน้อยในตารางที่
เรี ยกว่า Hash Table
 อ่านฐานข้อมูลครั้งที่ 2 เพื่อสร้าง FP-tree
2. หา Frequent Itemsets จาก FP-tree
 อ่านฐานข้ อมูลครัง้ ที่ 1 เพื่อนับค่าความถี่ของแต่ละ items และทา
การตัด items ที่มีคา่ ความถี่ขนต
ั ้ ่าออก หลังจากนันน
้ า items ที่
เหลือมาเรี ยงลาดับตามค่าความถี่ของแต่ละ items จากมากไป
น้ อยในตารางที่เรี ยกว่า Hash Table
ตัด 4 ออก
แล้ ว
Index-BitTableFI
• อ่านฐานข้ อมูลเพียง 1 ครัง้
– ลงรหัสโดยแปลงข้ อมูลให้ อยูใ่ นรูปแบบบิตแมปเวกเตอร์ เรี ยกว่าตาราง
BitTable
– นับค่าความถี่ของแต่ละ items และทาการตัด items ที่มีคา่ ความถี่ขนต
ั ้ ่า
ออก จะได้ Frequent 1-itemsets
– หา Index array ของแต่ละ Frequent item โดยการดาเนินการ
AND ระหว่างบิตแมปเวกเตอร์ ของทรานแซคชัน่ ที่ Item นันปรากฎ
้
– นา Index array ไปหา Frequent k-itemsets
(1,3)
(2,3) (2,5) (2,3,5)
(3,5)