Transcript Apriori
Algorithm to Find Frequent Itemsets Association Rules Goal: Provide an overview of basic Association Rule mining techniques • Association Rules Problem Overview – Large itemsets • Association Rules Algorithms – Apriori – FP-Growth – Index-BitTableFI Association Rule Techniques Step1: Find Large Frequent Itemsets. Step 2: Generate rules from frequent itemsets. Apriori Scan DB Scan DB Scan DB FP-growth • การหา Frequent Itemsets ด้วยอัลกอริ ทึม FP-growth ประกอบไป ด้วย 2 ขั้นตอน คือ 1. สร้าง FP-tree จากฐานข้อมูลที่กาหนดโดยจะมีการอ่านฐานข้อมูล 2 ครั้ง อ่านฐานข้อมูลครั้งที่ 1 เพื่อนับค่าความถี่ของแต่ละ items และทาการ ตัด items ที่มีค่าความถี่ข้ นั ต่าออก หลังจากนั้นนา items ที่เหลือมา เรี ยงลาดับตามค่าความถี่ของแต่ละ items จากมากไปน้อยในตารางที่ เรี ยกว่า Hash Table อ่านฐานข้อมูลครั้งที่ 2 เพื่อสร้าง FP-tree 2. หา Frequent Itemsets จาก FP-tree อ่านฐานข้ อมูลครัง้ ที่ 1 เพื่อนับค่าความถี่ของแต่ละ items และทา การตัด items ที่มีคา่ ความถี่ขนต ั ้ ่าออก หลังจากนันน ้ า items ที่ เหลือมาเรี ยงลาดับตามค่าความถี่ของแต่ละ items จากมากไป น้ อยในตารางที่เรี ยกว่า Hash Table ตัด 4 ออก แล้ ว Index-BitTableFI • อ่านฐานข้ อมูลเพียง 1 ครัง้ – ลงรหัสโดยแปลงข้ อมูลให้ อยูใ่ นรูปแบบบิตแมปเวกเตอร์ เรี ยกว่าตาราง BitTable – นับค่าความถี่ของแต่ละ items และทาการตัด items ที่มีคา่ ความถี่ขนต ั ้ ่า ออก จะได้ Frequent 1-itemsets – หา Index array ของแต่ละ Frequent item โดยการดาเนินการ AND ระหว่างบิตแมปเวกเตอร์ ของทรานแซคชัน่ ที่ Item นันปรากฎ ้ – นา Index array ไปหา Frequent k-itemsets (1,3) (2,3) (2,5) (2,3,5) (3,5)