1. מבוא לכריית מידע
Download
Report
Transcript 1. מבוא לכריית מידע
כריית מידע --מבוא
ד"ר אבי רוזנפלד
מה לומדים פה...
•
•
•
•
אלגוריתמים של כריית מידע
להבין את המשמעות של הפלט (החוקים) של
הלמידה
איך לייצר את החוקים ()SQL SERVER ,WEKA
זה לא קורס בבסיסי נתונים ()ACCESS
– בסיסי נתונים הם חלק ,אבל רק חלק מהתהליך
Knowledge Discovery (KDD) Process
• This is a view from typical database
systems and data warehousing
Pattern Evaluation
communities
• Data mining plays an essential role in
the knowledge discovery process
Data Mining
Task-relevant Data
Data Warehouse
Data Cleaning
Data Integration
3
Databases
Selection
Data Mining in Business Intelligence
Increasing potential
to support
business decisions
Decision
Making
Data Presentation
Visualization Techniques
End User
Business
Analyst
Data Mining
Information Discovery
Data
Analyst
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
4
DBA
תהליך של כריית מידע
שלב הראשון – להבין את הסביבה
• איזה מידע יש במערכת? האם זה מספיק?
– האם המידע הסתברותי? האם יש ( LABELמידע
אובייקטיבי)
– Fraud in credit card, fraud in Machon tests
– מה המחיר לאסוף עוד מידע ()Certainty level
הכנת המידע – איך המידע מאוחסן
• קובץ ( EXCELהפורמט שאני אוהב)
• ACCESS
• MATHLAB ,SPSS ,ORACLE ,SQLוכו'
בניית המודל
• רוב הקורס– האלגוריתמים בשקפים הבאים...
ניצול החוקים
• יישום החוקים ,הסקת מסקנות ,הדרכה וכו'
• גילוי של מאפיינים חדשים ולמידה מחדש וכו'
האלגוריתמים של כריית מידע
• Classification – – קלסיפיקציהC4.5
• Regression - – רגרסיהpolynomial, logistic,
SVM
• Clustering – – מיקבוץk-NN, k-means
• Co-occurrence – collaborative filtering
• Information Retrieval – PageRank
• Probabilistic models – Bayes, Naïve Bayes
שיטות למידה- Supervised
Decision Trees – finding cancer
שיטות למידה- Unsupervised
Clustering (k=11)
ההבדל בין כריית מידע ושאילתות
• בשאלתה אתה בערך יודע מה אתה מחפש:
SELECT * FROM CUSTOMERS WHERE AGE > 45
• בכריית מידע אתה מחפש משהו ואתה לא יודע
מראש מה!
??? SELECT ??? FROM CUSTOMERS WHERE
דוגמאות
•
•
•
•
•
•
מי מכר הכי הרבה פריטים בתוך החברה (שאילתה)
איזה פריטים נמכרו הכי הרבה (שאילתה)
האם יש תלות מאיזור המכירה והפריטים שנמכרו
שם? (כריית מידע)
איך ניתן לנבא כמה נמכור באיזור XXXבעוד שנה?
(כריית מידע --רגרסיה)
איך ניתן לנבא אם פריט Yיהיה רווחי (כריית מידע
רגרסיה /קלסיפיקציה)
איך ניתן לנבא איזה זוגות של פריטים שווה למכור
ביחד (כריית מידע ) association,clustering