1. מבוא לכריית מידע

Download Report

Transcript 1. מבוא לכריית מידע

‫כריית מידע ‪ --‬מבוא‬
‫ד"ר אבי רוזנפלד‬
‫מה לומדים פה‪...‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫אלגוריתמים של כריית מידע‬
‫להבין את המשמעות של הפלט (החוקים) של‬
‫הלמידה‬
‫איך לייצר את החוקים (‪)SQL SERVER ,WEKA‬‬
‫זה לא קורס בבסיסי נתונים (‪)ACCESS‬‬
‫– בסיסי נתונים הם חלק‪ ,‬אבל רק חלק מהתהליך‬
Knowledge Discovery (KDD) Process
• This is a view from typical database
systems and data warehousing
Pattern Evaluation
communities
• Data mining plays an essential role in
the knowledge discovery process
Data Mining
Task-relevant Data
Data Warehouse
Data Cleaning
Data Integration
3
Databases
Selection
Data Mining in Business Intelligence
Increasing potential
to support
business decisions
Decision
Making
Data Presentation
Visualization Techniques
End User
Business
Analyst
Data Mining
Information Discovery
Data
Analyst
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
4
DBA
‫תהליך של כריית מידע‬
‫שלב הראשון – להבין את הסביבה‬
‫• איזה מידע יש במערכת? האם זה מספיק?‬
‫– האם המידע הסתברותי? האם יש ‪( LABEL‬מידע‬
‫אובייקטיבי)‬
‫– ‪Fraud in credit card, fraud in Machon tests‬‬
‫– מה המחיר לאסוף עוד מידע (‪)Certainty level‬‬
‫הכנת המידע – איך המידע מאוחסן‬
‫• קובץ ‪( EXCEL‬הפורמט שאני אוהב)‬
‫• ‪ACCESS‬‬
‫• ‪ MATHLAB ,SPSS ,ORACLE ,SQL‬וכו'‬
‫בניית המודל‬
‫• רוב הקורס– האלגוריתמים בשקפים הבאים‪...‬‬
‫ניצול החוקים‬
‫• יישום החוקים‪ ,‬הסקת מסקנות‪ ,‬הדרכה וכו'‬
‫• גילוי של מאפיינים חדשים ולמידה מחדש וכו'‬
‫האלגוריתמים של כריית מידע‬
• Classification – ‫ – קלסיפיקציה‬C4.5
• Regression - ‫ – רגרסיה‬polynomial, logistic,
SVM
• Clustering – ‫ – מיקבוץ‬k-NN, k-means
• Co-occurrence – collaborative filtering
• Information Retrieval – PageRank
• Probabilistic models – Bayes, Naïve Bayes
‫ שיטות למידה‬- Supervised
Decision Trees – finding cancer
‫ שיטות למידה‬- Unsupervised
Clustering (k=11)
‫ההבדל בין כריית מידע ושאילתות‬
‫• בשאלתה אתה בערך יודע מה אתה מחפש‪:‬‬
‫‪SELECT * FROM CUSTOMERS WHERE AGE > 45‬‬
‫• בכריית מידע אתה מחפש משהו ואתה לא יודע‬
‫מראש מה!‬
‫??? ‪SELECT ??? FROM CUSTOMERS WHERE‬‬
‫דוגמאות‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫מי מכר הכי הרבה פריטים בתוך החברה (שאילתה)‬
‫איזה פריטים נמכרו הכי הרבה (שאילתה)‬
‫האם יש תלות מאיזור המכירה והפריטים שנמכרו‬
‫שם? (כריית מידע)‬
‫איך ניתן לנבא כמה נמכור באיזור ‪ XXX‬בעוד שנה?‬
‫(כריית מידע‪ --‬רגרסיה)‬
‫איך ניתן לנבא אם פריט ‪ Y‬יהיה רווחי (כריית מידע‬
‫רגרסיה ‪ /‬קלסיפיקציה)‬
‫איך ניתן לנבא איזה זוגות של פריטים שווה למכור‬
‫ביחד (כריית מידע ‪) association,clustering‬‬