Transcript Lecture 1

ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
Δρ. Παναγιώτης Συμεωνίδης
Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων
Τμήμα Πληροφορικής
Διατμηματικό Πρόγραμμα
Μεταπτυχιακών Σπουδών
Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης
http://delab.csd.auth.gr/~symeon
Δρ.
Δρ.Παναγιώτης
Παναγιώτης Συμεωνίδης
Συμεωνίδης––Αποθήκες
Αποθήκεςκαι
καιΕξόρυξη
ΕξόρυξηΔεδομένων
Δεδομένων 11
Αποθήκες Δεδομένων
Η τεχνολογία των αποθηκών δεδομένων
προσφέρει
ολοκλήρωση ετερογενών πηγών δεδομένων και
πλατφόρμα για αποδοτική ανάλυση ιστορικών δεδομένων
Μία αποθήκη δεδομένων αποτελεί μία συλλογή
δεδομένων που
επιλέγονται από τις Επιχειρησιακές Βάσεις Δεδομένων,
Ολοκληρώνονται (integrated),
τα δεδομένα αναλύονται με διαδικασίες όπως η On-line
Analytical Processing (OLAP) ή η εξόρυξη δεδομένων.
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 2
Ορισμός Αποθήκης Δεδομένων
Σύμφωνα με τον (Inmon, 1992) ορίζουμε την
αποθήκη δεδομένων ως μια συλλογή
δεδομένων
προσανατολισμένη προς ένα θέμα (subject-oriented),
Π.χ. πωλήσεις, προϊόντα, πελάτες, κτλ.
ολοκληρωμένη (integrated),
Ενοποίηση ετερογενών δεδομένων,
χρονικά μεταβαλλόμενη (time-variant),
Ιστορικά δεδομένα
Που δεν διαγράφεται (non-volatile)
Με σκοπό την υποστήριξη λήψης αποφάσεων
W.H. Inmon, Building the Data Warehouse, 1992 (ο εφευρέτης του όρου)
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 3
Αποθήκες δεδομένων – Λειτουργικά
Χαρακτηριστικά
Ιστορικά Δεδομένα
 Ο χρονικός ορίζοντας μιας αποθήκης δεδομένων είναι πολύ
μεγαλύτερος από ότι ενός συστήματος σε λειτουργία
 Η ΒΔ έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και
παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια)
Τροποποιήσεις
 Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα
στις αποθήκες δεδομένων, συνήθως περιοδικά
 Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων
(loading) και προσπέλαση δεδομένων (access)
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες
4
και Εξόρυξη Δεδομένων 4
Εξόρυξη Δεδομένων - Ορισμός
Η εξαγωγή πληροφορίας από μεγάλες
βάσεις δεδομένων:
ενδιαφέρουσας
νέας (μη γνωστής εκ των προτέρων)
μη προφανούς
χρήσιμης (αξιοποιήσιμης)
Δρ.
Δρ.Παναγιώτης
Παναγιώτης Συμεωνίδης
Συμεωνίδης––Αποθήκες
Αποθήκεςκαι
καιΕξόρυξη
ΕξόρυξηΔεδομένων
Δεδομένων 55
Κίνητρο για εξόρυξη
“Παντού δεδομένα…”
Σχεσιακές βάσεις
αποθήκες δεδομένων
δεδομένα συναλλαγών (ATM, υπερκαταστήματα)
χωρικά δεδομένα (GIS, δορυφόροι)
δεδομένα χρονοσειρών
πολυμεσικά δεδομένα (φωνή, εικόνα)
δεδομένα Ιστού (logs, ιστοσελίδες)
Αντί “προβλήματος”, πηγή πλεονεκτήματος
Δρ.
Δρ.Παναγιώτης
Παναγιώτης Συμεωνίδης
Συμεωνίδης––Αποθήκες
Αποθήκεςκαι
καιΕξόρυξη
ΕξόρυξηΔεδομένων
Δεδομένων 66
Εξόρυξη ως διαδικασία
Αποτίμηση Προτύπων
Εξόρυξη Δεδομένων
Αποθήκη Δεδομένων
Καθαρισμός
Ανάδραση
Βάσεις Δεδομένων
Δρ.
Δρ.Παναγιώτης
Παναγιώτης Συμεωνίδης
Συμεωνίδης––Αποθήκες
Αποθήκεςκαι
καιΕξόρυξη
ΕξόρυξηΔεδομένων
Δεδομένων 77
ΑΠΟΘΗΚΕΣ & ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
Εξόρυξη από τον
Παγκόσμιο Ιστό
Εξόρυξη Δεδομένων
Κατηγοριοποίηση
Ομαδοποίηση
Κανόνες Συσχέτισης
Δεδομένα Δομής
(PageRank, HITS)
Δεδομένα
Περιεχομένου
Αποθήκες &
Εξόρυξη
Δεδομένων
Δεδομένα Χρήσης
Υλοποίηση Αποθηκών
Δεδομένων
Δημιουργία Κύβων
Analysis Services
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 9
ΣΚΟΠΟΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ
Τρεις διδακτικοί στόχοι:
1. Γνώση προχωρημένων θεμάτων Αποθηκών και
Εξόρυξης Δεδομένων.
2. Ικανότητα για κριτική αξιολόγηση ερευνητικών
εργασιών στην Εξόρυξη Δεδομένων.
3. Εφαρμογή αλγορίθμων Εξόρυξης Δεδομένων για
την επίλυση προβλημάτων.
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 10
ΒΙΒΛΙΟΓΡΑΦΙΑ
[1] Introduction to Data Mining
(Tan, Steinbach, Kumar)
[2] Mining of Massive Datasets
(Rajaraman, Leskovec, Ullman)
[3] Εισαγωγή στην εξόρυξη και
τις αποθήκες δεδομένων
(Νανόπουλος, Μανωλόπουλος)
Mining
of
Massive
Datasets
Anand Rajaraman
Jure Leskovec
Jeffrey D. Ullman
ΒΑΘΜΟΛΟΓΙΑ ΜΑΘΗΜΑΤΟΣ
ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
(2 μονάδες)
ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ
(3 μονάδες)
ΕΞΕΤΑΣΕΙΣ
(5 μονάδες)
*Οι μονάδες αθροίζονται χωρίς προϋποθέσεις
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 12
ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Δυνατότητες επιλογής Θέματος
1.
2.
3.
State-of-the-art papers from Conferences or Workshops
Papers from Data Engineering Lab (DELAB)
DM Book project Topics
Τρόπος Παρουσίασης
Διάλεξη 25 λεπτών
Προβολή διαφανειών σε Power Point (30 διαφάνειες)
Ερωτήσεις – Συζήτηση (5 λεπτά)
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 13
ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ
Χρήση του MS SQL Server 2008 R2 Business Intelligence
Σενάριο
Μια επιχείρηση διαθέτει μια βάση δεδομένων με στοιχεία των πελατών
της. Θα σας δοθούν τρία προβλήματα που αντιμετωπίζει η επιχείρηση και
θα προτείνετε λύσεις.
Εφαρμογή αλγορίθμων Εξόρυξης δεδομένων
Αλγόριθμοι Δέντρου, Συστάδων και Κανόνων Συσχέτισης
Παραδοτέα
Προσδιορισμός πιθανών μοντέλων
Διαγράμματα κύβου, δέντρου, συστάδων και κανόνων συσχέτισης
Αξιολόγηση των πιθανών μοντέλων
Επιλογή καλύτερου μοντέλου
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 14
Εξετάσεις
Ύλη μαθήματος
(5-6 κεφάλαια από τα βιβλία που προτείνονται)
Θα πρέπει να απαντηθούν πέντε θέματα
(1 μονάδα το καθένα)
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 15
Οργάνωση του Μαθήματος
Μάθημα 1 : Διάγραμμα & περιγραφή Μαθήματος (Syllabus)
Μάθημα 2 : Βασικές έννοιες στις Αποθήκες Δεδομένων
Μάθημα 3 : Φυσικό Επίπεδο Αποθηκών Δεδομένων
Μάθημα 4 : MS SQL Server 2008 (Δημιουργία κύβου)
Μάθημα 5 : Κατηγοριοποίηση
Μάθημα 6 : Κανόνες Συσχέτισης
Μάθημα 7 : Ομαδοποίηση (πρώτος μέρος)
Μάθημα 8 : Ομαδοποίηση (δεύτερο μέρος)
Μάθημα 9 : MS SQL Server 2008 (Ομαδοποίηση)
Μάθημα 10 : MS SQL Server 2008 (Κατηγοριοποίηση)
Μάθημα 11 : MS SQL Server 2008 (Κανόνες Συσχέτισης)
Μάθημα 12 : Εξόρυξη Δεδομένων Παγκόσμιου Ιστού
Μάθημα 13 : Εξόρυξη Δεδομένων Ειδικού Σκοπού
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 16
Αποθήκες Δεδομένων
Δημιουργία Αποθήκης Δεδομένων
Σχήματα Αστέρα, Χιονονιφάδας και Γαλαξία
Δημιουργία Κύβου
Συστήματα MOLAP, ROLAP και HOLAP
Υποβολή Ερωτημάτων σε Κύβο
Τεχνικές Drill Down και Drill up
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 17
Θέματα Ομαδοποίησης
K-means
Agglomerative Hierarchical Clustering
Density-based algorithms (DBSCAN)
Graph-based algorithms (Two-way nCut)
Scalable Clustering algorithms
Cluster Evaluation
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 18
Θέματα Κατηγοριοποίησης
Decision Tree Classifier
Model Overfitting
Naïve Bayes Classifier
Nearest Neighbor Classifier
Evaluating and Comparing Classifiers
Ensemble Methods
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 19
Θέματα Κανόνων Συσχέτισης
Frequent Itemset Generation (Apriori)
Alternative Itemset Generation (FP-Growth)
Sequential Patterns (temporal information)
Recommendations based on Ass. Rules
(cross-sales)
Evaluation of Association Patterns
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 20
MS SQL Server 2008 (Δημιουργία Κύβου)
Δημιουργία Κύβου Δεδομένων
Προβολή του Κύβου Δεδομένων
Αξιολόγηση του Κύβου Δεδομένων
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 21
MS SQL Server 2008 (Κατηγοριοποίηση)
Εφαρμογή αλγορίθμου Δέντρου Απόφασης
Παράμετροι Αλγορίθμου
Προβολή του Δέντρου Απόφασης
Αξιολόγηση του Δέντρου Απόφασης
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 22
MS SQL Server 2008 (Ομαδοποίηση)
Εφαρμογή αλγορίθμου Ομαδοποίησης
Παράμετροι Αλγορίθμου
Προβολή συστάδων
Αξιολόγηση των συστάδων
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 23
MS SQL Server 2008 (Κανόνες Συσχέτισης)
Εφαρμογή αλγορίθμου Κανόνων Συσχέτισης
Παράμετροι Αλγορίθμου
Προβολή Κανόνων Συσχέτισης
Αξιολόγηση των Κανόνων Συσχέτισης
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 24
Εξόρυξη Δεδομένων Χρήσης ΠΙ
Χρησιμοποιεί δεδομένα από αρχεία καταγραφής
των ιστοσελίδων (Log files) και από τα προφίλ
των χρηστών (π.χ. βαθμολογίες χρηστών σε
προϊόντα)
Item1
Item2
Item3
Item4
User1
-
4
2
-
User2
-
3
4
-
User3
4
-
-
4
User4
5
-
5
Βαθμός
1 έως 5
Εφαρμογές : Συστήματα Συστάσεων Συνεργατικής
Διήθησης. (Recommender Systems)
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 25
Μάθημα 7 : Εξόρυξη Δεδομένων Χρήσης ΠΙ
Data Collection
Session Analysis
Collaborative Filtering
Recommender Systems
Social Tagging
Singular Value Decomposition
Tensor Dimensionality Reduction
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 26
Εξόρυξη Δεδομένων Περιεχομένου ΠΙ
χρησιμοποιεί το περιεχόμενο των ιστοσελίδων
(κείμενο, λέξεις κτλ.) προκειμένου να βρει
ομοιότητα μεταξύ τους.
Term1
Τerm2
Τerm3
Τerm4
Web page1
12
10
-
-
Web page2
8
9
-
-
Web page3
-
5
5
3
Web page4
-
4
6
8
Συχνότητα
Εφαρμογές : Συστήματα Προτάσεων Βάσει
περιεχομένου, Ανάκτηση Πληροφοριών.
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 27
Εξόρυξη Δεδομένων Περιεχομένου ΠΙ
Information Retrieval Models
Web Page Pre-processing
Latent Semantic Indexing
Web Spamming
Content-based Collaborative Filtering
Explanations in Recommender Systems
Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 28
Εξόρυξη Δεδομένων Δομής ΠΙ
Ανακαλύπτει ενδιαφέρουσα γνώση από
υπερσυνδέσμους μεταξύ ιστοσελίδων του
ΠΙ.
Εφαρμογές : Μηχανές Αναζήτησης,
Ανακάλυψη Κοινοτήτων κτλ.
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 29
Εξόρυξη Δεδομένων Δομής ΠΙ
Social Network Analysis (friendship
network)
Web Search and Search Engines
PageRank
HITS
Community Discovery
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 30
Εξόρυξη Δεδομένων Ειδικού Σκοπού
Data Mining and Audience Intelligence for
Advertising (ADKDD 2012)
Multimedia Data Mining (MDM/KDD 2012)
Knowledge Discovery on the Web (WebKDD 2012)
Knowledge Discovery from Sensor Data (SensorKDD 2012)
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 31
Εξόρυξη Δεδομένων Ειδικού Σκοπού
Data Mining in Bioinformatics (BIOKDD 2012)
Data Mining using Matrices and Tensors (KDD
2012)
Large-Scale Recommender Systems (KDD 2012)
Social Network Mining and Analysis (SNA-KDD
2012)
ASONAM
RecSys
PKDD
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 32
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
Δρ. Παναγιώτης Συμεωνίδης
Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων
Τμήμα Πληροφορικής
Διατμηματικό Πρόγραμμα
Μεταπτυχιακών Σπουδών
Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης
http://delab.csd.auth.gr/~symeon
Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 33