Transcript Pengenalan Data Mining
Data Mining
Romi Satria Wahono
http://romisatriawahono.net/dm WA/SMS: +6281586220090
1
Romi Satria Wahono
• • • • • • • SD Sompok SMPN 8 Semarang (1987) Semarang (1990) SMA Taruna Nusantara Magelang (1993) B.Eng
, M.Eng
and Ph.D
in Software Engineering from Saitama University Japan (1994-2004) Universiti Teknikal Malaysia Melaka (2014) • Research Interests: Software Engineering , Machine Learning Founder dan Koordinator Peneliti LIPI (2004-2007) Founder dan CEO IlmuKomputer.Com
PT Brainmatics Cipta Informatika 2
Learning Design
Educational Objectives
(Benjamin Bloom)
Criterion Referenced Instruction
(Robert Mager) Cognitive Competencies Affective Performance Psychomotor Evaluation
Minimalism
(John Carroll) Start Immediately Minimize the Reading Error Recognition Self-Contained 3
Learning Design
Pretest dan Posttest untuk Mengukur Kompetensi Kognifif Mahasiwa Penugasan berbasis Self Contained Project atau Literatur Review Penyajian Materi dengan Model Minimalism berbasis Konsep Amati-Tiru-Modifikasi Latihan Secara Iteratif untuk Meningkatkan Kompetensi Kognitif dan Psikomotorik Mahasiswa 4
Textbooks
5
Course Outline
1. Pengenalan Data Mining 2. Proses Data Mining 3. Evaluasi dan Validasi pada Data Mining 4. Metode dan Algoritma Data Mining 5. Penelitian Data Mining 6
1. Pengenalan Data Mining
1.1 Apa itu Data Mining?
1.2 Peran Utama dan Metode Data Mining 8
1.1 Apa itu Data Mining?
9
Mengapa Data Mining?
• • • Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi berbagai data yang jumlahnya sangat besar • Contoh data: bisnis, kedokteran, ekonomi, geografi, olahraga, … Pada dasarnya, data adalah entitas yang tidak memiliki arti , meskipun memiliki nilai di dalamnya kemungkinan We are drowning in data knowledge ! , but starving for 10
Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data 1.
2.
Data : fakta yang terekam dan tidak membawa arti Pengetahuan : pola , rumus , aturan atau model yang muncul dari data • Nama lain data mining: business intelligence, etc.
Knowledge Discovery in Database (KDD), knowledge extraction, data/pattern analysis, data dredging, data archeology, information harvesting, 11 www.newmediamusings.com
Apa Itu Data Mining?
Himpunan Data Metode Data Mining Pengetahuan
12
Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011) • • Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa,
2007)
Extraction of interesting (non-trivial, implicit , previously unknown and potentially useful) patterns or knowledge from huge amount of data (Han et al., 2013) 13
Irisan Bidang Ilmu Data Mining
1. Statistik : • Lebih bersifat teori • Fokus ke pengujian hipotesis 2. Machine Learning : • Lebih bersifat heuristik • Fokus pada perbaikan performansi dari suatu teknik learning 3. Data Mining : • Gabungan teori dan heuristik • Fokus pada seluruh proses penemuan knowledge dan pola • Termasuk data cleaning, learning dan visualisasi hasilnya 14
Data Mining pada Business Intelligence
Increasing potential to support business decisions Decision Making Data Presentation
Visualization Techniques
Data Mining
Information Discovery
End User Business Analyst Data Analyst Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
15
DBA
Multi-Dimensional View of Data Mining • • •
Data to be mined
• Database data (extended-relational, object-oriented, heterogeneous, legacy), data warehouse, transactional data , stream, spatiotemporal, time-series , sequence, text and web, multi media, graphs & social and information networks
Knowledge to be mined
(or: Data mining functions) • Characterization, discrimination, association , classification , clustering , trend/deviation, outlier analysis, etc.
• Descriptive vs. predictive data mining
Techniques utilized
• Data-intensive, data warehouse (OLAP), machine learning , statistics , pattern recognition, visualization, high-performance, etc.
•
Applications adapted
• Retail, telecommunication , banking , fraud analysis , bio-data mining, stock market analysis, text mining, web mining, etc.
16
Cognitive-Performance Test
1. Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining ?
2. Apa perbedaan antara data pengetahuan (knowledge)?
dan 17
1.2 Peran Utama Data Mining
18
Peran Utama (Metode) Data Mining
1. Estimasi 5. Asosiasi 2. Prediksi 4. Klastering
19
3. Klasifikasi
Dataset (Himpunan Data)
Attribute/Feature Class/Label/Target Record/ Object/ Sample Nominal Numerik 20
1. Estimasi Waktu Pengiriman Pizza
Customer
1 2 3 4 ...
1000
Jumlah Pesanan (P) Jumlah Traffic Light (T)
3 1 2 4 3 7 4 6 2 4
Jarak (J)
3 4 6 8 2
Waktu Tempuh (T)
16 20 18 36 Label 12 Pembelajaran dengan Metode Estimasi ( Regresi Linier ) Waktu Tempuh (T) = 0.48P + 0.23T + 0.5J
Pengetahuan 21
Contoh: Estimasi Performansi CPU
… 208 209 1 2 •
Example
: 209 different computer configurations Cycle time (ns) MYCT 125 29 Main memory (Kb) MMIN MMAX 256 8000 6000 32000 Cache (Kb) CACH 256 32 Channels CHMIN 16 8 CHMAX 128 32 Performance PRP 198 269 480 480 512 1000 8000 4000 32 0 0 0 0 0 67 45 • Linear regression function PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX 22
Output/Pola/Model/Knowledge
1. Formula/ Function • (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule • (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) 23
2. Prediksi Harga Saham
Label Dataset harga saham dalam bentuk time series (rentet waktu) Pembelajaran dengan Metode Prediksi ( Neural Network ) 24
Pengetahuan Berupa Rumus Harga Saham 25
3. Klasifikasi Kelulusan Mahasiswa
Label
NIM
10001 10002 10003 10004 ...
...
11000 L P P L L
Gender Nilai UN
28 27 24 26.4
Asal Sekolah
SMAN 2 SMA DK SMAN 1 SMAN 3 23.4
SMAN 5
IPS1
3.3
4.0
2.7
3.2
3.3
IPS2
3.6
3.2
3.4
2.7
2.8
IPS3 IPS 4 ...
2.89
3.8
4.0
3.6
3.1
2.9
3.7
3.5
3.4
3.2
Lulus Tepat Waktu
Ya Tidak Tidak Ya Ya Pembelajaran dengan Metode Klasifikasi ( C4.5
) 26
Pengetahuan Berupa Pohon Keputusan 27
Contoh: Rekomendasi Main Golf
•
Input
: • Output (Rules) : If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes 28
Contoh: Rekomendasi Main Golf
•
Output (Tree) :
29
Contoh: Rekomendasi Contact Lens
• Input : 30
Contoh: Rekomendasi Contact Lens
• Output/Model (Tree): 31
4. Klastering Bunga Iris
Dataset Tanpa Label Pembelajaran dengan Metode Klastering ( K-Means ) 32
Pengetahuan Berupa Klaster
33
5. Asosiasi Kekayaan dan Barang
Pembelajaran dengan Metode Asosiasi ( FP-Growth ) 34
Pengetahuan Berupa Aturan Asosiasi 35
Aturan Asosiasi
• • Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut yang “ muncul bersamaan ” • Dalam dunia bisnis, sering disebut dengan
affinity analysis
atau
market basket analysis
• Algoritma asosiasi akan mencari aturan yang menghitung hubungan diantara dua atau lebih atribut Algoritma association rules berangkat dari pola “ If antecedent, then consequent ,” bersamaan dengan pengukuran support (coverage) dan confidence (accuration) yang terasosiasi dalam aturan 36
Aturan Asosiasi dari Data Transaksi
Waktu Transaksi
06:15 01-01-2012 06:25 01-01-2012
Item 1
Susu Sabun
Item 2
Popok Sampo
Item 3
Roti Indomie
Item 4
Gula Kondom 37
Contoh Aturan Asosiasi
• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di supermaket ABC, dimana: • 200 orang membeli Sabun Mandi • dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta • Jadi, association rule menjadi, “ Jika membeli sabun mandi, maka membeli Fanta ”, dengan nilai support = 200/1000 = 20% dan nilai 50/200 = 25% confidence = • Algoritma association rule diantaranya adalah: A priori algorithm , FP-Growth algorithm , GRI algorithm 38
Algoritma Data Mining (DM)
1. Estimation
• (Estimasi): Linear Regression, Neural Network , Support Vector Machine, etc
2. Prediction/Forecasting
• (Prediksi/Peramalan): Linear Regression, Neural Network , Support Vector Machine, etc
3. Classification
• (Klasifikasi): Naive Bayes, K-Nearest Neighbor, C4.5
, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc
4. Clustering
• (Klastering): K-Means , K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association
• (Asosiasi): FP-Growth, A Priori , etc 39
Metode Learning Pada Algoritma DM
Supervised Learning Unsupervised Learning Association Learning
40
Metode Learning Pada Algoritma DM
1. Supervised
• Learning (Pembelajaran dengan Guru): Sebagian besar learning algoritma data mining (estimation, prediction/forecasting, classification) adalah supervised • Variabel yang menjadi target/label/class ditentukan • Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variable prediktor 41
Dataset dengan Class
Attribute/Feature Class/Label/Target Nominal Numerik 42
Metode Learning Pada Algoritma DM
2. Unsupervised
• Learning (Pembelajaran tanpa Guru): Algoritma data mining mencari pola dari semua variable (atribut) • Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada) • Algoritma clustering learning adalah algoritma unsupervised 43
Dataset tanpa Class
Attribute/Feature 44
Metode Learning Pada Algoritma DM
3. Association
• Learning (Pembelajaran untuk Asosiasi Atribut) Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi • Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “ produk/item mana yang dibeli bersamaan ” • Pada pusat perbelanjaan banyak produk yang dijual , sehingga pencarian seluruh asosiasi produk memakan cost tinggi , karena sifatnya yang kombinatorial • Algoritma association rule seperti a priori algorithm , dapat memecahkan masalah ini dengan efisien 45
Dataset Transaction
46
Association Rules
47
Proses Utama pada Data Mining
Input
(Data)
Metode
(Algoritma Data Mining)
Output
(Pola/Model)
DATA PRE-PROCESSING
Data integration Normalization Feature selection Dimension reduction
DATA MINING ALGORITHM
Estimation Prediction Classification Clustering Association
48
POST-PROCESSING
Pattern evaluation Pattern selection Pattern interpretation Pattern visualization
Output/Pola/Model/Knowledge
1. Formula/ Function • (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule • (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) 49
Input – Metode – Output – Evaluation
Input
(Data)
Metode
(Algoritma Data Mining)
Output
(Pola/Model)
Evaluation
(Akurasi, AUC, RMSE, etc) 50
Cognitive-Performance Test 1. Sebutkan 5 peran utama data mining!
2. Jelaskan perbedaan estimasi dan prediksi !
3. Jelaskan perbedaan estimasi dan klasifikasi !
4. Jelaskan perbedaan klasifikasi dan klastering !
5. Jelaskan perbedaan klastering dan prediksi !
6. Jelaskan perbedaan supervised unsupervised learning!
dan 7. Sebutkan tahapan utama proses data mining!
51
Contoh Penerapan Data Mining
• • • • • Penentuan kelayakan aplikasi peminjaman uang di bank Penentuan pasokan listrik PLN untuk wilayah Jakarta Diagnosis pola kesalahan mesin Perkiraan harga saham dan tingkat inflasi Analisis pola belanja pelanggan • • • • • Memisahkan minyak mentah dan gas alam Pemilihan program TV otomatis Penentuan pola pelanggan yang loyal pada perusahaan operator telepon Deteksi pencucian uang dari transaksi perbankan Deteksi serangan (intrusion) pada suatu jaringan 52
Cognitive-Performance Test 1. Sebutkan 5 peran utama data mining!
2. algoritma apa saja yang dapat digunakan untuk 5 peran utama data mining di atas?
3. Jelaskan perbedaan estimasi dan prediksi !
4. Jelaskan perbedaan estimasi dan klasifikasi !
5. Jelaskan perbedaan klasifikasi dan klastering !
6. Jelaskan perbedaan klastering dan prediksi !
7. Jelaskan perbedaan supervised learning!
dan unsupervised 8. Sebutkan tahapan utama proses data mining!
53
Referensi
1. Ian H. Witten, Frank Eibe, Mark A. Hall, Edition , Elsevier, 2011 Data mining: Practical Machine Learning Tools and Techniques 3rd 2. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining , John Wiley & Sons, 2005 3. Florin Gorunescu, Data Mining: Concepts, Models and Techniques , Springer, 2011 4. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition , Elsevier, 2012 5. Oded Maimon and Lior Rokach , Data Mining and Knowledge Discovery Handbook Second Edition , Springer, 2010 6. Warren Liao and Evangelos Triantaphyllou (eds.), Applications , World Scientific, 2007 Recent Advances in Data Mining of Enterprise Data: Algorithms and 54