Pengenalan Data Mining

Download Report

Transcript Pengenalan Data Mining

Data Mining

Romi Satria Wahono

[email protected]

http://romisatriawahono.net/dm WA/SMS: +6281586220090

1

Romi Satria Wahono

• • • • • • • SD Sompok SMPN 8 Semarang (1987) Semarang (1990) SMA Taruna Nusantara Magelang (1993) B.Eng

, M.Eng

and Ph.D

in Software Engineering from Saitama University Japan (1994-2004) Universiti Teknikal Malaysia Melaka (2014) • Research Interests: Software Engineering , Machine Learning Founder dan Koordinator Peneliti LIPI (2004-2007) Founder dan CEO IlmuKomputer.Com

PT Brainmatics Cipta Informatika 2

Learning Design

Educational Objectives

(Benjamin Bloom)

Criterion Referenced Instruction

(Robert Mager) Cognitive Competencies Affective Performance Psychomotor Evaluation

Minimalism

(John Carroll) Start Immediately Minimize the Reading Error Recognition Self-Contained 3

Learning Design

Pretest dan Posttest untuk Mengukur Kompetensi Kognifif Mahasiwa Penugasan berbasis Self Contained Project atau Literatur Review Penyajian Materi dengan Model Minimalism berbasis Konsep Amati-Tiru-Modifikasi Latihan Secara Iteratif untuk Meningkatkan Kompetensi Kognitif dan Psikomotorik Mahasiswa 4

Textbooks

5

Course Outline

1. Pengenalan Data Mining 2. Proses Data Mining 3. Evaluasi dan Validasi pada Data Mining 4. Metode dan Algoritma Data Mining 5. Penelitian Data Mining 6

1. Pengenalan Data Mining

1.1 Apa itu Data Mining?

1.2 Peran Utama dan Metode Data Mining 8

1.1 Apa itu Data Mining?

9

Mengapa Data Mining?

• • • Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi berbagai data yang jumlahnya sangat besar • Contoh data: bisnis, kedokteran, ekonomi, geografi, olahraga, … Pada dasarnya, data adalah entitas yang tidak memiliki arti , meskipun memiliki nilai di dalamnya kemungkinan We are drowning in data knowledge ! , but starving for 10

Apa itu Data Mining?

• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data 1.

2.

Data : fakta yang terekam dan tidak membawa arti Pengetahuan : pola , rumus , aturan atau model yang muncul dari data • Nama lain data mining: business intelligence, etc.

Knowledge Discovery in Database (KDD), knowledge extraction, data/pattern analysis, data dredging, data archeology, information harvesting, 11 www.newmediamusings.com

Apa Itu Data Mining?

Himpunan Data Metode Data Mining Pengetahuan

12

Definisi Data Mining

• Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011) • • Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa,

2007)

Extraction of interesting (non-trivial, implicit , previously unknown and potentially useful) patterns or knowledge from huge amount of data (Han et al., 2013) 13

Irisan Bidang Ilmu Data Mining

1. Statistik : • Lebih bersifat teori • Fokus ke pengujian hipotesis 2. Machine Learning : • Lebih bersifat heuristik • Fokus pada perbaikan performansi dari suatu teknik learning 3. Data Mining : • Gabungan teori dan heuristik • Fokus pada seluruh proses penemuan knowledge dan pola • Termasuk data cleaning, learning dan visualisasi hasilnya 14

Data Mining pada Business Intelligence

Increasing potential to support business decisions Decision Making Data Presentation

Visualization Techniques

Data Mining

Information Discovery

End User Business Analyst Data Analyst Data Exploration

Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses Data Sources

Paper, Files, Web documents, Scientific experiments, Database Systems

15

DBA

Multi-Dimensional View of Data Mining • • •

Data to be mined

• Database data (extended-relational, object-oriented, heterogeneous, legacy), data warehouse, transactional data , stream, spatiotemporal, time-series , sequence, text and web, multi media, graphs & social and information networks

Knowledge to be mined

(or: Data mining functions) • Characterization, discrimination, association , classification , clustering , trend/deviation, outlier analysis, etc.

• Descriptive vs. predictive data mining

Techniques utilized

• Data-intensive, data warehouse (OLAP), machine learning , statistics , pattern recognition, visualization, high-performance, etc.

Applications adapted

• Retail, telecommunication , banking , fraud analysis , bio-data mining, stock market analysis, text mining, web mining, etc.

16

Cognitive-Performance Test

1. Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining ?

2. Apa perbedaan antara data pengetahuan (knowledge)?

dan 17

1.2 Peran Utama Data Mining

18

Peran Utama (Metode) Data Mining

1. Estimasi 5. Asosiasi 2. Prediksi 4. Klastering

19

3. Klasifikasi

Dataset (Himpunan Data)

Attribute/Feature Class/Label/Target Record/ Object/ Sample Nominal Numerik 20

1. Estimasi Waktu Pengiriman Pizza

Customer

1 2 3 4 ...

1000

Jumlah Pesanan (P) Jumlah Traffic Light (T)

3 1 2 4 3 7 4 6 2 4

Jarak (J)

3 4 6 8 2

Waktu Tempuh (T)

16 20 18 36 Label 12 Pembelajaran dengan Metode Estimasi ( Regresi Linier ) Waktu Tempuh (T) = 0.48P + 0.23T + 0.5J

Pengetahuan 21

Contoh: Estimasi Performansi CPU

… 208 209 1 2 •

Example

: 209 different computer configurations Cycle time (ns) MYCT 125 29 Main memory (Kb) MMIN MMAX 256 8000 6000 32000 Cache (Kb) CACH 256 32 Channels CHMIN 16 8 CHMAX 128 32 Performance PRP 198 269 480 480 512 1000 8000 4000 32 0 0 0 0 0 67 45 • Linear regression function PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX 22

Output/Pola/Model/Knowledge

1. Formula/ Function • (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule • (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) 23

2. Prediksi Harga Saham

Label Dataset harga saham dalam bentuk time series (rentet waktu) Pembelajaran dengan Metode Prediksi ( Neural Network ) 24

Pengetahuan Berupa Rumus Harga Saham 25

3. Klasifikasi Kelulusan Mahasiswa

Label

NIM

10001 10002 10003 10004 ...

...

11000 L P P L L

Gender Nilai UN

28 27 24 26.4

Asal Sekolah

SMAN 2 SMA DK SMAN 1 SMAN 3 23.4

SMAN 5

IPS1

3.3

4.0

2.7

3.2

3.3

IPS2

3.6

3.2

3.4

2.7

2.8

IPS3 IPS 4 ...

2.89

3.8

4.0

3.6

3.1

2.9

3.7

3.5

3.4

3.2

Lulus Tepat Waktu

Ya Tidak Tidak Ya Ya Pembelajaran dengan Metode Klasifikasi ( C4.5

) 26

Pengetahuan Berupa Pohon Keputusan 27

Contoh: Rekomendasi Main Golf

Input

: • Output (Rules) : If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes 28

Contoh: Rekomendasi Main Golf

Output (Tree) :

29

Contoh: Rekomendasi Contact Lens

• Input : 30

Contoh: Rekomendasi Contact Lens

• Output/Model (Tree): 31

4. Klastering Bunga Iris

Dataset Tanpa Label Pembelajaran dengan Metode Klastering ( K-Means ) 32

Pengetahuan Berupa Klaster

33

5. Asosiasi Kekayaan dan Barang

Pembelajaran dengan Metode Asosiasi ( FP-Growth ) 34

Pengetahuan Berupa Aturan Asosiasi 35

Aturan Asosiasi

• • Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut yang “ muncul bersamaan ” • Dalam dunia bisnis, sering disebut dengan

affinity analysis

atau

market basket analysis

• Algoritma asosiasi akan mencari aturan yang menghitung hubungan diantara dua atau lebih atribut Algoritma association rules berangkat dari pola “ If antecedent, then consequent ,” bersamaan dengan pengukuran support (coverage) dan confidence (accuration) yang terasosiasi dalam aturan 36

Aturan Asosiasi dari Data Transaksi

Waktu Transaksi

06:15 01-01-2012 06:25 01-01-2012

Item 1

Susu Sabun

Item 2

Popok Sampo

Item 3

Roti Indomie

Item 4

Gula Kondom 37

Contoh Aturan Asosiasi

• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di supermaket ABC, dimana: • 200 orang membeli Sabun Mandi • dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta • Jadi, association rule menjadi, “ Jika membeli sabun mandi, maka membeli Fanta ”, dengan nilai support = 200/1000 = 20% dan nilai 50/200 = 25% confidence = • Algoritma association rule diantaranya adalah: A priori algorithm , FP-Growth algorithm , GRI algorithm 38

Algoritma Data Mining (DM)

1. Estimation

• (Estimasi): Linear Regression, Neural Network , Support Vector Machine, etc

2. Prediction/Forecasting

• (Prediksi/Peramalan): Linear Regression, Neural Network , Support Vector Machine, etc

3. Classification

• (Klasifikasi): Naive Bayes, K-Nearest Neighbor, C4.5

, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc

4. Clustering

• (Klastering): K-Means , K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association

• (Asosiasi): FP-Growth, A Priori , etc 39

Metode Learning Pada Algoritma DM

Supervised Learning Unsupervised Learning Association Learning

40

Metode Learning Pada Algoritma DM

1. Supervised

• Learning (Pembelajaran dengan Guru): Sebagian besar learning algoritma data mining (estimation, prediction/forecasting, classification) adalah supervised • Variabel yang menjadi target/label/class ditentukan • Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variable prediktor 41

Dataset dengan Class

Attribute/Feature Class/Label/Target Nominal Numerik 42

Metode Learning Pada Algoritma DM

2. Unsupervised

• Learning (Pembelajaran tanpa Guru): Algoritma data mining mencari pola dari semua variable (atribut) • Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada) • Algoritma clustering learning adalah algoritma unsupervised 43

Dataset tanpa Class

Attribute/Feature 44

Metode Learning Pada Algoritma DM

3. Association

• Learning (Pembelajaran untuk Asosiasi Atribut) Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi • Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “ produk/item mana yang dibeli bersamaan ” • Pada pusat perbelanjaan banyak produk yang dijual , sehingga pencarian seluruh asosiasi produk memakan cost tinggi , karena sifatnya yang kombinatorial • Algoritma association rule seperti a priori algorithm , dapat memecahkan masalah ini dengan efisien 45

Dataset Transaction

46

Association Rules

47

Proses Utama pada Data Mining

Input

(Data)

Metode

(Algoritma Data Mining)

Output

(Pola/Model)

DATA PRE-PROCESSING

Data integration Normalization Feature selection Dimension reduction

DATA MINING ALGORITHM

Estimation Prediction Classification Clustering Association

48

POST-PROCESSING

Pattern evaluation Pattern selection Pattern interpretation Pattern visualization

Output/Pola/Model/Knowledge

1. Formula/ Function • (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule • (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) 49

Input – Metode – Output – Evaluation

Input

(Data)

Metode

(Algoritma Data Mining)

Output

(Pola/Model)

Evaluation

(Akurasi, AUC, RMSE, etc) 50

Cognitive-Performance Test 1. Sebutkan 5 peran utama data mining!

2. Jelaskan perbedaan estimasi dan prediksi !

3. Jelaskan perbedaan estimasi dan klasifikasi !

4. Jelaskan perbedaan klasifikasi dan klastering !

5. Jelaskan perbedaan klastering dan prediksi !

6. Jelaskan perbedaan supervised unsupervised learning!

dan 7. Sebutkan tahapan utama proses data mining!

51

Contoh Penerapan Data Mining

• • • • • Penentuan kelayakan aplikasi peminjaman uang di bank Penentuan pasokan listrik PLN untuk wilayah Jakarta Diagnosis pola kesalahan mesin Perkiraan harga saham dan tingkat inflasi Analisis pola belanja pelanggan • • • • • Memisahkan minyak mentah dan gas alam Pemilihan program TV otomatis Penentuan pola pelanggan yang loyal pada perusahaan operator telepon Deteksi pencucian uang dari transaksi perbankan Deteksi serangan (intrusion) pada suatu jaringan 52

Cognitive-Performance Test 1. Sebutkan 5 peran utama data mining!

2. algoritma apa saja yang dapat digunakan untuk 5 peran utama data mining di atas?

3. Jelaskan perbedaan estimasi dan prediksi !

4. Jelaskan perbedaan estimasi dan klasifikasi !

5. Jelaskan perbedaan klasifikasi dan klastering !

6. Jelaskan perbedaan klastering dan prediksi !

7. Jelaskan perbedaan supervised learning!

dan unsupervised 8. Sebutkan tahapan utama proses data mining!

53

Referensi

1. Ian H. Witten, Frank Eibe, Mark A. Hall, Edition , Elsevier, 2011 Data mining: Practical Machine Learning Tools and Techniques 3rd 2. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining , John Wiley & Sons, 2005 3. Florin Gorunescu, Data Mining: Concepts, Models and Techniques , Springer, 2011 4. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition , Elsevier, 2012 5. Oded Maimon and Lior Rokach , Data Mining and Knowledge Discovery Handbook Second Edition , Springer, 2010 6. Warren Liao and Evangelos Triantaphyllou (eds.), Applications , World Scientific, 2007 Recent Advances in Data Mining of Enterprise Data: Algorithms and 54