Data Mining

Transcript Data Mining

The Knowledge Discovery
Process
DATA MINING
 Data Mining adalah kegiatan untuk menemukan
informasi atau pengetahuan yang berguna dari data
yang jumlahnya besar.
DM dan KDD
Tahapan KDD (Peter Cabena)
 Penentuan Sasaran Bisnis (Business Objective




Determination)
Persiapan Data (Data Preparation)
– Data Selection
– Data Preprocessing
– Data Transformation
Data Mining
Analysis of Results
Assimilation of Knowledge
Bussines Objective Determination #1
 Mendefinisikan permasalahan atau tantangan bisnis
dengan jelas. Hal ini merupakan aspek yang sangat
esensial dalam setiap proyek data mining.
 (Oleh beberapa peneliti KDD lainnya -- bahkan
yang terkenal -- tahapan ini cenderung diabaikan!
dan jarang disebut)
 Jika tanpa sasaran bisnis yang jelas, orang berkata:
"Here is the data, please mine it.". Tetapi jika
mining dilakukan dan pengetahuan diperoleh,
bagaimana dapat diketahui bahwa solusi tersebut
benar-benar dibutuhkan?
Bussines Objective Determination #2
 Contoh sasaran bisnis:
Mengembangkan suatu strategi marketing untuk
mempertahankan loyalitas customer Bali terhadap
produk soft drink dengan brand dan ukuran tertentu
(200ml dalam kemasan kaleng) selama bulan Juni, Juli,
Agustus yang akan datang. Perusahaan akan
menggunakan kombinasi dari berbagai strategi
marketing (mixed marketing), yang salah satunya
adalah direct mail campaign kepada customer yang
tampaknya "mudah rusak" loyalitasnya.
Bussines Objective Determination #3
 Pertanyaan kuncinya:
Customer mana yang akan dikirimi brosur
supaya usaha ini berhasil? /
Customer mana yang tergolong tidak loyal ?
Data Preparation #1
 Mempersiapkan data yang diperlukan untuk proses
data mining.
 Tujuannya:
– agar data yang digunakan benar-benar sesuai
dengan permasalahan yang akan dipecahkan, dapat
dijamin kebenarannya, dan dalam format yang
sesuai/tepat.
Data Preparation #2
 Tahap yang paling banyak mengkonsumsi resources
(manusia, biaya, waktu) yang tersedia. Biasanya
mencapai 60% keseluruhan proyek KDD.
 Menurut Cabena: Secara berurutan untuk 5 fase
Cabena membutuhkan: 20% (fase 1) + 60% (fase
2)+ 10% (fase 3) + 10% (untuk kedua fase 4
dan 5).
Data Preparation #3
Data Preparation #4
 Data Selection
– Mengidentifikasi semua sumber informasi internal dan
eksternal dan memilih sebagian saja dari data yang diperlukan
untuk aplikasi data mining.
 Contoh :
 dipilih customers yang membeli produk soft drink 200 ml
dalam kemasan kaleng di Bali.
Data Preparation #5
 Data Preprocessing
– Meyakinkan kualitas dari data yang telah dipilih
pada tahapan sebelumnya.
– Dua issue yang paling sering dihadapkan pada tahap
ini:
• Noisy Data
• Missing Values
Data Preparation #6
 Data Transformation (#1)
– Mengubah data ke dalam model analitis.
– Memodelkan data agar sesuai dengan analis yang diharapkan
dan format data yang diperlukan oleh algoritma data mining.
 Contoh :
customers yang membeli produk soft drink 200 ml dalam
kotak alumunium disorting dalam 10 kategori, yang masingmasing membedakan tingkat loyalitasnya: membeli produk
tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang
waktu pembeliannya. Selanjutnya data inilah yang akan
dibawa ke tahap data mining.
Data Preparation #7
 Data Transformation (#2)
Perlu diperhatikan terlebih dahulu 2 tipe utama data yang
digunakan:
 Categorical: semua nilai yang mungkin ada, bersifat
terbatas
nominal: tanpa urutan, seperti status perkawinan (single,
kawin, duda/janda, unknown) atau jenis kelamin (lakilaki,perempuan)
 ordinal: dengan urutan, seperti rating loyalitas customer
(sangat baik, baik, cukup, kurang atau vulnerable atau mudah
dirusak loyalitasnya).

Data Preparation #8
 Data Transformation (#3)
– Quantitative: semua nilai yang mungkin dapat diukur
perbedaannya
continuous (nilai-nilai bilangan real): gaji bulanan, ratarata transaksi dalam satu periode waktu (bulan, kuartal atau
tahun).
 discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai,
jumlah transaksi dalam satu periode waktu.

Data Preparation #9
 Data Transformation (#4)
 Contoh
 Discretization: Pendapatan < Rp. 500.000, dikodekan 1, Rp.
500.000 s.d. 1 juta dikodekan 2 dan seterusnya.
 Normalization: Jika proses data mining menggunakan
ANN, karena sebagian besar ANN hanya menerima input
dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka
parameter continuous yang di luar range tersebut harus
dinormalisasi.
Data Mining #1
 Melakukan proses pencarian pengetahuan terhadap
data yang ditransformasikan pada tahap
sebelumnya.
 Contoh Pengetahuan berbentuk Association Rule
untuk kasus "Soft Drink“:
IF soft drink sejenis dengan ukuran yang lebih besar dibeli
dalam lebih dari 58% sejarah pembelian soft drink seorang
consumer THEN consumer tersebut diprediksi Loyal.
Data Mining #2
 Contoh Pengetahuan berbentuk Association Rule
untuk kasus "Soft Drink“:


IF seorang consumer cenderung lebih banyak membeli soft
drink merk "X" THEN consumer tersebut diprediksi Tidak
Loyal
IF dihitung secara rata-rata seorang consumer ternyata
membeli lebih dari 345,67ml setiap kali belanja AND dengan
harga rata rata soft drink per 100ml >= Rp. 550, THEN
consumer tersebut diprediksi Loyal.
Analysis of Result
 Menginterpretasikan dan mengevaluasi output dari
tahap mining: patterns. Pendekatan analisa yang
digunakan akan bervariasi menurut operasi data
mining yang digunakan, tetapi biasanya akan
melibatkan teknik visualisasi.
Assimilation of Knowledge
 Menggunakan hasil mining yang telah dievaluasi ke
dalam perilaku organisasi dan sistem informasi
perusahaan.
Tahapan Proses KDD (Jia Weihan) #1
 Data cleaning
 Data integration
 Data selection
 Data transformation
 Data mining
 Pattern Evaluation
 Knowledge Presentation
Tahapan Proses KDD (Jia Weihan) #1
 Data Cleaning: menghilangkan noise dan data
yang inkonsisten.
 Data Integration: menggabungkan berbagai
macam sumber data.
 Data Selection: memilih data yang relevan
(dari database) dengan "analysis task". "analysis
task" = Business Objective Determination (Cabena).
Tahapan Proses KDD (Jia Weihan) #1
 Data Transformation: transformasi atau
konsolidasi data ke dalam bentuk yang lebih baik
untuk mining, dengan mewujudkan operasi
summary dan aggregation (misal: daily data --->
monthly ---> quarterly ---> annual).
 Data Mining: mengekstrak patterns dari data
dengan menerapkan "intelligent methods".
Tahapan Proses KDD (Jia Weihan) #1
 Pattern Evaluation: mengidentifikasi
sejumlah pola yang sungguh-sungguh menarik
dan bakal menjadi pengetahuan berdasarkan
sejumlah pengukuran ketertarikan
(interestingness measures) seperti rule
support dan rule confidence untuk rule
extraction.
 Knowledge Presentation: penggunaan
teknik-teknik visualisasi dan representasi untuk
menyajikan pengetahuan yang telah diperoleh
kepada user
Pemrosesan Data
Mengapa Data Diproses Awal?
 Data dalam dunia nyata kotor
 Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang
dipentingkan tidak disertakan, atau hanya memuat data
agregasi. Misal, pekerjaan=“”
 Noise: memuat error atau memuat outliers (data yang secara
nyata berbeda dengan data-data yang lain). Misal, Salary=“10”
 Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997”
 Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”

Mengapa Data Diproses Awal?
 Data yang lebih baik akan menghasilkan data mining
yang lebih baik
 Data preprocessing membantu didalam
memperbaiki presisi dan kinerja data mining dan
mencegah kesalahan di dalam data mining.
Mengapa Data Kotor ?
 Ketaklengkapan data Noise data diakibatkan oleh
 Nilai data tidak tersedia saat dikumpulkan
 Masalah manusia, hardware, dan software
 Ketakkonsistenan data diakibatkan oleh
 Sumber data yang berbeda
Mengapa Pemrosesan Awal Data Penting?
 Kualitas data tidak ada, kualitas hasil mining tidak
ada!

Kualitas keputusan harus didasarkan kepada kualitas data

Misal, duplikasi data atau data hilang bisa menyebabkan ketidakbenaran atau bahkan statistik yang menyesatkan.
 Ekstraksi data, pembersihan, dan transformasi
merupakan kerja utama dari pembuatan suatu data
warehouse. — Bill Inmon
Tugas Utama Pemrosesan Awal Data
 Pembersihan data (data yang kotor)
– Mengisi nilai-nilai yang hilang, menghaluskan noise data,
mengenali atau menghilangkan outlier, dan memecahkan
ketak-konsistenan
 Integrasi data (data heterogen)
 Integrasi banyak database, banyak kubus data, atau banyak
file
 Transformasi data (data detail)
 Normalisasi dan agregasi
Tugas Utama Pemrosesan Awal Data
 Reduksi data (jumlah data yang besar)
 Mendapatkan representasi yang direduksi dalam volume
tetapi menghasilkan hasil analitikal yang sama atau mirip
 Diskritisasi data (kesinambungan atribut)
 Bagian dari reduksi data tetapi dengan kepentingan khusus,
terutama data numerik
Bentuk-Bentuk Pemrosesan Awal Data
Contoh : Data yang menggandung missing values
Penghapusan data yang mengandung missing values
Mean Imputed Values
Clustering for Outlier Detection

Data Mining

Transcript Data Mining

Directory