Data Mining-Single Linkage

Download Report

Transcript Data Mining-Single Linkage

Data Mining
Materi :
Clustering Hierarki Algoritmatif
Dicky Nofriansyah, S.Kom., M.Kom
Langkah Pasti Menuju Sukses
Metode-Metode Terkait Pengelompokan Hierarki Aglomeratif
Kunci operasi metode AHC (Algoritma Hierarki Cluster)
adalah penggunaan ukuran kedekatan (proximity) diantara dua
kelompok” (Hartini dalam Prasetyo, 2012 : 214).
Ada tiga tehnik kedekatan yang dijelaskan disini:
Single Linkage
Complete Linkage
Average Linkage
Langkah Pasti Menuju Sukses
Single
Linkage
• Jarak Terdekat atauTautan tunggal memberikan
hasil bila kelompok-kelompok digabungkan
menurut jarak antara anggota-anggota yang
terdekat diantara dua kelompok.
Complete
• Jarak Terjauh atau Tautan lengkap terjadi bila
kelompok-kelompok digabungkan menurut
jarak antara anggota-anggota yang terjauh di
antara dua kelompok.
Linkage
Average
Linkage
• Jarak Rata-rata atau Tautan rata-rata
digabungkan menurut jarak rata-rata pasanganpasangan
anggota masing-masing pada
himpunan di antara dua kelompok
Tehnik Pengukuran Jarak
Ada beberapa macam ukuran jarak yang biasa dipakai dalam analisis
cluster, diantaranya :
Eucladian Distance
Manhattan
Pearson
Langkah Pasti Menuju Sukses
1. Pembentukan kelompok tergantung apakah jarak dari objek
kekelompok pertama lebih dekat dibandingkan dengan jarak objek
tersebut dengan objek lainnya yang belum terkelompok
Keterangan Rumus :
X
= Rata-rata data X
Xi
= Data X ke-i
N
= Banyak data X
Std (X)
= Standar deviasi
data X
Zi
= Data standar (skor
standar) X ke-i
Langkah Pasti Menuju Sukses
n
dAB =
∑
| x1 - y1 |2
i=1
Keterangan Rumus :
dAB = Ukuran kemiripan / ketidakmiripan antara objek ke-x dengan objek ke-y.
2. Menentukan ukuran kemiripan atau ketidakmiripan antar data dengan
metode jarak Euclidean
Langkah Pasti Menuju Sukses
Analisis cluster termasuk dalam analisis multivariat yang
mewakili seluruh hubungan interdependensi, tidak ada
perbedaan variabel bebas dan variabel tidak bebas
(independent and dependent variables) dalam analisis ini.
Analisis cluster adalah teknik yang digunakan untuk
mengidentifikasi objek atau individu yang serupa dengan
memperhatikan beberapa kriteria.
Langkah Pasti Menuju Sukses
No
Lagu
Waktu Putar
1
Timmy Thomas - You Are All I Need
05.00 - 05.59
2 Lighthouse Family - Ain't No Sunshine 06.00 - 06.59
3 Cake - I Will Survive
07.00 - 07.59
4 Anggun - Still Reminds Me
08.00 - 08.59
5 Aloe Blacc - Hello World
09.00 - 09.59
6 One Direction – Story of My Life
10.00 - 10.59
7 Rihanna - Diamonds
11.00 - 11.59
8 Hayley Westenra - Prayer
12.00 - 12.59
9 Feel Fascinated - Peng You
13.00 - 13.59
10 Lisa Ono - I Feel Good
14.00 - 14.59
11 James Morrison – I Won't Let You Go
15.00 - 15.59
12 Nidji - Laskar Pelangi
16.00 - 16.59
13 Jason Mraz - Im Yours
17.00 - 17.59
14 Titi DJ - Tak Kan Ada Cinta Yang Lain 18.00 - 18.59
15 The Beatles - Dont Let Me Down
16 Diana Krall - All Night Long
17 Cymande - Brother On The Side
Langkah
Pasti Menuju
Sukses
18 Maliq&D'essentials
- Terdiam
19 Norah Jones - Don't Know Why
19.00 - 19.59
20.00 - 20.59
21.00 - 21.59
22.00 - 22.59
23.00 - 23.59
Negara
Asal
Genre Musik
Barat
Pop
Barat
Barat
Indonesia
Barat
Barat
Barat
Barat
Chinese
Barat
AudioPhille
Pop Mix
Pop
Pop
Pop Mix
R&B
AudioPhille
Mandarin
Jazz
Barat
Indonesia
Barat
Pop
Pop
Pop
Indonesia
Barat
Barat
Barat
Indonesia
Barat
Pop
Pop
AudioPhille
Jazz
Pop
AudioPhille
Maka
berdasarkan data music playlist diatas terlebih dahulu
dikelompokkan sesuai set objek dan variabelnya beserta asumsi nilai
yang dipergunakan seperti pada tabel-tabel berikut
Tabel Set Objek Dan Variabel
Data
Kategori
Lagu
Objek
Waktu Putar
Variabel 1 (x1)
Negara Asal
Variabel 2 (x2)
Genre Musik
Variabel 3 (x3)
Langkah Pasti Menuju Sukses
Tabel Asumsi Objek
No
Objek
Asumsi
1
Timmy Thomas - You Are All I Need
A
2
3
4
5
6
7
8
9
10
11
13
14
Lighthouse Family - Ain't No Sunshine
Cake - I Will Survive
Anggun - Still Reminds Me
Aloe Blacc - Hello World
One Direction – Story of My Life
Rihanna - Diamonds
Hayley Westenra - Prayer
Feel Fascinated - Peng You
Lisa Ono - I Feel Good
James Morrison – I Won't Let You Go
Jason Mraz - Im Yours
Titi DJ - Tak Kan Ada Cinta Yang Lain
B
C
D
E
F
G
H
I
J
K
M
15
16
17
18
19
The Beatles - Dont Let Me Down
Diana Krall - All Night Long
Cymande - Brother On The Side
Maliq&D'essentials - Terdiam
Norah Jones - Don't Know Why
N
O
P
Q
R
S
Tabel Asumsi Waktu Putar
X1
Pagi
(05.00 - 10.59)
Tabel Asumsi Negara Asal
Nilai
1
X2
Nilai
Barat
1
Siang (11.00 - 14.59)
2
Sore
3
Indonesia
2
4
Chinese
3
(15.00 - 18.59)
Malam (19.00 - 00.59)
Langkah Pasti Menuju Sukses
Tabel Asumsi Genre Musik
Genre Musik
(V3)
Nilai
Pop
6
AudioPhille
5
Pop Mix
4
R&B
3
Jazz
2
Mandarin
1
Langkah Pasti Menuju Sukses
Dalam tabel-tabel diatas dapat
dilihat bahwa objek atau lagu
dimisalkan dengan huruf (A,
B, C, D dan seterusnya) dan
variabel dimisalkan dengan
kode (x1, x2 dan x3) begitu
juga dengan nilai asumsi
adalah sebagai perumpamaan,
agar
mempermudah
perhitungan
Setelah pengelompokkan objek dan variabel nilai, maka langkah
selanjutnya adalah melakukan perhitungan sesuai algoritma yang dipilih.
Namun untuk menghindari terjadinya kesalahan, terlebih dahulu
beberapa tabel asumsi diatas digabungkan menjadi satu tabel yang lebih
terperinci seperti berikut ini
Langkah Pasti Menuju Sukses
Tabel Asumsi Data dan Variabelnya
No
Objek
X1
X2
X3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
1
1
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
4
1
1
1
2
1
1
1
1
3
1
1
2
1
2
1
1
1
2
1
6
5
4
6
6
4
3
5
1
2
6
6
6
6
6
5
2
6
5
Algoritma Single Linkage Method Dengan Jarak Euclidean Distance
1. Menstandarisasi data-data yang terkumpul dalam tabel menggunakan
rumus-rumus yang telah tersedia :
a. Mencari rata-rata data dari setiap variabel
Langkah Pasti Menuju Sukses
b. Mencari standar deviasi data
dari setiap variabel
Langkah Pasti Menuju Sukses
c. Mencari skor standar (zero standar) dari masing-masing objek
setiap variabel.
Langkah Pasti Menuju Sukses
Tabel Data Music Playlist Standar
Objek
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
X1
X2
X3
-1,214
-0,509
0,824
-1,214
-0,509
0,236
-1,214
-0,509
-0,353
-1,214
1,188
0,824
-1,214
-0,509
0,824
-1,214
-0,509
-0,353
-0,405
-0,509
-0,942
-0,405
-0,509
0,236
-0,405
2,884
-2,120
0,405
1,188
-1,531
0,405
-0,509
0,824
0,405
1,188
0,824
0,405
-0,509
0,824
0,405
1,188
0,824
1,214
-0,509
0,824
1,214
-0,509
0,236
1,214
-0,509
-1,531
1,214
1,188
0,824
2. Menentukan ukuran kemiripan atau ketidakmiripan antara
data dengan jarak Euclidean distance.
Langkah Pasti Menuju Sukses
3.Melakukan algoritma pengelompokkan euclidean single linkage
clustering, dengan langkah-langkah sebagai berikut :
a.Mencari nilai terkecil dari matriks jarak.
ACEFKLMNPQST mempunyai nilai terkecil yakni 0, maka objek
ini menjadi satu cluster.
b. Menghitung jarak antar cluster ACEFKLMNPQST
dengan objek lainnya.
Langkah Pasti Menuju Sukses
d(ACEFKLMNPQST)B = min {dAB,dCB,dEB,dFB,dKB,dLB,dMB,
dNB,dPB,dQB,dSB,dTB} = dAB,dCB,dEB,dFB = 0,589
d(ACEFKLMNPQST)D = min {dAD,dCD,dED,dFD,dKD,dLD,dMD,
dND,dPD,dQD,dSD,dTD}= dLD,dND
= 1,619
d(ACEFKLMNPQST)G = min {dAG,dCG,dEG,dFG,dKG,dLG,dMG,
dNG,dPG,dQG,dSG,dTG}= dCG,dFG
= 1,001
d(ACEFKLMNPQST)H = min {dAH,dCH,dEH,dFH,dKH,dLH,dMH,
dNH,dPH,dQH,dSH,dTH} = dAH,dCH,dEH,dFH,dKH,dMH = 1,001
d(ACEFKLMNPQST)I
dPI,dQI,dSI,dTI}
= min {dAI,dCI,dEI,dFI,dKI,dLI,dMI,dNI,
= dLI,dNI
= 3,493
Langkah Pasti Menuju Sukses
d(ACEFKLMNPQST)J
=
min{dAJ,dCJ,dEJ,dFJ,dKJ,dLJ,dMJ,dNJ,
dPJ,dQJ,dSJ,dTJ}
= dQJ, dTJ
= 1,880
d(ACEFKLMNPQST)O
=
min{dAO,dCO,dEO,dFO,dKO,dLO,dMO,
dNO,dPO,dQO,dSO,dTO} = dPO,dSO = 0,589
d(ACEFKLMNPQST)R
= min
{dAR,dCR,dER,dFR,dKR,dLR,dMR,
dNR,dPR,dQR,dSR,dTR}
= dLR,dNR
Langkah Pasti Menuju Sukses
= 0,809
Setelah melakukan perhitungan diatas, maka terbentuk matriks jarak
yang baru yang menjadi sebuah cluster antara ACEFKLMNPQST
pada table di bawah, yaitu cluster 1.
Tabel Cluster 1
ACEFK
LMNP
QST
B
D
G
H
I
J
O
R
ACEFKLMN
PQST
0
0,589
1,619
1,001
1,001
3,493
1,880
0,589
0,809
B
0,589
0
1,766
1,575
1,046
4,212
2,989
2,511
3,013
D
1,619
1,766
0
2,644
2,053
3,541
2,931
2,955
2,441
G
1,001
1,575
2,644
0
1,178
3,533
1,899
2,251
2,800
H
1,001
1,046
2,053
1,178
0
4,080
2,526
1,514
2,251
I
3,493
4,212
3,541
3,533
4,080
0
1,899
4,659
3,659
J
1,880
2,989
2,931
1,899
2,526
1,899
0
2,968
2,456
O
0,589
2,511
2,955
2,251
1,514
4,659
2,968
0
1,665
R
0,809
3,013
2,441
2,800
2,251
3,659
2,456
1,665
0
c. Mencari nilai terkecil dari matriks jarak, objek
ACEFKLMNPQST dan BO yang memiliki nilai terkecil yaitu
0,589. Maka ACEFKLMNPQST dan BO bergabung menjadi satu
cluster baru.
d(ACEFKLMNPQST-BO)D = min{dACEFKLMNPQST-D, dBD, dOD}
= dACEFKLMNPQST-D
= 1,619
d(ACEFKLMNPQST-BO)G = min{dACEFKLMNPQST-G, dBG, dOG}
= dACEFKLMNPQST-G
= 1,001
d(ACEFKLMNPQST-BO)H = min{dACEFKLMNPQST-H, dBH, dOH}
= dACEFKLMNPQST-H
= 1,001
d(ACEFKLMNPQST-BO)I = min {dACEFKLMNPQST - I, dBI, dOI}
= dACEFKLMNPQST-I
= 3,493
d(ACEFKLMNPQST-BO)J = min { dACEFKLMNPQST - J, dBJ, dOJ}
= dACEFKLMNPQST-J
= 1,880
d(ACEFKLMNPQST-BO)R = min{dACEFKLMNPQST-R, dBR, dOR}
= dACEFKLMNPQST-R
= 0,809
Setelah pengelompokkan tersebut maka terbentuk matriks jarak baru
yang menjadi sebuah cluster antara ACEFKLMNPQST dan BO seperti
pada table di bawah yaitu cluster 2.
Tabel Cluster 2
ACEFKLMNPQSTBO
ACEFKLMNPQSTBO
D
G
H
I
J
R
0
1,619
1,001
1,001
3,493
1,880
0,809
D
G
1,619 1,001
0
2,644
2,644
0
2,053 1,178
3,541 3,533
2,931 1,899
2,441 2,800
Langkah Pasti Menuju Sukses
H
1,001
2,053
1,178
0
4,080
2,526
2,251
I
3,493
3,541
3,533
4,080
0
1,899
3,659
J
1,880
2,931
1,899
2,526
1,899
0
2,456
R
0,809
2,441
2,800
2,251
3,659
2,456
0
S
d. etelah itu kembali lagi mencari nilai terkecil dari matriks jarak,
untuk objek ACEFKLMNPQSTBO dan R yang memiliki nilai terkecil
yaitu 0,809. Maka objek ACEFKLMNPQSTBO dan R akan bergabung
menjadi satu cluster
d(ACEFKLMNPQSTBO - R)D
=min {dACEFKLMNPQSTBO-D,dRD}
= dACEFKLMNPQSTBO-D
= 1,619
d(ACEFKLMNPQSTBO - R)G
=min {dACEFKLMNPQSTBO-G,dRG}
= dACEFKLMNPQSTBO-G
= 1,001
d(ACEFKLMNPQSTBO - R)H
=min {dACEFKLMNPQSTBO-H,dRH}
= dACEFKLMNPQSTBO-H
= 1,001
d(ACEFKLMNPQSTBO - R)I
= min {dACEFKLMNPQSTBO-I, dRI}
= dACEFKLMNPQSTBO-I
= 3,493
d(ACEFKLMNPQSTBO - R)J
= min {dACEFKLMNPQSTBO-J, dRJ}
= dACEFKLMNPQSTBO-J
= 1,880
Cluster Akhir
ACEFKLMNPQST
BORGHDJ
I
0
1,899
1,899
0
ACEFKLMNPQST
BORGHDJ
I
Langkah Pasti Menuju Sukses
Berdasarkan tabel matriks jarak diatas, dari pengelompokan euclidean
distance yang dilakukan telah sesuai dengan langkah-langkah dalam
pengelompokkan tehnik tersebut. Sebab, telah tersisa 2 objek dalam
satu cluster, yakni
ACEFKLMNPQSTBORGHDJ dan I
Langkah Pasti Menuju Sukses
SEKIAN DAN
TERIMA KASIH
Langkah Pasti Menuju Sukses