Transcript Document

Data Set

Pengenalan Pola Materi 2 UPN Eko Prasetyo Teknik Informatika “Veteran” Jawa Timur 2012

Data Set

  Data set dapat merupakan kumpulan dari obyek data.

Nama lain:

record, point, vector, pattern, event, observation, case

atau bahkan data   Ada 2 cara merepresentasikan data: kuantitatif atau kualitatif.

Obyek data digambarkan dengan sejumlah atribut yang meng-

capture

karakter dasar obyek data ◦ Contoh: tinggi badan, waktu, dsb. ◦ Atribut disebut variabel, karakteristik, field, fitur, atau dimensi 2

Jenis atribut

Tipe atribut

Kategorikal (Kualitatif) Nominal Ordinal Interval Numerik (Kuantitatif) Rasio

Penjelasan

Nilai atribut bertipe nominal memberikan nilai berupa nama, dengan nama inilah sebuah atribut membedakan dirinya pada data yang satu dengan yang lain (=, ≠) Nilai atribut bertipe ordinal mempunyai nilai berupa nama yang mempunyai arti informasi terurut (<,  , >,  ) Nilai atribut dimana perbedaan diantara dua nilai mempunyai makna yang berarti (+, -) Nilai atribut dimana perbedaan diantara dua nilai dan rasio dua nilai mempunyai makna yang berarti (*, /)

Contoh

Kode pos, nomor ktp, nomor induk mahasiswa, jenis kelamin Grade kelulusan {cumlaud, sangat memuaskan, memuaskan}, suhu {dingin, normal, panas} Tanggal, suhu (dalam Celsius atau Fahrenheit) Suhu (dalam Kelvin), umur, panjang, tinggi.

3

Kemiripan dan Ketidakmiripan Data

 Metode klasifikasi, clustering, deteksi anomali menggunakan ukuran kemiripan dan ketidakmiripan pada dua data untuk bisa memproses pekerjaannya.

◦ Misal, suatu data yang lebih mirip dengan kelas yang satu maka akan diprediksi sebagai bagian dari kelas tersebut.

   Kemiripan ( ◦

similarity

) adalah ukuran derajat numerik dimana dua obyek adalah mirip Nilai 0 jika tidak mirip dan 1 jika mirip penuh. Ketidakmiripan ( ◦

dissimilarity

) adalah derajat numerik dimana dua obyek adalah berbeda Jangkauan nilai 0 sampai 1, atau bahkan sampai  .

Jika s adalah ukuran kemiripan, dan d adalah ukuran ketidakmiripan ◦ Jika interval nilainya [0,1], maka dapat dirumuskan bahwa s+d=1, atau

s

 1  1

d

atau

s

e

d

4

Ukuran ketidakmiripan

  Untuk mengukur ketidakmiripan dua data dengan beberapa atribut untuk setiap data digunakan kuantitas jarak (

distance

).

Jarak: Euclidean, Manhattan, Minkowsky, Chebyshev, Cosinus, Mahalanobis, Correlation, Hamming, dsb.

D

(

x

,

y

) 

x

y

2  Euclidean

j N x

 1

y

2

D

(

x

,

y

) 

x

y

 Chebyshev 

N

max

j

 1 

x j

y j

D

(

x

,

y

) 

x

y

1 

j N x

 1 Manhattan/City Block

D

(

x

,

y

)  cos(

x

,

y

) 

x x.y

y

Cosinus

D

(

x

,

y

) 

mahalanobi s

(

x

,

y

)  

x

y

T C

 1 

x

y

y D

(

x

,

y

) 

x

y

 Minkowsky  

j N

  1

x j

y j

x.y

j N

  1

x j y j

x

j N

  1

x

2

j

x.x

C

 cov(

x

,

y

) 

N

1  1

j N

  1 (

x j

x

)(

y j

y

) Mahalanobis

corr

(

x

,

y

)  cov(

x

,

std

(

x

) 

y

)

std

(

y

) Correlation

std

(

x

) 

n

1  1

j N

  1 

x j

x

 2

x

 1

N j N

  1

x j

5

Pre-processing

 Data set yang akan diproses seringkali harus melalui pekerjaan awal.

 Masalah-masalah: jumlah populasi data yang terlalu besar, banyaknya data yang menyimpang, dimensi yang terlalu tinggi, banyaknya fitur yang tidak punya kontribusi besar, dan seterusnya.

 Pemrosesan awal data set diantaranya: aggregasi, sampling, reduksi dimensi, pemilihan fitur, diskretisasi dan binerisasi, dan transformasi variabel 6

Aggregasi

   Aggregasi (

aggregation

) adalah pengombinasian dua atau lebih obyek kedalam sebuah obyek tunggal. Sangat berguna ketika dalam data set ada sejumlah nilai dalam fitur yang sebenarnya dalam satu kelompok yang jika nilai tersebut digabungkan tidak akan menyimpang dari deskripsi pada fitur tersebut.

Aggregasi yang dapat dilakukan: sum (jumlah), average (rata-rata), min (terkecil), atau max (terbesar).

Cabang

Gresik

IDT Tanggal Total

2012102 30-01-2012 250.000

Gresik 2012103 30-01-2012 300.000

Surabaya 2012201 30-01-2012 500.000

Surabaya 2012202 30-01-2012 450.000

Surabaya 2012203 31-01-2012 350.000

Cabang

Gresik

Tanggal Total

30-01-2012 550.000

Surabaya 30-01-2012 950.000

Surabaya 31-01-2012 350.000

7

Sampling

   Sampling merupakan pendekatan yang umum digunakan untuk pemilihan bagian (subset) dari obyek/data secara keseluruhan yang akan dianalisis.

Kunci utama adalah bahwa sampel data akan bekerja hampir sama dengan seluruh data jika sampel tersebut mampu mewakili (representatif) terhadap seluruh data. Sampel disebut representatif jika diperkirakan mempunyai sifat yang sama dengan seluruh data, biasanya diukur dengan rata-rata (mean) pada sampel dan data asli.

9000 data 7000 data 4000 data 2000 data 8

Binerisasi

   Binerisasi adalah transformasi data dari tipe kontinyu dan diskrit ke atribut biner.

Cara melakukan binerisasi: jika ada M macam nilai kategorikal, maka harus diberikan secara unik untuk setiap nilai kategori dengan nilai integer dalam jangkauan [0,M-1].

Untuk ordinal harus urut sesuai tingkatannya.

Contoh 1 (non asimetri)

Nilai Kategorikal

rusak jelek sedang bagus sempurna

Nilai Integer

0 1 2 3 4 0 0 0 1

Nilai Biner x 1

0

x

0

2 x

0

3

0 1 1 0 1 0 1 0 Contoh 2 (asimetri)

Nilai Kategorikal

rusak jelek sedang bagus sempurna

Nilai Integer

0 1 2 3 4

x 1

1 0 0 0 0

Nilai Biner x 2

0

x 3

0

x 4

0 1 0 0 0 0 1 0 0 0 0 1 0

x 5

0 0 0 0 1 9

Pengolahan matrik di matlab

      Membaca data set Iris ◦ >> load fisheriris; Menampilkan semua isi data ◦ >> meas Mengakses data baris ke-1 ◦ >> a = meas(1,:); Mengambil data kolom ke-2 ◦ >> a = meas(:,2); Mengambil data baris ke-2 kolom ke-3 ◦ >> a = meas(2,3); Mengambil data baris 1 sampai 10 pada kolom 2 sampai 4 ◦ >> a = meas(1:10,2:4); 10

Pengolahan matrik di matlab

       Mengalikan data kolom ke-2 dengan 10 ◦ >> a(:,2) = a(:,2)*10; Menjumlahkan data perkolom ◦ >> jumlah = sum(a) Menjumlahkan data perbaris ◦ >> jumlah = sum(a’); Mentranspose matrik ◦ >> b = a’; Mengalikan 2 pada semua data kolom 1 yang nilainya > 3.5

◦ >> a(a(:,1)>3.5) = a(a(:,1)>3.5) * 2; Mencari semua data kolom 1 yang > 3.5

◦ >> idx = find(a(:,1) > 3.5) Data yang ditemukan tadi dibagi 2 ◦ >> a(idx) = a(idx) / 2 11

Operat or

+ .* *

Nama

Penjumlahan array dan matriks Pengurangan array dan matriks Perkalian array Perkalian matriks \ / ./ .\ .^ ^ .’ ‘ + -

Operator aritmetika

Pembagian kanan array Pembagian kiri array Pembagian kanan matriks Pembagian kiri matriks Pangkat array Pangkat matriks Transpose vektor dan matriks Transpose lengkap vektor dan matriks Unary plus Unary minus

Fungsi di MATLAB

plus(A, B) minus(A, B) times(A, B) mtimes(A, B)

Penjelasan dan contoh

a+b, A+B, atau a+A a-b, A-B,A-a, atau a-A C=A.*B, C(I,J) = A(I,J) * B(I,J) A*B, perkalian matriks standart, atau a*A, rdivide(A, B) ldivide(A, B) perkalian skalar semua elemen A C = A./B, C(I,J) = A(I,J)/B(I,J) C = A.\B, C(I,J) = A(I,J)\B(I,J) mrdivide(A, B) A/B sama dengan A*inv(B), tergantung mldivide(A, B) power(A, B) mpower(A, B) transpose(A) ctranspose(A) uplus(A) uminus(A) akurasi komputasi A\B sama dengan inv(A)*B, tergantung akurasi komputasi Jika C = A.^B maka C(I,J) = A(I,J)^B(I,J) A.’, mentranspose vektor dan matriks standart A’, mentranspose perubahan vektor dan matriks standard. Jika A real maka A.’ = A’ +A sama dengan 0+A -A sama dengan 0-A 12

Operator relasional

Operator

== < > <= >= ~=

Nama

Pembandingan apakah dua operand nilainya sama Pembandingan apakah operand yang pertama lebih kecil daripada yang kedua Pembandingan apakah operand yang pertama lebih kecil daripada yang kedua Pembandingan apakah operand yang pertama lebih kecil atau sama dengan yang kedua Pembandingan apakah operand yang pertama lebih besar atau sama dengan yang kedua Pembandingan apakah operand yang pertama tidak sama dengan yang kedua

Fungsi di MATLAB

eq(A, B) lt(A, B) gt(A, B) le(A, B) ge(A, B) ne(A, B)

Penjelasan dan contoh

a==b, A==B, atau a==A Ab, A>B,A>a, atau a>A A<=b, A<=B,A<=a, atau a<=A A>=b, A>=B,A>=a, atau a>=A A~=b, A~=B,A~=a, atau a~=A 13

Operator Logika

Operator

& ~ | (tidak ada)

Nama

Operasi logika AND antara dua operand Operasi logika OR antara dua operand Operasi logika XOR antara dua operand Operasi NOT pada sebuah operand

Fungsi di MATLAB

and(A, B) or(A, B) xor(A, B) not(A, B)

Penjelasan dan contoh

a & b, A & B, atau a & A A | b, A | B,A | a, atau a | A xor(A,b), xor(A,B), xor(A,a), atau xor(a,A) A~b, A~B,A~a, atau a~A 14

Flow Kontrol pada M-file

if

Statemen

for while break continue switch return try … catch

Penjelasan

If, bergabung dengan else dan elseif, mengeksekusi sekumpulan statemen berdasarkan pada persyaratan logika yang ditentukan Mengeksekusi sekelompok statemen sejumlah angka yang ditentukan Mengeksekusi sekelompok statemen sejumlah yang tidak ditentukan, berdasarkan pada persyaratan logika yang ditetapkan Menghentikan eksekusi perulangan for dan while Melewatkan (tidak mengerjakan) kontrol ke iterasi berikutnya pada perulangan for dan while switch, bergabung dengan case dan otherwise, mengeksekusi sekelompok statemen yang berbeda, tergantung dari nilai atau string yang dibaca Menyebabkan eksekusi kembali ke pemanggil fungsi (eksekusi melompat ke akhir fungsi) Mengubah flow control jika kesalahan terdeteksi selama eksekusi 15

To Be Continued

… Materi 3

ANY QUESTION ?

16