Outlier Pada Analisis Regresi By Eni Sumarminingsih, SSi, MM Pendahuluan Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi Model regresi linier.

Download Report

Transcript Outlier Pada Analisis Regresi By Eni Sumarminingsih, SSi, MM Pendahuluan Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi Model regresi linier.

Outlier Pada Analisis Regresi
By Eni Sumarminingsih, SSi, MM
Pendahuluan
Tujuan dari Analisis Regresi adalah mengepas
persamaan pada peubah yang terobservasi
Model regresi linier klasik mengasumsikan
hubungan berikut :
Dimana n adalah ukuran contoh
Variabel xi1, …, xip adalah variabel penjelas dan yi
adalah variabel respon
Pada theori klasik diasumsikan eror ei menyebar
normal dengan rata – rata nol dan ragam 2
Jadi dengan analisis regresi kita menduga
parameter
Dari data
Dengan menggunakan metode penduga regresi
pada data tersebut didapatkan
Dimana
adalah koefisien regresi
adalah nilai duga y yang didapat dari
persamaan berikut
Residual ri dari amatan ke I adalah selisih antara
y observasi dan y dugaan
Metode Kuadrat Terkecil (MKT) atau Ordinary
Least Square (OLS) adalah metode paling
populer untuk menduga parameter model
regresi
Ide dasar metode OLS adalah mencari nilai duga
paramete yang meminimumkan Jumlah
Kuadrat Galat
Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana
Misal kita memiliki 5 observasi (x1,y1),…, (x5,y5)
yang jika diplotkan akan tampak seperti
berikut : setiap titik sangat dekat dengan garis
regresi
Misalkan terdapat kesalahan penulisan y4, maka
titik (x4,y4) akan terletak jauh dari garis
idealnya.
Titik ini dinamakan outlier dalam y, dan
mempengaruhi garis LS
Outlier juga dapat terjadi dalam X. Berikut
adalah plot dari 5 titik (x1,y1), … (x5,y5)
berikut garis LS-nya
Misalkan kita membuat kesalahan dalam
mencatat x1 sehingga maka kita dapatkan
gambar berikut
Titik (x1,y1) dinamakan outlier dalam arah x dan
efeknya pada penduga LS sangat besar karena
merubah garis LS.
Titik (x1,y1) disebut leverage point
Perhatikan bahwa (xk,yk) dalam gambar berikut
bukan leverage point. Mengapa?
Breakdown Point
Misalkan terdapat sample dengan n titik data
Dan misalkan T adalah penduga regresi sehingga
Misalkan Z’ adalah sample yang didapat dari Z
dimana m titik dalam Z diganti dengan titik –
titik yang sembarang (ada kemungkinan
outlier)
Notasikan bias(m; T, Z) adalah bias maksimum
yang dapat disebabkan oleh kontaminasi
tersebut
Jika bias (m;T, Z) infinite berarti m outlier dapat
memiliki efek yang besar pada T atau dapat
dikatakan bahwa estimator “breaks down”
Breakdown point dari estimator T pada sample Z
didefinisikan sebagai
Dengan kata lain, break down point adalah
proporsi kontaminasi terkecil yang dapat
menyebabkan estimator T menghasilkan
yang cukup jauh dari T(Z)
Breakdown point untuk MKT (OLS) adalah
Karena telah kita lihat bahwa satu outlier sudah
dapat merubah nilai koefisien regresi
Hal ini menunjukkan bahwa OLS sangat sensitif
terhadap outlier
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu bernilai
jauh dengan amatan yang lain dalam sampel
Adanya amatan ekstrem atau pencilan ini dapat
menyebabkan residual yang besar dan seringkali
memiliki efek yang besar pada dugaan fungsi
regresi yang menggunakan OLS sehingga penduga
koefisien regresi menjadi bias dan atau tidak
konsisten
Pencilan harus diteliti dengan hati – hati apakah
sebaiknya amatan ini dipertahankan atau
dihilangkan.
Jika dipertahankan, efek pencilan ini harus
dikurangi
Suatu amatan dapat menjadi pencilan pada Y
atau pada X atau pada keduanya
Pendeteksian Outlier
Untuk pendeteksian pencilan , diperlukan suatu
matriks yang dinamakan hat matrix yang
dilambangkan dengan H
Penduga Y dapat ditulis sebagai
Dengan
Elemen diagonal dari matriks H memberikan
informasi tentang data observasi yang
mempunyai nilai leverage yang besar
Elemen diagonal ke-i dari matriks H yang
dilambangkan dengan hii diperoleh dari:
Dengan
adalah vektor baris yang berisi nilainilai dari variabel bebas atau independen
dalam pengamatan ke-i.
Pada elemen diagonal matriks H, diperoleh
dimana p adalah banyaknya
peubah dalam model
Pendeteksian pencilan pada X
Jika nilai
lebih besar dari 2(p+1)/n maka
pengamatan ke-i dikatakan sebagai outlier
pada X (leverage point).
Pendeteksian Pencilan pada Y
Hipotesis yang digunakan untuk menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan outlier
Statistik uji yang dapat digunakan untuk
menguji adalah studentized residual atau
studentized deleted residual yang
didefinisikan:
Pendeteksian Pencilan pada Y
Kriteria yang digunakan untuk menguji ada
tidaknya outlier adalah
di mana p adalah banyaknya variabel bebas
ditambah satu
Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang berpengaruh
besar dalam pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang besar
atau mungkin pula tidak, tergantung pada
model yang digunakan
Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak antara
pendugaan parameter dengan MKT yang
diperoleh dari n pengamatan atau observasi
yaitu
dan pendugaan parameter yang
diperoleh dengan terlebih dahulu menghapus
pengamatan atau observasi ke-i yaitu
Jarak tersebut dapat dituliskan sebagai berikut:
dengan
Hipotesis untuk menguji adanya pengamatan
berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji hipotesis
tersebut adalah sebagai berikut, alpha = 0.5:
2. The Difference In Fits Statistic (DFITS)
Hipotesis untuk menguji adanya pengamatan
berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh pengamatan atau
observasi ke-i pada nilai duga
yang
didefinisikan sebagai
Kriteria yang digunakan untuk menguji hipotesis
tersebut adalah
Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data outlier
atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan kontinyu;
• Regresi bersifat linier;
• Data diasumsikan tidak berdistribusi normal.
Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan regresi
linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179-180)
mengusulkan perkiraan slope garis regresi
sebagai median slope dari seluruh pasangan
garis dari titik-titik dengan nilai X yang
berbeda
Untuk satu pasangan (Xi, Yi) dan (Xj, Yj) slopenya adalah
untuk i < j
penduga
dinotasikan dengan
sebagai median dari nilai-nilai
dinyatakan
sehingga
Penduga M (M-Estimator) dengan
Fungsi Huber
Penduga M adalah solusi
(1)
Dimana (.) adalah fungsi kriteria yang dapat
berubah-ubah
fungsi krtiteria (.) mempunyai beberapa sifat
sebagai berikut:
Untuk mendapatkan penduga koefisien regresi
maka fungsi kriteria diturunkan dan
disamakan dengan nol
Dimana
adalah hasil diferensiasi dari fungsi
kriteria dan Xij adalah observasi ke-i pada
regressor ke-j
Bentuk umum dari persamaan (1) adalah
Dan bentuk umum persamaan (2) adalah
Fungsi kriteria Huber yang didefinisikan sebagai
berikut :
Dan fungsi pengaruhnya adalah
Dengan
Persamaan kedua dapat dituliskan
Dengan
Jika
maka persamaan (2) menjadi
Untuk fungsi pengaruh Huber, diperloleh
pembobot sebagai berikut :
Langkah-langkah penghitungan penduga M: