12.Regresi Linier Sederhana

Download Report

Transcript 12.Regresi Linier Sederhana

Korelasi dan Regresi Linier
Jurusan BIOSTATISTIKA
Fakultas Kesehatan Masyarakat
Universitas Indonesia
2009
1
Korelasi



Menilai hubungan 2 variabel numerik
Contoh:
1. Apakah ada hubungan antara umur
dengan tekanan darah sistolik
2. Apakah ada hubungan antara income
keluarga dengan IP mhs
3. Apakah ada hubungan antara umur
pasien dengan lama hari rawat
4. Apakah ada hubungan antara tinggi badan
(TB) dengan FEV1
Diagram tebar (scatter-plot)
Sumbu X  Variabel Independen
Sumbu Y  Variabel Dependen
Jur. Biostatistika, FKM UI, 2001
Page 2
Diagram tebar & garis regresi
Contoh Garis regresi FEV1 dengan tinggi badan
600
500
400
300
Yi  71914
,  6,43 Xi
200
100
140
150
160
170
180
190
200
height (cm)
Jur. Biostatistika, FKM UI, 2001
Page 3
Korelasi

Pola hubungan antara
2 variabel numerik
1. Linier:
- Positif
- Negatif
2. Non-Linier:
- Parabolik
Jur. Biostatistika,-FKM
UI, 2001
Exponensial
Page 4
Korelasi




Menilai kekuatan hubungan linier 2 var
numerik:
 Pearson’s Coefisien Correlation (r)
Dari nilai r kita dapat menentukan:
a. Kekuatan hubungan(0 s.d 1)
b. Arah hubungan: (+/-)
Kisaran nilai r antara 0 s.d 1:
0 = Tidak ada hubungan linier
1 = Ada hubungan linier sempurna
Arah hubungan:
+ = Hubungan direct:semakin besar nilai X
semakin besar nilai Y
 - = Hubungan inverse:semakin besar nilai X
semakin kecil nilai Y
Jur. Biostatistika, FKM UI, 2001
Page 5
Korelasi
ASUMSI
 Pearson’s Coef. Correlation hanya valid jika asumsi
berikut terpenuhi:
1. Untuk setiap nilai X, Nilai Y terdistribusi
secara normal
2. Untuk setiap nilai Y, Nilai X terdistribusi
secara normal
3. Perkalian antara nilai X dan Y terdistribusi
secara normal (bivariate normal distr.)

Koefisien Determinasi (r2):
Melihat besarnya variasi variabel Y (dalam persen)
yang dapat dijelaskan oleh variabel X.
Misal r=0.8, r2=0.64. Artinya sebesar 64% variasi
nilai Y dapat dijelaskan oleh variabel X
Jur. Biostatistika, FKM UI, 2001
Page 6
Korelasi: Data Lay-out dan perhitungan r
r
Subjek
X
X2
Y
Y2
X.Y
1
X1
X12
Y1
Y12
XY1
.
X.
X. 2
Y.
Y. 2
XY.
.
X.
X. 2
Y.
Y. 2
XY.
n
Xn
Xn2
Yn
Yn2
XYn
(X) = …
(X2) …
(Y)…
(Y2)…
(XY) = …
(  X ).(  Y )
(  XY ) 
n
b
2
2




X 
  Y
2
2
 ( X ) 
 .  ( Y ) 

n
n

 

xy * n   x y

r
 x * nFKM UI,2001
x  *  y * n   y  
Jur. Biostatistika,
2
2
2
 xy * n   x y
 x * n   x 
2
2
2
Page 7
Korelasi
INTERPRETASI KOEF. KORELASI
 Kekuatan hubungan: (Subjektif)
r < 0.4
: Lemah
0.4< r <0.8
: Sedang
r > 0.8
: Kuat
 Korelasi tidak selalu berarti hubungan sebab
akibat (causality)
 Korelasi yang lemah tidak selalu berarti tidak
adanya hubungan
 Korelasi yang kuat tidak selalu berarti adanya
garis lurus
Jur. Biostatistika, FKM UI, 2001
Page 8
Korelasi
CONTOH KORELASI:
Subjek
(X) Usia
(Y) Lama hari rawat
1
20
5
2
30
6
3
25
5
4
35
7
5
40
8
(X) = 150
(Y) = 31
(X2) = 4750
(Y2) = 199
r
X.Y
(XY) = 970
970* 5  150* 31
[4750* 5  (150) ] * 199* 5  (31) 
Jur. Biostatistika, FKM UI, 2001
2
2
 0,97
Page 9
Korelasi
CONTOH KORELASI:
r
Subjek
(X) Usia
(Y) Lama hari rawat
1
20
5
2
30
6
3
25
5
4
35
7
5
40
8
(X) = 150
(Y) = 31
(X2) = 4750
(Y2) = 199
(  X ).(  Y )
(  XY ) 
n

2
2

X   
  Y 
2
2
 ( X ) 
 .  ( Y ) 

n
n

 

Jur. Biostatistika, FKM UI, 2001
X.Y
(XY) = 970
(150).(31)
(970) 
5
 0.97
2
2

150  
 31 
 (4750) 
 .  (199) 

5
5

 

Page 10
Korelasi

Uji hipotesis Koef. Korelasi (r):
1. Ho:  = 0 (Tidak ada hubungan/korelasi)
Ha:   0 (Ada hubungan/korelasi)
2. Uji statistik: t  r. n  2  0.97 5  2  6.91
1 r2
1  0.97 2
3. Critical Region: Ho ditolak jika,
|t
(hitung)
|>t
>
(tabel: /2, df=n-2) atau p-value < 
3.182
p<0.005
4. Keputusan: Ho ditolak
5. Kesimpulan:Koef. Korelasi populasi () tidak
sama dengan nol
Ada korelasi antara umur dg lama hr rawat
Jur. Biostatistika, FKM UI, 2001
Page 11
Regresi Linier

Memprediksi nilai Y dari X:

Asumsi pada regresi linier:
1.
2.
3.
4.
Berapa
Berapa
Berapa
Berapa
tekanan darah sistolik, jika umur = 30 th
IP mhs, jika income keluarga = Rp 2 juta
lama hari rawat, jika pasien berumur 40 th
level FEV1, pada orang dengan TB=170 cm
1. Nilai mean dari Y adalah fungsi garis lurus
(linierity) dari X  Yi =  + b1Xi + 
2. Nilai Y terdistribusi sec. Normal untuk setiap nilai X
(normality)
3. Varian Y adalah sama untuk setiap nilai X
(homoscedasticity)
4. Nilai X dan Y adalah tidak saling berkait
(independency)
Jur. Biostatistika, FKM UI, 2001
Page 12
Regresi Linier

Mencari garis terbaik regresi linier:

Persamaan garis regresi linier:
 Metoda Least Square (Persamaan garis dibuat
sedemikian rupa sehingga jumlah kuadrat dari selisih
nilai observasi dengan nilai pada garis adalah minimum)
Yi =  + b1Xi + 
Yi adalah nilai Y yang diprediksi
 adalah intercept dan b1 adalah slope
 adalah posisi dimana garis regresi memotong sumbu y
b1 mengukur kemiringan garis = koefisien regresi
Nilai Y meningkat sebesar b1 unit untuk setiap kenaikan
nilai X sebesar 1 unit
 adalah error dari model dalam memprediksi rata-rata Y
Jur. Biostatistika, FKM UI, 2001
Page 13
Regresi Linier: Data Lay-out
Subjek
X
1
X1
X12
Y1
Y12
XY1
.
X.
X. 2
Y.
Y. 2
XY.
.
X.
X. 2
Y.
Y. 2
XY.
n
Xn
Xn2
Yn
Yn2
XYn
(X) = …
(X2) …
(Y)…
(Y2)…
(XY) = …
•
•
Y
Persamaan garis
regresi linier:
Yi =  + b1Xi
(  X ).(  Y )
(  XY ) 
n
b 
2


X
2
( X ) 
n
Jur. Biostatistika, FKM UI, 2001
X.Y
  Y b X
Y
n
X
X  mean _ X 
n
Y  mean _ Y 
Page 14
Regresi Linier: Data Lay-out
Subjek
X
1
X1
X12
Y1
Y12
XY1
.
X.
X. 2
Y.
Y. 2
XY.
.
X.
X. 2
Y.
Y. 2
XY.
n
Xn
Xn2
Yn
Yn2
XYn
(X) = …
(X2) …
(Y)…
(Y2)…
(XY) = …
•
•
Y
Persamaan garis
regresi linier:
Yi =  + b1Xi
xy * n   x y

b
 x * n   x 
2
Jur. Biostatistika, FKM UI, 2001
2
X.Y
  Y b X
Y
n
X
X  mean _ X 
n
Y  mean _ Y 
Page 15
Regresi
CONTOH REGRESI:
Subjek
(X) Usia
(Y) Lama hari rawat
1
20
5
2
30
6
3
25
5
4
35
7
5
40
8
(X) = 150
(Y) = 31
(X2) = 4750
(Y2) = 199
X.Y
(XY) = 970
xy * n   x  y 970* 5  150* 31

b

 0,16
 x * n   x  4750* 5  (150)
2
Jur. Biostatistika, FKM UI, 2001
2
2
  Y  b X  6.2  016
. .(30)  14
.
Page 16
Regresi Linier

Persamaan garis regresi linier:
(  X ).(  Y )
(150).(31)
(  XY ) 
(970) 
n
5
b

 016
.
2
2
X 
150
2
( X ) 
(4750) 
n
5
  Y  b X  6.2  016
. .(30)  14
.
Lama hari rawat (Y) =  + b1Xi
Lama hari rawat = 1.4 + 0.16 (Usia)
Jur. Biostatistika, FKM UI, 2001
Page 17
Regresi Linier

Komputer Out-put:
Model Summaryb
Model
1
R
.970a
R Square
.941
Adjusted
R Square
.922
Std. Error
of the
Estimate
.3651
a. Predictors: (Constant), USIA
b. Dependent Variable: LAMA_RWT
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
6.400
.400
6.800
df
1
3
4
Mean
Square
6.400
.133
F
48.000
Sig.
.006a
a. Predictors: (Constant), USIA
b. Dependent Variable: LAMA_RWT
Jur. Biostatistika, FKM UI, 2001
Page 18
Regresi Linier

Komputer Out-put:
Coefficientsa
Unstandardized
Coefficients
Model
1
(Constant)
USIA
B
1.400
.160
Std. Error
.712
.023
Standardi
zed
Coefficien
ts
Beta
.970
t
1.967
6.928
Sig.
.144
.006
95% Confidence
Interval for B
Lower
Upper
Bound
Bound
-.865
3.665
.087
.233
a. Dependent Variable: LAMA_RWT
Jur. Biostatistika, FKM UI, 2001
Page 19
Contoh garis linier
Jur. Biostatistika, FKM UI, 2001
Page 20
Diagram tebar dan regresi
Diagram tebar FEV1 dengan tinggi badan
600
500
400
300
200
100
140
150
160
170
180
190
200
height (cm)
Jur. Biostatistika, FKM UI, 2001
Page 21
Prediksi dan residual
600
(X130,Y130)
e130
Force expiratoty volume in 1 min (ml)
500
e105
(X105,Y105)
400
300
200
100
140
150
160
170
180
190
200
height (cm)
Jur. Biostatistika, FKM UI, 2001
Page 22
Koefisien determinasi



Koefisien determinasi mengukur proporsi
varians Y yang dapat diterangkan oleh X:
2
S

R2  Y 2
SY
R2 berkisar
Nilai
antara 0 (tidak ada varians Y
yang dijelaskan) sampai 1 (seluruh varians Y
dapat dijelaskan)
Untuk data FEV1, nilai R2 = 0,546 berarti
persamaan linier antara FEV1 dengan tinggi
badan dapat menjelaskan 54,6% varians
FEV1. Jadi sisa varians 45,4% tidak dapat
dijelaskan atau residual.
Jur. Biostatistika, FKM UI, 2001
Page 23
Koefisien korelasi


Jadi koefisien korelasi merupakan ukuran yang
terstandarisasi dari kuatnya hubungan linier antara Y
dengan X
Nilai koefisien korelasi berkisar antara -1 (hubungan
negatif sempurna) sampai +1 (hubungan positif
sempurna)



Koefisien korelasi negatif: semakin besar nilai X semakin
kecil nilai Y
Koefisien korelasi positif: semakin besar nilai X semakin
besar nilai Y
Contoh koefisien korelasi antara FEV1 dengan tinggi
badan adalah 0,739
Jur. Biostatistika, FKM UI, 2001
Page 24
Prosedur regresi linier sederhana
pada SPSS/Windows
Statistics > Regression >Linear
Jur. Biostatistika, FKM UI, 2001
Page 25
Hasil analisis regresi SPSS/Win
u
s
r
q
R
u
s M
t
9
a
1
a
P
b
O
m
d
F
M
S
ig
a
f
4
1
4
9
0
1
R
6
8
6
R
0
9
T
a
P
b
D
Jur. Biostatistika, FKM UI, 2001
Page 26
Hasil analisis regresi SPSS/Win
a
i
a
e
f
i
d
B
e
M
E
t
i
5
4
0
1
(
0
9
5
0
h
a
D
Jur. Biostatistika, FKM UI, 2001
Page 27
TUGAS: Gunakan data 15
karyawan
Apakah ada hubungan antara umur
(X) dan lama hari absen (Y) tahun
2009?
 Jika seorang karyawan berumur 35
tahun, hitunglah perkiraan lama hari
absennya.

TUGAS: Gunakan data Kecamatan
Ikan gabus
1.
2.
3.
Apakah ada hubungan antara umur anak
(X) dengan Tinggi Badannya (Y)?
Jika seorang anak berumur 15 bulan,
hitunglah perkiraan tinggi badannya.
Apakah ada perbedaan proporsi jenis
kelamin anak menurut kelompok umur
ibu (3 kelompok)