Korelasyon-Regresyon Analizi

Download Report

Transcript Korelasyon-Regresyon Analizi

BASİT DOĞRUSAL
REGRESYON
İşlenecek olan konunun ardından
Saçılım grafiğinin ne olduğu;
İki değişken arasındaki ilişkinin
hesaplanması ve yorumu.
Hesaplanan ilişkinin anlamlı olup
olmadığına karar verilmesi.
Bir veri setinde basit doğrusal regresyon
katsayılarının hesaplanması ve yorumu.
Regresyon analizi uygulamak için gerekli
varsayımların ne olduğu?
Kurulan regresyon modelin anlamlılığı.
Saçılım Grafiği
A Saçılım grafiği iki değişken arasındaki
ilişkiyi grafik olarak gösteren yardımcı bir
araçtır. X-y grafiği olarak da adlandırılır.
İki değişken arasındaki ilişki
Y
X
(a) Doğrusal
İki değişken arasındaki ilişki
Y
X
(b) Doğrusal
İki değişken arasındaki ilişki
Y
X
(c) Eğrisel
İki değişken arasındaki ilişki
Y
X
(d) İlişki yok
Saçılım grafiği ( x-y grafiği) ile, iki değişken seti
arasındaki ilişkinin doğrusal olup olmadığı ve
ilişkinin yönü hakkında genel bir perspektif
edinilir. Bununla birlikte ilişkinin yapısı ve yönü
hakkında daha tutarlı ve hassas ölçülere ihtiyaç
duyulur.
Korelasyon katsayısı, iki değişken arasındaki
ilişkiyi matematiksel olarak ölçen bir istatistiktir.
İLİŞKİ TİPLERİ
Değişkenlerin tipi ve dağılımlarına göre farklı
yollarla korelasyon katsayısı hesaplanır.
Pearson's r: Her iki değişkenin (metrik kesikli
ve/veya sürekli) Normal dağılım veya Normal
dağılım özelliği gösterdiği durumlarda Pearson’s
r korelasyon katsayısı kullanılır.
Spearman's rho: Her iki değişkenin metrik
olmadığı sıralı ölçülerde veya Normal dağılım
özelliği göstermediği durumlarda sıralamaya
dayalı hesaplanan korelasyon değeridir.
Pearson’s Korelasyon Katsayısı (r)
Matematiksel gösterimi
r
n  xy   x  y
 n  x 2  (  x )2   n  y 2  (  y )2 
Spearman's Korelasyon Katsayısı (rs)
Spearman's rho (rs): Veri seti sıralandıktan
sonra aşağıdaki formül ile korelasyon
hesaplanır
rs    1 
6 d 2
n(n  1)
2
d= iki değişken arasındaki farkı belirtir
Korelasyon Katsayısı
Korelasyon katsayısı ( r ), x ve y değişkenleri
arasındaki ilişkinin derecesini açıklar.
Korelasyon katsayısının ( r ) işareti, ilişkinin
yönünün belirler.
Korelasyon katsayısı ( r ) –1 ve +1
arasındaki herhangi bir değer alabilir.
Korelasyon katsayısının işareti ( r ) her zaman
regresyon katsayısı ( b )’nın işareti ile aynıdır.
Korelasyon katsayısının aldığı değeri
yorumlamak için:
r her zaman -1 +1 aralığındadır. Bu değer her iki
yana çok yakın ise, saçılım grafiğinde noktalar
arası bozulma o derece küçüktür. Bu nedenle iki
değişken arasında güçlü bir ilişki sözkonusudur.
r -1 veya +1 değerlerine eşitse iki değişken
arasında mükemmel bir ilişki vardır. Saçılım
grafiğinde tüm noktalar doğru üzerinde
gözükecektir. (bu doğru regresyon doğrusu olarak
bilinir). Eğer r 0’a çok yakın bir değer almışsa, the
bozulma oldukça büyük görünecek ve değişkenler
birbiri ile ilişki göstermeyeceklerdir. Korelasyon
katsayısındaki ( r ) pozitif veya negatif işaret iki
değişken arasında pozitif veya negatif ilişkinin
varlığına işaret eder.
KORELASYON KATSAYISININ GÜCÜ
r = -1: Mükemmel negatif bir ilişki
( x yukarı çıkarken, y aşağı doğru)
r = +1: Mükemmel pozitif bir ilişki
( x yukarı çıkarken, y yukarı çıkar)
r = 0: x ve y arasında bir ilişki görülmemektedir
Bu değerlerin dışında bir katsayı
hesaplandığında genel olarak korelasyon
katsayısı ( r ) için:
0.0 ile 0.2 Çok zayıf veya ihmal edilebilir bir ilişki
0.2 ile 0.4 Zayıf, düşük ilişki
0.4 ile 0.7 orta derecede ilişki
0.7 ile 0.9 Güçlü, yüksek ilişki
0.9 ile 1.0 Çok yüksek ilişki
Saçılım Grafiği
r= -1
Mükemmel
negatif
r= 0
İlişki yok
r= +1
Mükemmel
pozitif
Örnek: Hemoglobin verilerini kullanarak Pearson’s
ve Spearman’s korelasyon katsayılarını hesaplayıp,
yorumlayınız .
No
Hamile Hemo.
Hafta (x)
(y)
x2
y2
xy
1
33
10.8
1089
116.6
356.4
2
33
9.5
1089
90.3
313.5
3
23
14.2
529
201.6
326.6
4
34
9.7
1156
94.1
329.8
.
.
.
.
.
.
.
.
.
.
.
.
17
27
12.8
729
163.8
345.6
18
29
11.0
841
121.0
319.0
19
24
13.5
576
182.3
324.0
20
31
10.8
961
116.6
334.8
Top.
581
236.6 17215 2842.4 6761.6
15
Hemoglobin
14
13
12
11
10
9
20
22
24
26
28
Gestation Week
30
32
34
36
Pearson’s Korelasyon Katsayısı
r
r
n  xy   x  y
 n  x 2  (  x )2   n  y 2  (  y )2 
20* 6761.6  581* 236.6
(20*17215 (581) 2 ) (20* 2842.4  (236.6) 2 )
 0.922
Hemoglobin düzeyi ile hamilelik (hafta) arasında
negatif güçlü bir ilişki vardır. (Pearson’s r= -0.922)
PEARSON’S KORELASYON
KATSAYISININ SPSS ÇIKTISI
Correlations
HEMO
HEMO
GESTWEEK
Pearson Correlation
Sig . (2-tailed)
N
Pearson Correlation
Sig . (2-tailed)
N
GESTWEEK
1
-,922**
.
,000
20
20
-,922**
1
,000
.
20
20
**. Correlation is significant at the 0.01 level (2-tailed).
Spearman’s Korelasyon Katsayısı (rs)
Rank1 Hemo. Rank2
D= Rank1Rank2
No
Hafta
1
33
16.0
9,5
1.0
15
2
34
18.0
9,7
2.5
15,5
3
35
19.5
9,7
2.5
17
4
33
16.0
10,5
4.0
12
.
.
.
.
.
.
.
.
.
.
.
.
17
24
4.0
13,5
17.0
-13
18
22
1.0
13,8
18.0
-17
19
25
5.0
14
19.0
-14
20
23
2.5
14,2
20.0
-17,5
R1: Hafta sıralaması; R2: hemoglobin düzeyi sıralaması
Spearman’s Korelasyon Katsayısı (rs)
rs    1 

6
d2
n(n  1)
2
 1
6 * 2548
20(20  1)
2
 0.916
Hemoglobin düzeyi ile hamilelik (hafta) arasında
negatif güçlü bir ilişki vardır.
(Spearman’s rho rs= -0.916).
SPEARMAN’S KORELASYON
KATSAYISININ SPSS ÇIKTISI
Correlations
Spearman's rho
HEMO
GESTWEEK
Correlation Coefficient
Sig . (2-tailed)
N
Correlation Coefficient
Sig . (2-tailed)
N
**. Correlation is sig nificant at the 0.01 level (2-tailed).
HEMO
GESTWEEK
1,000
-,916**
.
,000
20
20
-,916**
1,000
,000
.
20
20
BASİT DOĞRUSAL REGRESYON
Doğrusal regresyon analizi, bağımlı
değişken ile bir veya daha fazla
bağımsız değişken arasında bir ilişki
kurar.
Doğrusal model, bağımlı değişkeni
bağımsız değişkenin aldığı değerin
doğrudan oranı olarak gösterir.
Basit Doğrusal regresyon analizinde
sadece bir bağımsız değişken bulunur.
Bağımlı değişken (y); regresyon
modelinde açıklanan veya tahmin
edilecek olan değişkendir. Bu
değişkenin bağımsız değişkenle
fonksiyonel bir ilişkide olduğu
varsayılır.
Bağımsız değişken (x) regresyon
modelinde bağımlı değişken ile ilişkili
değişkendir. Bağımsız değişken,
regresyon modelinde bağımlı
değişkenin değerini tahmin etmek için
kullanılır.
BASİT DOĞRUSAL REGRESYON
MODELİ (POPULASYON MODELİ)
y =  + βx + ε
y= bağımlı değişken
x= bağımsız değişken
= sabit (y-eksenini kestiği nokta)
β= regresyon doğrusunun eğimi
ε= hata terimi veya artık
Regresyon Parametreleri
 = sabit
doğrunun y eksenini kestiği nokta.
Bağımsız değişkenin değerinin = 0 olduğu
durumda bağımlı değişkenin aldığı
değerdir.
β = eğim
Bağımsız değişkendeki değişime dayalı
olarak bağımlı değişkende görülen
değişimdir.
Eğimin alacağı katsayının işareti iki
değişken arasındaki ilişkiye bağlı olarak
pozitif veya negatif olabilir.
TAHMİN EDİLEN REGRESYON MODELİ
(ÖRNEKLEM MODELİ)
yˆ  a  bx
yˆ = Tahmin edilen y değeri (bağımlı değişken)
a = regresyon sabit değerinin yansız tahmini
b = regresyon eğiminin yansız tahmini
x = bağımsız değişken değeri
Basit doğrusal regresyon modelin bazı
varsayımları bulunmaktadır:
I hata terimlerinin her biri istatistiksel
olarak bir diğerinden bağımsızdır.
 hata terimlerinin aldığı değerler normal
dağılım özelliği göstermelidir.
Hata varyansı sabittir ve veriler arasında
hiç değişmediği varsayılır. Buna
otokorelasyon veya serisel korelasyon
bulunmaması varsayımı adı verilir.
Bağımsız değişken hatasızdır. Eğer
bağımsız değişkende hata bulunduğu
varsayılırsa özel bir yöntem şekli olan
değişkenler-içinde-hata modeli teknikler
kullanılarak model kurulmalıdır.
ε = Hata terimi (artık)
Regresyon modelleri tam (%100) doğru
tahmin yapma özeliğine sahip değillerdir.
Hata terimi (artık), gözlenen değer ile
model tarafından tahmin edilen değer
arasındaki farktır.
  y  yˆ
Artık terminin (hata) grafiksel gösterimi
yˆ  150 60x  150 60* 4  390
Y
390
400
300
200
312
100
4
ε= Artık = 312 - 390 = -78
X
Regresyon Parametrelerinin
Tahmini
b ve a katsayıları aşağıdaki eşitlikler
kullanılarak hesaplanır :
x y

 xy 
( x  x )( y  y )

b

 (x  x)
x
2
a  y  bx
n
2
(
x
)

2

n
En küçük kareler (EKK) yöntemi kullanılarak
modeldeki artık kareler toplamı minimize edilerek
parametre tahminleri yapılır.
Örnek: Hamilelik haftası ile hemoglobin düzeyi
arasında anlamlı bir ilişki bulunmakta mıdır? Basit
doğrusal regresyon modelini oluşturarak eğim
parametresinin anlamlılığını test ediniz.
No
Hafta
Hemoglobin No
Hafta
Hemoglobin
1
33
10.8
11
33
10.5
2
33
9.5
12
30
11.0
3
23
14.2
13
35
10.9
4
34
9.7
14
25
14.0
5
32
11.2
15
22
13.8
6
35
9.7
16
28
12.9
7
30
12.1
17
27
12.8
8
23
13.0
18
29
11.0
9
28
12.0
19
24
13.5
10
26
13.2
20
31
10.8
No
Hemo.
Hafta (x)
(y)
x2
xy
1
33
10.8
1089
356.4
2
33
9.5
1089
313.5
3
23
14.2
529
326.6
4
34
9.7
1156
329.8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
27
12.8
729
345.6
18
29
11.0
841
319.0
19
24
13.5
576
324.0
20
31
10.8
961
334.8
Total
581
236.6 17215 6761.6
Regresyon parametrelerinin tahmini
b
 xy 
 x y
n

2
( x )
2
x  n
a  y  bx 
581* 236.6
20
 0.331
2
(581)
17215
20
6761.6 
236 .6
581
 (0.331)
 21 .4
20
20
y  21.4  0.331x
Eğim parametresinin (b) anlamlılığının testi
b  0.331

 10.1
Sb  0.033
Sb
0.033
H1 :   0
tα, n-(p+1)= t(0.05, 18)= 2.1, t= 10.1 > t(0.05, 18)= 2.1, red H0;
H0 :   0
t
eğim sıfır değildir.
(n= örneklem genişliği, p= bağımsız değişken sayısı)
ARALIK TAHMİNİ
Tahminler çekilen örnekten örneğe değişeceğinden
regresyon katsayılarını standart hataları ile vermek
yerinde olacaktır , Sb . Tahminlerin standart hataları
çoğu istatistik paket programının çıktılarında
confidence interval (güven aralığı) CI olarak gösterilir
ve β’nın içinde bulunduğu aralık ile birlikte verilir:
(1-α)% CI for β
b  t  ,n ( p1)Sb
 0.331 2.1* 0.033
95% güven aralığında β: (-4.000, -0.263)
(t(0.05, 18)= 2.1).
Belirtme katsayısı (determinasyon katsayısı)
Belirtme katsayısı, doğrusal modelin uyum
iyiliğinin en iyi ölçüsüdür. Bağımlı
değişkendeki değişimin ne kadarının
bağımsız değişken (ler) tarafından
açıklandığını ifade eder. Bu durum,
regresyon modelinin açıklayıcılık gücünün iyi
bir göstergesidir. ( R2 )
Örneğimizde, hemoglobin düzeyindeki değişimin
%85’nin hamileliğin bulunduğu hafta ile
açıklanabileceği hesaplanmıştır. (R2= 0.85).
Örnek: SPSS ile yaş ile %yağ değişkenleri arasındaki
ilişkiyi Person ve Spearman’s korelasyon katsayıları
kullanarak hesaplayınız. Değişkenler arasında anlamlı
bir ilişki varsa regresyon modelini oluşturarak modelin
anlamlılığını test ediniz.
No Yaş
Rank %Yağ
Rank No Yaş
Rank %Yağ
Rank
1
23
1.5
9.5
2
10
53
10.5
34.7
16
2
23
1.5
27.9
7
11
53
10.5
42.0
18
3
27
3.5
7.8
1
12
54
12.0
29.1
8
4
27
3.5
17.8
3
13
56
13.0
32.5
12
5
29
5.0
31.4
11
14
57
14.0
30.3
9
6
41
6.0
25.9
5
15
58
15.5
33.0
13
7
45
7.0
27.4
6
16
58
15.5
33.8
14
8
49
8.0
25.2
4
17
60
17.0
41.1
17
9
50
9.0
31.1
10
18
61
18.0
34.5
15
50
40
30
10
FAT %
FATPERC
20
0
20
AGE
30
40
50
60
70
Correlations
AGE
AGE
Pearson Correlation
Sig. (2-tailed)
N
FATPERC Pearson Correlation
Sig. (2-tailed)
N
FATPERC
1
,749**
.
,000
18
18
,749**
1
,000
.
18
18
**. Correlation is significant at the 0.01 level (2-tailed).
Correlations
Spearman's rho
AGE
Correlation Coefficient
Sig. (2-tailed)
N
FATPERC Correlation Coefficient
Sig. (2-tailed)
N
AGE
FATPERC
1,000
,754**
.
,000
18
18
,754**
1,000
,000
.
18
18
**. Correlation is significant at the 0.01 level (2-tailed).
SPSS ÇIKTISI
Model Summary
Model
1
R
,749a
Adjusted
R Sq uare
,533
R Sq uare
,561
Std. Error of
the Estimate
6,2483
a. Predictors: (Constant), AGE
ANOVAb
Model
1
Reg ression
Residual
Total
Sum of
Squares
796,878
624,660
1421,538
df
1
16
17
Mean Square
796,878
39,041
F
20,411
Sig .
,000a
a. Predictors: (Constant), AGE
b. Dependent Variable: FATPERC
Coefficientsa
Model
1
(Constant)
AGE
Unstandardized
Coefficients
B
Std. Error
5,806
5,258
,498
,110
a. Dependent Variable: FATPERC
Standardized
Coefficients
Beta
,749
t
1,104
4,518
Sig .
,286
,000
95% Confidence Interval for B
Lower Bound
Upper Bound
-5,340
16,953
,264
,732