BASİT DOĞRUSAL REGRESYON ANALİZİ ( SIMPLE LINEAR REGRESSION ANALYSIS) Bağımsız Değişken (Independent Variable) Genellikle x ile gösterilir.

Download Report

Transcript BASİT DOĞRUSAL REGRESYON ANALİZİ ( SIMPLE LINEAR REGRESSION ANALYSIS) Bağımsız Değişken (Independent Variable) Genellikle x ile gösterilir.

BASİT DOĞRUSAL REGRESYON ANALİZİ
( SIMPLE LINEAR REGRESSION
ANALYSIS)
Bağımsız Değişken (Independent Variable)
Genellikle x ile gösterilir. Başka bir değişken
tarafından etkilenmeyen ama y’nin nedeni olan
yada onu etkilediği düşünülen (açıklayıcı)
değişkendir.
Bağımlı Değişken (Dependent Variable)
Genellikle y ile gösterilir. x değişkenine bağlı
olarak değişebilen yada ondan etkilenen
(açıklanan) değişkendir.
1
 Bağımlı değişken sayısı tekdir. Ancak bağımsız değişken
sayısı birden fazla olabilir. Eğer tek bağımsız değişken var
ise “Basit Doğrusal Regresyon” iki ve daha fazla bağımsız
değişken
var
ise
“Çoklu
Doğrusal
Regresyon”
adı
verilmektedir.
 Bu derste sadece “Basit Doğrusal Regresyon Analizi”
incelenecektir.
2
 Regresyon Analizinde, değişkenler arasındaki
ilişkiyi fonksiyonel olarak açıklamak ve bu ilişkiyi
bir modelle tanımlayabilmek amaçlanmaktadır.
 Bir kitlede gözlenen X ve Y değişkenleri arasındaki
doğrusal ilişki aşağıdaki “Doğrusal Regresyon
Modeli” ile verilebilir;
Y=0+ 1X+
Burada;
X: Bağımsız (Açıklayıcı) Değişken
Y: Bağımlı (Açıklanan;Etkilenen;Cevap) Değişken
0: X=0 olduğunda bağımlı değişkenin alacağı değer
(kesim noktası)
1: Regresyon Katsayısı
 : Hata terimi (Ortalaması=0 ve Varyansı=2’dir)
3
Regresyon Katsayısı (1) :
Bağımsız
değişkendeki
bir
birimlik
değişimin, bağımlı değişkendeki yaratacağı
ortalama değişimi göstermektedir.
 (Hata terimi):
Her bir gözlem çiftindeki bağımlı değişkene
ilişkin gerçek değer ile modelden tahmin
edilen değer arasındaki farktır.
i=(0+ 1X) - Yi
Yˆi
4
Tanımlanan Regresyon Modeli
Kitleden seçilen n gözlemli örneklem için;
Yˆ  bo  b1 X
biçimindedir
Yukarıdaki Doğrusal Regresyon Modeli Gözlemler
için ;
yˆ i  b0  b1 xi  ei
İ = 1 ,…, n
5
Kesim Noktası ve Regresyon
Katsayısının Tahmin Yöntemi
 Doğru ve güvenilir bir regresyon modelinde
amaç, gerçek gözlem değeri ile tahmin
değeri arasında fark olmaması yada farkın
minimum olmasıdır. Bunun için çeşitli tahmin
yöntemleri geliştirilmiştir. Bu yöntemlerden
biri “En Küçük Kareler” kriteridir.
n

i 1
n

2
ei
i

i 1
2
ˆ
 y i  yi 
Bu farkın en küçük
olması amaçlanır
6
En Küçük Kareler Yöntemi ile
Bulunan Tahminler
n
x y
i
b1 
i
i 1
n

2
xi
 n x y 

 nx
2

i 1
b0  y  b1 x
7
 Değişkenler birlikte artıyor artıyor yada
birlikte azalıyor ise “b1 pozitif değerli”dir.
 Değişkenlerden biri artarken diğeri azalıyor
ise “b1 negatif değerli”dir.
8
Regresyon Katsayısının Önem
Kontrolü
X bağımsız değişkeni ile Y bağımlı değişkeni arasında
doğrusal bir ilişkinin varlığı, her bir bireyin / birimin xi ve yi
değerlerinin koordinat düzlemi üzerinde oluşturdukları
noktaların dağılımına bakılarak tahmin edilebilir. Ancak, bu
tahminin tutarlı olup olmadığının araştırılması gerekir.
Bunun
için,
regresyon
katsayısının
önem
kontrolü,
doğrusallıktan ayrılışın önem kontrolü yapılır.
9
Önem Kontrolü Yapabilmek için Kullanılacak
Eşitlikler
X ortalamadan ayrılış kareler toplamı (XOAKT)
n
n
XOAKT   xi  x    xi2  nx 2
2
i 1
i 1
Serbestlik
derecesi = (n-1)
Y ortalamadan ayrılış kareler toplamı (YOAKT)
n
n
YOAKT    yi  y    y  ny
i 1
2
i 1
2
i
2 Serbestlik
derecesi = (n-1)
10
XY Çarpımlar Toplamı (XYÇT)
n
XYÇT 
n
 x  x  y  y    x y  n x y
i
i
i 1
i i
i 1
Regresyon Kareler Toplamı (RKT)
n
RKT 

i 1
( yˆ i  Y )

XYÇT

2
2
XOAKT
 (b1 XYÇT)
RKT’ye ilişkin serbestlik derecesi = 1’dir.
11
Regresyondan Ayrılış Kareler Toplamı (RAKT)
- Hata yada Artık Kareler Toplamı da denir n
RAKT 
  y  yˆ 
2
i
i
YOAKT  RKT
i 1
RAKT’na ilişkin serbestlik derecesi = (n – 2)’dir.
12
Regresyon Analizi için Varyans
Analizi Tablosu
Varyasyon
(Değişim)
Kaynağı
Serb.Der.
(sd)
Kareler
Toplamı
(KT)
Kareler
Ortalaması
(KO)
Regresyon
1
RKT
RKT / 1
Hata (Artık)
(n-2)
RAKT
Toplam
(n-1)
YOAKT
RAKT / (n-2)
F Hesap
İstatistiği
RKO / RAKO
13
Basit Doğrusal Regresyon
Analizinde İki Hipotez Test Edilir:
Birinci Hipotez Testi :
Doğrusallıktan Ayrılışın Önem Kontrolü
1. Hipotez Kurulur.
Ho: Gözlenen Noktaların Regresyon Doğrusuna
Uyumu Önemsizdir (Model geçersizdir)
Ha : Gözlenen Noktalar Regresyon Doğrusu ile
tanımlanabilir (Model Geçerlidir)
14
2. Bu hipotezi test etmek için RKO ve RAKO
varyanslarının oranı uygun test istatistiğidir. İki
varyansın oranı F dağılımına yakınsayacağı için
kullanılacak test dağılımı F’dir.
FH=(RKO / RAKO) değeri hesaplanır.
3. 1 ve (n-2) serbestlik dereceli ve belirlenen 
anlamlılık düzeyinde F(1;n-2;) tablo değeri
bulunur.
Eğer FH=(RKO / RAKO) > F(1;n-2; ) ise
Ho Hpotezi RED Edilir.
15
İkinci Hipotez Testi
Regresyon Katsayısının Önem Kontrolü
1. Hipotez Kurulur
Ho: Regresyon Katsayısı Önemsizdir (β1=0)
Ha: Regresyon Katsayısı Önemlidir (β10)
Burada, regresyon katsayısının önemsiz olması
demek; örneklemin çekildiği kitlede, bağımsız
değişkende bir birimlik değişimin, bağımlı
değişkende değişiklik yaratamayacağı anlamına
gelir.
16
2. Test istatistiği hesaplanır ;
b1  ( 1  0)
th 
Sb1
Sb1 
RAKO
XOAKT
17
3. Serbestlik derecesi (n-2) ve  anlamlılık
düzeyinde, t(n-2; ) tablo değeri bulunur.
Eğer th > t(n-2; ) ise Ho Hipotezi RED edilir.
4. Regresyon katsayısının
olmadığına karar verilir.
önemli
olup
18
Basit Doğrusal Regresyon
Analizinde Özel Durum
 Basit Doğrusal regresyonda tek bir bağımsız
değişken olması nedeniyle
t dağılımı ve
F dağılımı arasında aşağıdaki matematiksel
eşitlik söz konusudur :
t  Fh
2
h
19
Açıklama (Belirtme) Katsayısı R2
 Yüzde cinsinden ifade edilen açıklama
katsayısı, regresyon analizinde önemlidir ve
aşağıdaki gibi hesaplanır ;
RKT
R 
YOAKT
2
o  R2  1
Açıklama Katsayısı bire yakın bulunur ise, bağımlı
değişkendeki değişimin büyük bir kısmı bağımsız
değişken
tarafından
açıklanabilir
yorumu
yapılabilmektedir.
20
Basit Doğrusal Regresyon Analizi
Örnek Uygulaması
 12-14 yaş grubu çocukların boy uzunluğu ile
kulaç uzunluğu arasında ilişki olup
olmadığını incelemek için 10 çocuk üzerinde
bir araştırma planlanmıştır. Her çocuğun boy
uzunluğu ile birlikte duvara yaslandırılarak
ve kolları açtırılarak her iki ellerinin orta
parmakları arasındaki mesafe (kulaç
uzunlukları) ölçülmüştür.
21
 Burada
amaç;
çocukların
kulaç
uzunluğundan boy uzunluklarını tahmin
etmek için bir model oluşturmaktır.
 Bu durumda;
Bağımlı Değişken (y): Boy uzunluğu
Bağımsız Değişken (x): Kulaç uzunluğu
22
Çocuk
No
Boy
uzunluğu (cm)
Kulaç
uzunluğu (cm)
1
2
165
161
162
163
3
4
5
156
158
163
158
156
161
6
7
8
9
166
154
156
161
166
153
154
161
10
159
157
23
Test istatistiklerini Hesaplamak için Gerekli
İşlemler
10
y
i 1
i
 1599
10
x
i 1
x
i 1
i
10
x y
i 1
i
i
 1591
 254538
y
i 1
 253285
2
 255825
i
10
10
2
i
1599
y
 159.9
10
1591
x
 159.1
10
24
n
n
XOAKT   xi  x    xi2  nx 2  253285 (10*159.12 )  156.9
2
i 1
i 1
n
n
YOAKT    yi  y    yi2  ny 2  255825 (10*159.92 )  144.9
2
i 1
i 1
n
n
i 1
i 1
XYÇT    xi  x  yi  y    xi yi  n x y 
 254538 (10*159.1*159.9)  137.1
n
b1 
 x y  n x y 
i 1
n
i
i
 x  n x 
i 1
2
i
2

137.1
 0.874
156.9
b0  y  b1 x  159.9  (0.874*159.1)  20.847
25
Boy Uzunluğu=20.874+0.874(kulaç uzunluğu)
Burada, kulaç uzunluğu 1 birim arttığında boy
uzunluğunun ortalama 0.874 birim arttığını
görmekteyiz.
Şimdi acaba bu regresyon katsayısı
istatistiksel açıdan önemli midir? Sorusuna
cevap vermemiz gerekiyor.
26
Ho: Regresyon Katsayısı Önemsizdir (β1=0)
Ha: Regresyon Katsayısı Önemlidir (β10)
n
RKT   ( yˆi
2


XYÇT
 Y )2 
 (b XYÇT)  0.874*137.1  119.8254
i 1
XOAKT
1
n
ˆ i 2 YOAKT  RKT  144.9  119.83  25.07
RAKT    yi  y
i 1
RKT 119.83

 119.83
1
1
RAKT
25.07
RAKO 

 3.13
n2
8
RKO 
27
Sb1 
th 
RAKO

XOAKT
3.13
 0.141
156.9
b1  ( 1  0) 0.874 0

 6.19
Sb1
0.141
th=6.29 > t(8; 0.05)=2.306
Ho Hipotezi RED edilir
Yorum: %95 Güven olasılığı ile regresyon katsayısının
sıfırdan farklı olduğunu ve bulunan regresyon katsayısının
istatistiksel açıdan önemli olduğunu söyleyebiliriz
28
Şimdi Modelin Geçerliliğini Test
Edelim
H o:
Gözlenen
Noktaların
Regresyon
Doğrusuna Uyumu Önemsizdir (Model
geçersizdir)
Ha : Gözlenen Noktalar Regresyon Doğrusu
ile tanımlanabilir (Model Geçerlidir)
29
Varyasyon Serb.Der. Kareler
(Değişim)
Toplamı
(sd)
Kaynağı
(KT)
Kareler
Ortalaması
(KO)
Regresyon
1
119.83
119.83
Hata
(Artık)
8
25.07
3.13
Toplam
9
144.9
F Hesap
İstatistiği
38.28
R2=119.83/144.9=0.83
FH=(RKO / RAKO) > F(1;n-2; ) ise
Ho Hpotezi RED Edilir.
FH=38.28 > F(1;8;0.05)=5.32 olduğu için Ho hipotezi red edilir.
30
th2=(6.19)2=38.3=Fh eşitliğinin sağlandığını da görebiliyoruz.
SONUÇ:
%95
güven
olasılığı
ile
kulaç
uzunluğundan boy uzunluğunu tahmin etmek
için bulduğumuz modelin geçerli olduğunu
söyleyebiliriz. Boy Uzunluğundaki değişimin
%83’ünün
(R2)
kulaç
uzunluğu
tarafından
açıklanabildiğini, geri kalan %17’lik kısım için
başka
değişkenlere
ihtiyaç
duyulduğunu
söyleyebiliriz.
31
ÖNEMLİ NOT:
Bilimsel çalışmalarda herhangi bir modelleme
çalışmasında genellikle çok değişkenli çalışılır.
Burada anlatılan regresyon analizinin sadece
tek değişkenli olduğu ve analizlerin burada
bitmeyip modelin uygunluğuna ilişkin çok ileri
yöntemler olduğu unutulmamalıdır.
32
SPSS UYGULAMASI
33
34
35
36
37
38
39
40