Regresyon modelinin geçerliliğinin testi-I

Download Report

Transcript Regresyon modelinin geçerliliğinin testi-I

Model Geçerliliğinin Belirlenmesi
Doç. Dr. İ. Safa GÜRCAN
Model geçerliğinde kullanılan ölçüler
•
•
•
•
•
•
Artık Analizi (Uzak, Etkili ve Aykırı gözlemler)
Artık grafikleri
Değişen Varyans
Çoklu Bağlantı
Hataların Normal Dağılımı
Hatalar arası ilişki
Artık(Residual)Analizi
Y
B
+
A: X ve Y eksenleri için aşırı bir değer.
Regresyon eğrisi üzerinde olduğundan ß
katsayılarında değişiklik yaratmaz. Katsayının
standart hatasını etkiler. Artık değeri küçüktür
ve genelde modelde problem yaratmaz.
A
+
++
++++
++
+ + ++++ + +
+++
++ +++++++ +
+ C
X
* İnceleme sonunda sorunlu
gözlemler hemen silinmemeli,
sorunlu olanlar olmadan yeni model
oluşturularak karşılaştırılmalı. Silme
yerine veri eklenerek sorunlar
ortadan kaldırılabilir.
B: X uzayında ortadadır. Ancak, aykırı ve
etkili bir gözlemdir. Artık değeri büyüktür.
Artık varyansını dolayısıyla ß regresyon
katsayısının varyansını değiştirecektir.
Doğrunun Y ekseni ile kesim noktasını
değiştirir.
C: Açık bir şekilde aykırı değerdir. Regresyon
katsayısında değişikliğe neden olur, etkili bir
gözlemdir.
Gözlem Uzaklıklarının Araştırılması
•
X uzayında aykırı değer olan bir gözlem büyük gözlem uzaklığına sahiptir. Pii ile
gösterilen gözlem uzaklığı 0-1 arasında değişir. 1’e yaklaştıkça gözlemin merkeze
olan uzaklığı artar.
P
ii

2 ( p  1)
İse gözlem büyük gözlem uzaklığına sahiptir. (high leverage)
n
* SPSS de Pii Lev_1 artığına 1/30 eklenerek hesaplattırılır.
Mahalanobis Uzaklığı: Uzak gözlem incelenmesinde kullanılan bir diğer yöntemdir.
Diğer gözlemlerden farklı büyüklükteki Mahalanobis uzaklığına sahip gözlem etkili
gözlemdir.
+
+
Pii
+
+ + + +
+
+
1 2 3 4 ….
21
Gözlem no
22
+
+
23
Aykırı Gözlemlerin incelenmesi
• Model bozukluklarının ve aykırı değerlerin
belirlenmesinde kullanılan ölçülerdir. Artık
incelemesinde sıklıkla kullanılan artık türleri:
• 1- Ham artık
• 2- Standart artık
• 3- Student türü artık
• Veri setinde gözlem sayısı arttıkça, artık
incelemesinin güvenirliği de artmaktadır.
Ham Artık
ei  y i  yˆ i
Ham ya da ölçeklenmemiş artık olarak tanımlanır.
Artık toplamı 0 olmakla birlikte varyansı örneklemden
örnekleme değişir. Varyansın değişkenliği sorunu,
artıkların standartlaştırılması ile giderilmeye çalışılır.
Standartlaştırılmış Artık
(Standardized residual)
Artıkların standart sapmaya bölünmesi ile elde edilir.
Artıkların %95’inin çoğunlukla [+2 -2] sınırları arasında
değiştiği kabul edilir. Bu değerlerin dışına çıkan
gözlemlere aykırı değer yaklaşımı ile bakılması önerilir.
es 
ei
 esi
AKO
Student türü Artıklar
Artıklar her zaman N(0,1) ile normal dağılım göstermeyebilirler. [+2 -2] sınırları dışına
çıkan gözlemlerin aykırı gözlem olabileceği düşünülmelidir.
ri 
ei
s 1  p ii
Silinmiş Artıklar PRESS
Sorunlu olan gözlemin dışarıya çıkarıldıktan
sonra, kestirim denklemi üzerine yapacağı
değişikliğin incelenmesidir.
e (i )  y i  yˆ (i )
e (i )  e i
1  p ii
Student türü
Silinmiş Artıklar
Genellikle student türü artık ile
Student türü silinmiş artık arasında
çok az bir fark vardır. Genel olarak
önerilen bir yaklaşım bir kesim
noktasına dayanmadan görsel bir
yaklaşımla artıkların incelenmesidir.
Etkili gözlemlerin araştırılması
• Bazı gözlemlerin veri setine eklenmesi veya
çıkartılması regresyon katsayılarında ve Yi kestirim
değerlerinde önemli değişikliğe neden olur. Bu tip
gözlemlere etkili gözlem denir.
• Etkili gözlemleri belirlemede kullanılan uzaklık
ölçüleri
•
•
•
•
Cook Uzaklığı
DFBETA
DFITS
Kovaryans Oranı
Cook Uzaklığı:
Gözlem uzaklığı ve Student türü artıklara dayanır. Büyük cook uzaklığı
değerlerine sahip olan gözlemlerin regresyon katsayıları üzerine etkisi
önemlidir.
Etkili gözlemi belirlemenin yolları;
1-Eğer Cook ≥ 1 ise gözlem etkilidir.
2-Gözlem sayısının az olduğu durumlar için;
cook ≥ 4/(n-p-1) veya bazı kaynaklarda cook ≥4/(n-2) eşitsizlikleridir.
3-Bir diğer yol; gözlem sıra numaraları X eksenine Cook uzaklıkları Y
eksenine konularak yapılan saçılım grafiği en görsel olanıdır.
DFBETA
i.ci gözlem veriden çıkarıldıktan sonra regresyon
katsayısının ne kadar değiştiğini göstermek için
geliştirilmiştir.
DFBETA
j ,i 
2
n
Olması bu gözlemin dikkatlice incelenmesini
gerektirir. Bazı kaynaklar bu kesim noktasının
n>100 olduğu durumlarda kullanılmasını önerir.
DFITS
i.gözlemin kestirim değeri üzerine etkisini
incelemek için geliştirilmiştir. Aşağıdaki
eşitsizlikleri sağlayan gözlemler etkili gözlemdir.
DFITS
DFITS
ij
ij
2
2
( p  1)
n  p 1
( p  1)
n
Kovaryans Oranı(KO)
• Kestirilen regresyon katsayılarının tümü üzerine bir
gözlemin ölçüsü olarak tanımlanır.
• KOi 1’e yakın ise i.gözlemin kestirimin doğruluğu
üzerine etkisi azdır
• Koi>1 ise gözlemin kestirimin doğruluğunu artırdığı
• Koi <1 ise gözlemin kestirimin doğruluğunu azalttığı
söylenir.
3( p +1)
KO i > 1+ n
Eşitsizliklerini
3( p +1)
KO i < 1- n
sağlıyorsa i. gözlem
etkili gözlemdir.