Regresija-20013

Download Report

Transcript Regresija-20013

VIŠESTRUKI LINEARNI
REGRESIONI MODEL
Prof. dr Jasna Soldić-Aleksić
VIŠESTRUKI LINEARNI REGRESIONI
MODEL
• Kada se koristi regresioni model?
1) istraži da li nezavisna promenljiva, odnosno nezavisne
promenljive, objašnjavaju značajan deo varijabiliteta zavisne
promenljive – da li postoji veza;
2) odredi koji deo varijabiliteta zavisne promenljive može biti
objašnjen sa jednom ili više nezavisnih promenljivih – jačina
veze;
3) istraži strukturu ili matematičku formu ove veze;
4) predvidi vrednost zavisne promenljive.
Regresiona analiza
• Tri zadatka regresione analize:
• Deskripcija
Predviđanje
Kontrola
• Jedna zavisna promenljiva Y - varijabla odgovora
(response variable)
• Jedna ili više nezavisnih promenljivih – predictor
variables
Regresioni model
• Opšti oblik ovog modela je:
Y  A 0  A1 X 1  A 2 X 2  A 3 X 3  .....
 Ak X k  
•
•
•
•
•
gde je:
Y – zavisna promenljiva;
Xi – i-ta nezavisna promenljiva;
Ai – regresioni parametar uz i-tu nezavisnu promenljivu;
- greška koja odražava sve uticaje na zavisnu promenljivu koji ne potiču od
nezavisnih promenljivih Xi.
•
Ocena modela:
Yˆ  B 0  B 1 X 1  B 2 X 2  B 3 X 3  .....
 Bk X
k
VIŠESTRUKI LINEARNI REGRESIONI MODEL
•
PRETPOSTAVKE koje se vezuju za regresioni model:
1. opservacije su nezavisne;
2. linearnost: za linearni regresioni model je pretpostavka da između
pojedinih vrednosti nezavisnih promenljivih i odgovarajućih
prosečnih vrednosti zavisne promenljive postoji linearna veza.
3. greške imaju normalnu distribuciju;
4. prosečna vrednost greške je 0, a varijansa greške je konstantna –
ne zavisi od vrednosti nezavisne promenljive;
5. greške su nekorelisane među sobom;
6. za ocenjivanje regresionih parametara važno je da je broj
podataka u uzorku veći od broja parametara koji se ocenjuje i
da između pojedinih nezavisnih promenljivih ne postoji
savršena korelacija;
• Praktična pitanja:
• Broj opservacija i broj nezavisnih promenljivih:
n >= 50 + 8*k
n >= 100 + k
n >= 40 * k
n broj opservacija
k broj nezavisnih promenljivih
• Pitanje nestandardnih vrednosti- outliers
Glavne vrste višestruke regresije
• standardna (istovremena) regresija;
• hijerarhijska (sekvencijalna) regresija;
• postepena – statistička (stepwise) regresija.
Važne statistike regresionog modela
• Mere valjanosti višestrukog linearnog regresionog modela:
• Koeficijent višestruke linearne korelacije,
• koeficijent determinacije,
• standardna greška regresije,
• ANOVA tabela
• R2 = objašnjeni varijabilitet / ukupni varijabilitet
• Korigovani koeficijent determinacije:
2
n1

2

1

ˆ
1

R
R
nk 1
•


 Yˆ i  Y

R 
SST
 Y i Y
2
gde je n veličina uzorka, a k broj nezavisnih promenljivih.
SSR



2
2
Važne statistike regresionog modela
• Suma kvadrata reziduala
SSE   e i2
• Srednja suma kvadrata odstupanja
2
s 
SSE
nk 1


2
ei
nk 1

 Y i 
Yˆ i
nk 1
• Standardna greška regresije
• Interpretacija?
s
SSE
n  k 1
2
Testovi značajnosti:
• Nekoliko testova značajnosti:
• 1) test za R2 - ANOVA test
• 2) t-test
test za regresione koeficijente,
• 3) test značajnosti povećanja proporcije objašnjenog
varijabiliteta sa uključenjem jedne ili više nezavisnih
promenljivih u model.
Vrednovanje regresionog modela
Dva pitanja:
1.
Da li se model dobro prilagođava podacima iz uzorka
(„fit the observed data“)?
2. Da li dobijeni model ima sposobnost generalizacije, tj. da
li se može primeniti na druge podatke van uzorka?
ANOVA test
2
H 0 : R pop  0
2
H 1 : R pop  0
• što je ekvivalentno:
H 0 :  1   2   3  ...  k  0
H1: nisu svi βi jednaki 0.
ANOVA test
n
n
2
n
2
 ( y i  y )   ( yˆ i  y )   ( y i  yˆ i )
i 1
i 1
SST 
Izvor
varijabiliteta
2
i 1

SSR
SSE
Stepeni
slobode
Suma
kvadrata
Srednja suma
kvadrata
F
k
SSR
MSR=SSR/n
MSR/MSE
Greška
n-k-1
SSE
MSE=SSE/(n-k-1)
Ukupno
n-1
SST
Regresija
2
F 
1
R /k
 R
2
  n  k  1
sa k i n-k-1 stepeni slobode (k je broj nezavisnih promenljivih, a n veličina uzorka).
Drugi testovi značajnosti
•2) t-test za regresione koeficijente
Ima t distribuciju sa n-k-1 st. slobode.
t 
b
sb
•3) test značajnosti povećanja proporcije objašnjenog varijabiliteta sa
uključenjem jedne ili više nezavisnih promenljivih u model
H0:
H1:
R2 promene = 0
R2 promene ≠ 0
R 2  R1
2
F 
1  R 22
2
*
d2
d1  d 2
gde je: R22 i R12 ukupna varijansa objašnjena sa modelom sa većim brojem nezav.
promenlj, odnosno sa manjim brojem nezav.promenlj., a d2 i d1 su brojevi stepeni
slobode.
UTICAJ POJEDINIH NEZAVISNIH PROMENLJIVIH NA
ZAVISNU PROMENLJIVU
• Koja nezavisna promenljiva ima najveći uticaj na
zavisnu promenljivu?
• Vrednosti regresionih koeficijenata:
• Obični regresioni koeficijenti bk i Beta koeficijenti
Beta
k
 Bk
sk
sy
• Vrednost t statistike za svaki regresioni koeficijent
Obični, deoni i parcijalni koeficijenti korelacije
•
•
•
•
•
•
•
•
•
Kvadrat običnog koeficijenta korelacije
za IV1:
(a+b) / (a+b+c+d)
za IV2: (c+b) / (a+b+c+d)
Kvadrat semi-parcijalnog (deonog) koeficijenta korelacije
za IV1:
a / (a+b+c+d)
za IV2: c / (a+b+c+d)
Kvadrat parcijalnog koeficijenta korelacije
za IV1:
a / (a+d)
za IV2: c / (c+d)
Problemi kod ocenjivanja:
• Problem autokorelacije reziduala
• Durbin-Watson-ova statistika:
• Uzima vrednosti između 0 i 4.
• d = 2 nema autokorelacije
 e t 
n
d 
t2
n
e t 1 
2
 et
2
t 1
• Posledice:
• neefikasne ocene regresionih parametara,
• pristrasnost standardnih grešaka regresionih parametara,
• statistički testovi značajnosti postaju nepouzdani.
Problemi kod ocenjivanja: problem multikolinearnosti
• Šta je multikolinearnost?
• Kako se detektuje?
• Mere kolinearnosti:
• Nivo tolerancije 1  R i2
• Ri je koeficijent višestruke korelacije i-te nezavisne promenljive i
svih ostalih nezavisnih promenljivih.
• Faktor porasta varijanse (VIF – Variance Inflation Factor)
• Posledice:
VIF 
1
2
1  Ri
• ocene regresionih parametara neprecizne i nestabilne,
• visoke standardne greške ocena parametara.
Regresija i veštačke promenljive (dummy variables)
• Yi = a + b1D1 + b2D2 +b3D3 + greška
Polno-rasna
struktura
Originalna
šifra
D1
D2
D3
Muškarci
bele rase
1
0
0
0
Muškarci
drugih rasa
2
1
0
0
Žene bele
rase
3
0
1
0
Žene drugih
rasa
4
0
0
1
Procedure za proveru
ispunjenosti pretpostavki
višestrukog linearnog
regresionog modela
ANALIZA REZIDUALA
pretpostavka o:
normalnoj raspodeli;
linearnosti;
homoskedastičnosti.
• Parcijalni regresioni dijagrami
• - važni za otkrivanje pravilnog regresionog
modela.
Šta učiniti kada su narušene pretpostavke
regresionog modela?