kalvot_luento6

Transcript kalvot_luento6

Kvantitatiiviset tutkimusmenetelmät
Luento 6
Lineaarinen regressioanalyysi II
Kaisu Puumalainen
Useamman selittäjän
lineaarinen regressio
Tavoite ja peruskäsitteet
− Yksi selitettävä muuttuja (dependent, y) ja useampia
selittäviä muuttujia (explanatory, independent, regressor,
x)
− Selitettävä on jatkuva muuttuja, selittävät pääasiassa
jatkuvia, mutta dummy-muunnosten avulla myös
kategorisia selittäjiä voi käyttää
− Tavoitteena ennustaa selitettävän muuttujan (y) arvoa,
kun selittävien (x1 ja x2) arvot tunnetaan
y  1  2 x1  3 x2  ...
4
Tavoitteet
Ennustaminen
Millaisella selittävien muuttujien kombinaatiolla saadaan paras
ennuste
Painopiste voi olla tulkinnassa tai ennustetarkkuudessa
Kahden mallin ennustetarkkuuden vertailu
Selittäminen
Teorian testaaminen
Muuttujien välisten yhteyksien toteaminen
Eri selittäjien suhteellinen tärkeys
Yksittäisen muuttujan vaikutus, kun muut vakioitu
Selittäjien keskinäiset yhteydet
Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien
tutkimisen
Voi verrata regressiokertoimia eri otoksissa
5
Multiple regression: vaiheet
1. Tutkimusongelma
 Tavoitteena selittäminen tai ennustaminen
 Selitettävien ja selittävien muuttujien valinta
2. Tiedon keruu (otoksen riittävyys testien voimakkuuden
ja yleistettävyyden kannalta)
3. Mallin edellytykset





Lineaarisuus
Homoskedastisuus
Jäännöstermien riippumattomuus
Ei multikollineaarisuutta
Normaalisuus
6
Multiple regression:vaiheet
4. Muuttujamuunnokset




Edellytysten toteuttamiseksi
Dummyjen laatiminen
Polynomit, jos epälineaarisia suhteita
Interaktiot, jos moderoivia muuttujia
5. Mallin spesifiointi ja estimointi
 Itse
 Ohjelmisto (forward, backward, stepwise)
6. Merkitsevyyden arviointi
 Selityskerroin
 F-testi
 Regressiokertoimien t-testit
7
Multiple regression:vaiheet
7. Diagnostiikka: poikkeavat ja paljon vaikuttavat
havainnot
 Outlier, leverage
 Dffit ja dfbeta
8. Mallin tulkinta
 regressiokertoimet
 Beta-kertoimet
 Osa- ja osittaiskorrelaatiot
9. Validointi
 Split-sample
8
Muuttujat ja aineisto
Vaihe 1&2: Muuttujien valinta ja
havaintojen riittävyys
−
−
−
−
−
−
−
−
Jatkuva selitettävä
Pääasiassa jatkuvia selittäjiä
Kategoriset selittäjät dummy-muunnoksella mahdollisia
Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole
pahoja outliereita
Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa
Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi
korreloida selittäjien kanssa merkitsevästi, mutta selittäjien
keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70)
Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia,
jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää
Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien
keskivirheet
10
Vaihe 2: Testin voimakkuus
Statistical power: otoksen koko vaikuttaa tilastolliseen merkitsevyyteen
ja kykyyn hylätä vääriä oletushypoteeseja (tyyppi II)
Suositus overfitting välttämiseksi: N vähintään 5 kertaa selittäjien
määrä, miel. 15-20, stepwise 50 kertaa
5% riskitasolla merkitsevä R2 vähintään, jos testin voimakkuus on .80
N
2 selittäjää
5 selittäjää
10 selittäjää
20 selittäjää
20
.39
.48
.64
na
50
.19
.23
.29
.42
100
.10
.12
.15
.21
250
.04
.05
.06
.08
500
.03
.04
.05
.06
1000
.01
.01
.02
.02
11
Taustaoletukset
Vaihe 3: Yleisiä edellytyksiä
X ja Y yhteyden oikea spesifiointi, lineaarisuus
Oikeiden X-muuttujien valinta
X-muuttujien täydellinen reliabiliteetti (regressio- ja
selityskertoimet todellista alhaisempia jos
mittausvirhettä on)
yi  1  2 xi 2  ...k xik  ei
E( yi )  1  2 xi 2  ...k xik  E(ei )  0
Virhetermin odotusarvo on nolla
13
Vaihe 3: Yleisiä edellytyksiä
var(yi )  var(ei )   2
Homoskedastisuus (virhetermin vakiovarianssi)
cov(yi , y j )  cov(ei , e j )  0
Havaintojen riippumattomuus
Virhetermin (auto-)korreloimattomuus
Selittäjät eivät saa olla satunnaisia eikä
multikollineaarisia l. täydellisiä lineaarikombinaatioita
toisistaan
14
Vaihe 3: Yleisiä edellytyksiä
Usein oletetaan lisäksi, että y ja jäännöstermi ovat
normaalijakautuneita
Edellytykset arvioidaan etukäteen yksittäisten
muuttujien jakaumia tutkimalla sekä estimoinnin
jälkeen residuaaleja ja eräitä tunnuslukuja
tarkastelemalla
Jos edellytykset eivät ole voimassa, niin estimaatit
voivat olla harhaisia (biased) tai keskivirheet vääriä
Jos estimaatti ei ole harhainen niin malli ok
ennustekäytössä
Hypoteesien testaaminen ei onnistu jos keskivirheet
vääriä
15
Vaihe 3: Residuaalitarkastelut
Perusedellytysten voimassaolon tarkastamiseksi koko
mallin osalta, ei vain yksittäisten muuttujien
Lineaarisuus sirontakuviosta
Vakiovarianssi (heteroskedastisuus) sirontakuviosta
Riippumattomuus selitettävästä, selittäjistä ja edellisistä
residuaaleista sirontakuvioista
Normaalijakautuneisuus histogrammista
Suurilla y-arvoilla saadaan suuria residuaaleja –
studentized yleensä parempi
Graafiset tarkastelut, ks. Kuvio Hair s.174
16
Vaihe 3: Normaalisuus
Jos residuaalien jakauma poikkeaa normaalijakaumasta,
niin F- ja t-testit eivät toimi pienillä otoksilla
Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä
mallin spesifioinnista
Toteaminen graafisesti
histogrammi
Normal probability plot tai Q-Q plot (ks. Kuvio)
Toteaminen tunnusluvuilla
Jarque-Bera testi, Kolmogorov-Smirnov yms.
17
Vaihe 3: Homoskedastisuus
Residuaalien varianssi on sama kaikilla selittäjämuuttujien
tasoilla
Heteroskedastisuus vaikuttaa vain keskivirheisiin, eikä
ylensä niihinkään voimakkaasti ellei vaihtelu ole hyvin
suurta (10 x)
Todetaan sirontakuviolla jos selittäjä on jatkuva, ja
laatikkokuviolla jos se on diskreetti
Tilastollisesti Whiten testi tai Levenen testi
(H0:homoskedastisuus)
Jos paha ongelma, niin WLS-estimointi voi olla parempi
isoilla otoksilla
18
Vaihe 3: Lineaarisuus
Todetaan muuttujien sirontakuviolla (Y-kukin X
erikseen) tai tehokkaammin residuaalien
sirontakuvioilla (residuaali- kukin X erikseen,
residuaali – ennustettu Y)
Poikkeamat voidaan korjata muuttujamuunnoksilla
tai erikseen mallintamalla esim. NLR
Huom! Muunnosten käyttö vaikuttaa kerrointen
tulkintaan
19
Vaihe 3: Virhetermin korreloimattomuus
Virhetermin korrelaatio (autokorrelaatio) johtuu mallin
epätäydellisyydestä
Aikasarja-aineistoissa ja paneeliaineistoissa voi esiintyä,
poikkileikkausaineistoissa yleensä ei ongelma, koska
havainnot ovat satunnaisessa järjestyksessä ja
toisistaan riippumattomia
Todetaan graafisesti tai Durbin-Watson-testillä
Vaikuttaa vain keskivirheisiin
Ajallinen riippuvuus voidaan korjata muunnoksella
20
Vaihe 3: Multikollineaarisuus
Selittäjien voimakas keskinäinen korrelaatio
Hyvin yleistä, luonnostaan tai jos käytetään dummyja, polynomitermeja
tai interaktiotermejä
Vaikutukset:
Vaikea eritellä yksittäisten selittäjien vaikutus, kun suuri osa vaihtelusta on
yhteistä
Ei vaikuta korreloimattomien selittäjien tulkintaan
Selitysasteen parantaminen uusilla muuttujilla hankaloituu
Estimointi heikkenee (singularity), voi tuottaa vääriä etumerkkejä
Havaitseminen:
Selittäjien korrelaatiomatriisi (>.90 paha)
Toleranssi (osuus selittäjän vaihtelusta, jota muut selittäjät eivät kata, <.10
paha)
VIF (toleranssin käänteisluku, >10 paha)
Condition index, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha
21
Vaihe 3: Multikollineaarisuus
Korjaaminen:
Jätä joku multikollineaarisuutta aiheuttava muuttuja pois, korvaa
mahdollisesti uudella
Jos mallia käytetään vain ennustamiseen eikä kerrointen
tulkintaan, niin haitta ei ole suuri
Tarkista jokaisen yksittäisen selittäjän korrelaatio selitettävän
kanssa ja vertaa etumerkkejä regressiokerrointen
etumerkkeihin
Käytä selittäjänä summamuuttujia tai pääkomponentteja (faktoreita)
Keskitä muuttujat ennen polynomitermien tai interaktioiden
laskemista
Erityiset estimointimenetelmät (Bayesian, ridge regression)
Ortogonalisointi, käytä residuaalia selittäjänä
22
Muuttujamuunnokset
Vaihe 4: Muunnokset
Jos perusedellytykset eivät ole voimassa tai mallin
parantamiseksi
Residuaalien normaalisuus ja homoskedastisuus:
Liian tasainen jakauma – käänteisluku
Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai
käänteisluku
Lineaarisuus:
Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio)
Jos epäilet että muuttujan vinous haittaa, kokeile korvata
muuttujan arvot järjestysluvuilla ja estimoi malli
uudelleen
24
Vaihe 4: Muunnokset: ohjeita
1. Hyötyä yleensä jos keskiarvo/hajonta < 4
2. Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta
on pienempi
3. Tee muunnos yleensä selittävälle muuttujalle
4. Heteroskedastisuuden korjaamiseksi Y:lle
5. Muunnokset vaikuttavat tulkintaan, esim.
Residuaaleihin
6. Jos homoskedastinen niin älä muunna Y:tä
7. Potenssiinkorotukset auttavat yleensä vain jos
vaihteluväli on iso (max=10*min)
25
Vaihe 4: Muunnokset: ohjeita
Y2 tai neliöjuuri X tai log X
X2 tai neliöjuuri Y tai log Y
neliöjuuri tai log joko X:lle tai Y:lle
26
Vaihe 4: Log-mallien tulkinnasta
− Lin-lin y=b1+b2x
− b2 on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa
b2 yksikön muutoksen y:ssä
− Log-log ln(y)=b1+b2ln(x)
− b2 on jousto, 1% lisäys x:ssä aiheuttaa b2%
muutoksen y:ssä
− Log-lin ln(y)=b1+b2x
− 1 yksikön lisäys x:ssä aiheuttaa 100*b2%
muutoksen y:ssä
− Lin-log y=b1+b2ln(x)
− 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen
y:ssä
27
Vaihe 4: Muunnokset:
dummy-muuttujat
Ainut tapa saada nominaaliasteikollisia muuttujia mukaan regressioanalyysiin
selittäjäksi
Dummy tai indikaattorimuuttuja on dikotominen muuttuja, saa arvon 0 tai 1
Jos muuttujassa on k luokkaa, niin dummyja tarvitaan k-1 kappaletta
Dummyn kertoimet kuvaavat eroa siihen ryhmään, jossa dummyt saavat arvon 0
Esim. Selitetään painoa pituudella ja tulotasolla
B
tulotaso
dummy1
dummy2
Vakio
-120.0
alle 15
1
0
Pituus cm
1.2**
15-25
0
1
Alle 15 (D1)
-7.5**
yli 25
0
0
15-25 (D2)
4.1
Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero
luokkien välillä on merkitsevä
Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta
ero ei ole merkitsevä
Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen,
28
mutta emme tiedä onko ero merkitsevä
Vaihe 4: Muunnokset:
dummy-muuttujat
Tulkinta standardoimattomista regressiokertoimista!
Ryhmillä ”omat vakiotermit”
Esim. Regressioanalyysi, jossa dummy-muuttujana
sukupuoli (nainen=0, mies=1)
Estimoitu regressioyhtälö
Palkka = 1000 + 120*työkok + 800*sukupuoli
Nainen, jolla 10 vuotta työkokemusta
Palkka = 1000 + 1200 + 0 = 2200
Mies, jolla 10 vuotta työkokemusta
Palkka = 1000 + 1200 + 800 = 3000
29
Vaihe 4: Muunnokset:
Epälineaariset yhteydet
Polynomitermit mukaan, yleensä korkeintaan kolmannen
asteen
Toisen asteen kertoimet:
Positiivinen – ylöspäin aukeava paraabeli
Negatiivinen – alaspäin aukeava
Kaikki alemman asteet termit oltava mukana mallissa!
Interaktiot x1x2 moderaattorivaikutusten toteamiseksi
Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos:
X- X:n keskiarvo)
Termien merkitsevyyden arviointi selityskertoimen nousun
merkitsevyyden avulla (F-testi)
30
Mallin estimointi
ja merkitsevyys
Vaihe 5: Estimointi
− Kun määrittelet muuttujat tehtävärooleihin (yksi
dependent ja monta explanatory), niin SAS ottaa
ne kaikki mukaan malliin
− Oletusarvoisesti pienimmän neliösumman
menetelmä (OLS)
− Jos haluat antaa SASin valita parhaita selittäjiä
joukosta antamiasi mahdollisia muuttujia, niin
stepwise-estimointi on mahdollista
32
Vaihe 5: Stepwise- estimointi
Etenee vaiheittain automaattisesti
1. Selittäjänä on vain se muuttuja joka korreloi eniten
selitettävän kanssa
2. Osittaiskorrelaatioiden avulla etsitään seuraava
selittäjä (jos merkitsevä)
3. Kahden selittäjän mallista lasketaan onko ensimmäinen
vielä merkitsevä
4. Jatketaan kunnes ei enää löydy merkitseviä uusia
selittäjiä
Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa
muistettava tämä
Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja
validoitava aina eri otoksella
33
Vaihe 6: Mallin merkitsevyys
Yleistettävyyden takia testattava selityskertoimen ja
regressiokerrointen merkitsevyys
F-testi selityskertoimen merkitsevyydelle (H0: R2=0)
Adjusted R2 ottaa huomioon havaintojen määrä/
selittäjien määrä- suhteen
n 1
adj .R  1  (1  R )
n  k 1
2
2
34
Vaihe 6: Mallin merkitsevyys
T-testi regressiokertoimen merkitsevyydelle (H0: b=0)
Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on
sellaisia havaintoja, joilla kaikki selittäjät saavat arvon
nolla
F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos
selittäjät multikollineaarisia
35
Havaintojen diagnostiikka
Vaihe 7: Vaikuttavat yksittäiset havainnot
Outlier, discrepancy
Havainto, jolla on suuri residuaali
Leverage point
Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen
estimointiin
Influential
Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage
Ks. Kuvio Hair s.185
37
Vaihe 7: Vaikuttavat yksittäiset havainnot
1. Tieto on virheellinen – korjaa virhe tai poista havainto
2. Oikea tieto, voidaan selittää poikkeuksellisen tilanteen
avulla – poista ellei tilannemuuttuja ole mukana
mallissa
3. Ei selitystä – ei syitä poistaa eikä säilyttää, jos
poistetaan niin raportoitava myös
4. Tavallinen yksittäisten muuttujien osalta, mutta niiden
yhdistelmä poikkeuksellinen – säilytä havainto mutta
muuta mallia
38
Vaihe 7: diagnostiikkaa
Distances (ks. Hair, s.236):
Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos
havainto jätettäisiin pois, po. < 4 / (n-k-1)
leverage – kuinka poikkeavia arvoja havainnolla on selittävissä
muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n
Prediction intervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle
Influence statistics:
DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois,
standardoidut arvot po. < 2 / sqrt (n)
DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois,
standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))
39
Estimaattien tulkinta
Vaihe 8: Mallin tulkinta
Regressiokertoimista voi laskea ennusteen y:lle
Voi arvioida kuinka suuren muutoksen y:ssä selittäjän
muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän
suhteen)
Selittäjien suhteelliset merkitykset beta-kertoimista,
standardoitu regressiokerroin (jos ei ole liikaa
multikollineaarisuutta)= b*sx/sy
Osakorrelaatio (part / semipartial correlation) ja
osittaiskorrelaatio (partial correlation)
41
Vaihe 8: Mallin tulkinta
Y
Selityskerroin =
(a+b+c)/(a+b+c+e)
e
a
c
X1
b
Korrelaatiokerroin2 =r2YX1 =
(a+c)/(a+b+c+e)
X2
Osakorrelaatiokerroin2=sr2YX1=
a/(a+b+c+e)
Osittaiskorrelaatiokerroin2=pr2YX1=
a/(a+e)
42
Vaihe 9: Validointi
•
•
•
Uusi otos (tai estimation + holdout)
• Käytetään samaa mallia ja tutkitaan
ennustetarkkuutta
• Estimoidaan erikseen ja verrataan mallien
samanlaisuutta (adjusted R2, kertoimet)
• Chow-testi
Bootstrapping: yksi havainto kerrallaan pois
Ennustaminen:
• Laske myös luottamusvälit, ovatko olosuhteet samat
kuin mallia estimoitaessa, käytä vain samanlaisilla
selittäjien vaihteluväleillä
43
SAS ohjelmisto
Esimerkkimalli
•
•
Yrityskyselyaineisto, jossa on noin 190 havaintoa
Selitettävä muuttuja yrityksen kasvuhalukkuus (Growth
orientation), joka on mitattu usean väittämän
keskiarvona ja vaihtelee välillä 1-5
• Mahdollisia selittäjiä ovat
• yrityksen liikevaihto (k€)
• henkilöstömäärä (kpl)
• ikä (v)
• elinkaaren vaihe (1=alkuvaihe, 2=kasvuvaihe,
3=vakiintunut, 4=loppumassa)
45
Jatkuvien muuttujien tarkastelu
Variable
growthorient
yritika
hlölkm
liikeva
Label
ikä vuonna 2008
henkilökunnan lkm
liikevaihto
Mean
3.5259
17.9843
17.1062
2740.39
Selittäjille ln-muunnos
jakauman vinouden
korjaamiseksi
Footer
Std Dev
0.8731
11.9814
19.8629
2049.83
Minimum
1.00
2.00
1.00
0
Maximum
5.00
105.00
159.00
10803.40
N
193
192
160
193
Kategorinen selittäjä
Elinkaari Frequency Percent
1
2
1.06
2
34
18.09
3
143
76.06
4
9
4.79
Cumulative Cumulative
Frequency
Percent
2
1.06
36
19.15
179
95.21
188
100.00
Uudelleenkoodataan dummy-muuttujaksi ”kasvuvaihe” siten,
että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0
Footer
Alustava tarkastelu, sirontakuvio
Footer
Alustava tarkastelu, korrelaatio
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
growthorient
growthorient
Yritika
Hlölkm
Liikeva
1.00000
193
-0.07810
0.2816
192
0.14970
0.0588
160
0.14346
0.0465
193
yritika
hlölkm
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
liikeva
-0.0781 0.14970 0.14346
0.2816 0.0588 0.0465
192
160
193
1.00000 -0.0433 0.01554
0.5873 0.8306
192
159
192
-0.0433 1.00000 0.50317
0.5873
<.0001
159
160
160
0.01554 0.50317 1.00000
0.8306 <.0001
192
160
193
growthorient
growthorien
t
ln_ika
ln_hlo
ln_lv
ln_ika
1.00000 -0.04624
0.5331
185
184
-0.04624 1.00000
0.5331
184
184
0.22055 -0.06073
0.0062 0.4573
153
152
0.16173 0.00225
0.0278 0.9758
185
184
ln_hlo
Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä
Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa
muunnoksen jälkeen
Ikä ei korreloi kasvuorientaation kanssa
Footer
ln_lv
0.22055 0.16173
0.0062 0.0278
153
185
-0.06073 0.00225
0.4573 0.9758
152
184
1.00000 0.49364
<.0001
153
153
0.49364 1.00000
<.0001
153
185
SAS: analyze – regression –
linear regression
Footer
Tulostettavat tunnusluvut
Multikollineaarisuus ja
Whiten testi
Footer
Tulostettavat kuvaajat
Footer
Mallin sopivuus ja Whiten testi
Analysis of Variance
Source
Model
DF
3
Sum of
Mean
Squares Square
3.76165 1.25388
Error
148
99.05926 0.66932
Corrected Total
151 102.82091
Root MSE
0.81812 R-Square
0.0366
Dependent Mean
3.55482 Adj R-Sq
0.0171
Coeff Var
F Value Pr > F
1.87 0.1366
Mallin avulla voidaan selittää vain
3,66% kasvuorientaation
vaihtelusta
23.01434
Test of First and Second Moment
Specification
DF
Chi-Square
Pr > ChiSq
9
11.53
0.2409
F-testin H0 jää voimaan ->
malli ei ole tilastollisesti
merkitsevä, selitysaste ei
poikkea nollasta
Whiten testi H0 jää voimaan -> malli on
homoskedastinen, taustaedellytys OK
Footer
Parametriestimaatit
Parameter Estimates
Variable
Intercept
yritika
Hlölkm
Liikeva
DF
1
1
1
Parameter
Estimate
3.58202
-0.00877
0.00465
Standard
Error
0.15359
0.00575
0.00381
1
0.0000178
0.0000360
t Value Pr > |t|
23.32 <.0001
-1.52 0.1296
1.22 0.2238
0.49
Standardized
Estimate
0
-0.12317
0.11320
Squared
Semi-partial
Corr Type I
.
0.01666
0.01834
Squared
Partial
Corr Type I
.
0.01666
0.01865
0.04566
0.00158
0.00164
0.6224
Parameter Estimates
Variable
Intercept
yritika
hlölkm
liikeva
DF
Squared
Semi-partial
Corr Type II
Squared
Partial
Corr Type II
Tolerance
Variance
Inflation
1
1
1
.
0.01512
0.00972
.
0.01545
0.00998
.
0.99669
0.75809
0
1.00332
1.31910
3.27850
-0.02014
-0.00287
3.88553
0.00260
0.01218
1
0.00158
0.00164
0.76009
1.31564
-0.0000535
0.00008908
95% Confidence Limits
Taustaedellytys:
Footer ei multikollineaarisuutta, OK
Residuaalikuvaajat
Residuaalin normaalijakautuneisuus,
taustaedellytys OK
Residuaalin vakiovarianssi eli homoskedastisuus,
taustaedellytys OK
Footer
Residuaalikuvaajat
Residuaalien tulee olla
riippumattomia selittäjien
arvoista, lineaarisuus ->
taustaedellytys OK
Footer
Havaintojen vaikuttavuus
Cook’s D ja DFFIT -> havainto 36 on
voimakkaasti vaikuttava
DFBETAS -> havainto 36 vaikuttaa erityisesti
vakiotermin ja iän kertoimen arvoon
Footer
Selittäjät nyt ln-muunnettuja
Source
Model
Error
Corrected Total
Analysis of Variance
Sum of
Mean
DF
Squares Square
3
5.14600 1.71533
148 97.67490 0.65997
151 102.82091
F Value
2.60
Pr > F
0.0544
Root MSE
0.81238 R-Square 0.0500
Dependent Mean
3.55482 Adj R-Sq
Coeff Var
0.0308
22.85296
Parameter Estimates
Variable
Intercept
ln_ika
ln_hlo
ln_lv
Variable
Intercept
ln_ika
ln_hlo
ln_lv
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Standardized
Estimate
Squared
Semi-partial
Corr Type I
1
1
1
1
3.28064
-0.07264
0.17553
0.00700
0.89897
0.09776
0.07726
0.12130
3.65
-0.74
2.27
0.06
0.0004
0.4586
0.0245
0.9540
0
-0.05969
0.20941
0.00531
.
0.00524
0.04479
0.00002139
DF
1
1
1
1
Parameter Estimates
Squared
Partial
Corr Type II
Tolerance
.
.
0.00372
0.99460
0.03370
0.75558
0.00002252
0.75835
Footer
Variance
Inflation
0
1.00543
1.32349
1.31866
Squared
Partial
Corr Type I
Squared
Semi-partial
Corr Type II
.
0.00524
0.04502
0.00002252
.
0.00354
0.03313
0.00002139
95% Confidence Limits
1.50417
5.05712
-0.26581
0.12054
0.02286
0.32820
-0.23270
0.24670
Hav 36 poistettu
Source
Model
Error
Corrected Total
Analysis of Variance
Sum of
Mean
DF Squares Square
3 2.97192 0.99064
147 93.27863 0.63455
150 96.25055
F Value
1.56
Root MSE
Pr > F Dependent Mean
0.2013 Coeff Var
0.79659 R-Square
3.57174 Adj R-Sq
22.30243
0.0309
0.0111
Parameter Estimates
Variable
Intercept
ln_ika
ln_hlo
ln_lv
Variable
Intercept
ln_ika
ln_hlo
ln_lv
DF
1
1
1
1
Parameter Standard
Standardized
Estimate
Error t Value Pr > |t|
Estimate
3.14314 0.88304
3.56 0.0005
0
-0.01361 0.09844
-0.14 0.8902
-0.01124
0.13915 0.07701
1.81 0.0728
0.16823
0.01723
0.11900
0.14 0.8851
0.01348
DF
1
1
1
1
Parameter Estimates
Squared
Partial
Corr Type II
Tolerance
.
.
0.00013010
0.99869
0.02173
0.76054
0.00014251
0.76037
Footer
Squared
Squared
Squared
Semi-partial
Partial Semi-partial
Corr Type I Corr Type I Corr Type II
.
.
.
0.00018189 0.00018189
0.00012610
0.03056
0.03056
0.02153
0.00013812 0.00014251
0.00013812
Variance
Inflation 95% Confidence Limits
0
1.39806
4.88823
1.00131
-0.20816
0.18093
1.31485
-0.01304
0.29133
1.31515
-0.21795
0.25240
Yhteenveto malleista
Malli
Lineaarinen
Logaritminen
B
s.e.
t
B
Vakio
3.582
0.154
23.32*** 3.281
Ikä
-0.009
0.006
-1.52
Henkilöstö
0.005
0.004
Liikevaihto
0.000
Sopivuus
Log, hav. 36 pois
s.e.
t
3.65*** 3.143
0.883
3.56***
-0.073 0.098
-0.74
-0.014
0.098
-0.14
1.22
0.176
0.077
2.27**
0.139
0.077
1.81*
0.000
0.49
0.007
0.121
0.06
0.017
0.119
0.14
R2
Adj. R2
F (df)
R2
Adj. R2
F
R2
Adj. R2
F
.037
.017
1.87
(3;148)
.050
.031
2.60*
(3;148)
.031
.011
1.56
(3:147)
Footer
s.e.
t
0.899
B
Kasvuvaihe- dummy selittäjäksi
Elinkaari
.
2
3
4
Footer
Mean of
Std. Dev. of
growthorient growthorient
3.57735
0.80268
4.08824
0.72618
3.46310
0.76678
3.38095
0.98936
Tulokset
Source
Model
Error
Corrected Total
Analysis of Variance
Sum of
Mean
DF Squares Square
3 10.86489 3.62163
147 85.38567 0.58085
150 96.25055
F Value Pr > F
6.23 0.0005
Root MSE
Dependent Mean
Coeff Var
0.76214 R-Square 0.1129
3.57174 Adj R-Sq 0.0948
21.3379
Parameter Estimates
Variable
DF
Intercept
1
kasvuvaihe
1
ln_ika
1
ln_hlo
1
Variable
Intercept
kasvuvaihe
ln_ika
ln_hlo
Parameter Standard
Standardized
Estimate
Error t Value Pr > |t|
Estimate
2.96024 0.31432
9.42 <.0001
0
0.61621 0.16702
3.69 0.0003
0.29139
0.04744 0.09556
0.50 0.6203
0.03916
0.15876 0.06437
2.47 0.0148
0.19194
DF
1
1
1
1
Parameter Estimates
Squared
Partial
Corr Type II
Tolerance
.
.
0.08475
0.96740
0.00167
0.97024
0.03973
0.99622
Footer
Squared
Squared
Squared
Semi-partial
Partial Semi-partial
Corr Type I Corr Type I Corr Type II
.
.
.
0.07504
0.07504
0.08214
0.00114
0.00123
0.00149
0.03670
0.03973
0.03670
Variance
Inflation 95% Confidence Limits
0
2.33908
3.58140
1.03369
0.28613
0.94629
1.03067
-0.14140
0.23628
1.00379
0.03154
0.28597
SAS- koodi
PROC REG DATA=kirjasto.datatiedosto
PLOTS(ONLY)=ALL
;
Linear_Regression_Model:
MODEL growthorient = kasvuvaihe ln_ika ln_hlo
/
SELECTION=NONE
STB CLB
PCORR1 PCORR2 SCORR1 SCORR2
ALPHA=0.05
TOL VIF SPEC
;
RUN;
Footer
Raportointi
Raportoitavat asiat
−
−
−
−
−
−
−
Estimointimenetelmä (OLS, WLS, GLS,..)
Selitettävä ja selittävät muuttujat
Muuttujien lisääminen malliin: enter vai stepwise
Taustaoletusten tarkistus (maininta + liite)
Selityskerroin, (F-arvo, vapausasteet tai n), merkitsevyys
(Standardoidut) regressiokertoimet, keskivirheet tai t-arvo, merkitsevyys
Samaan taulukkoon voi ja kannattaa tiivistää usean regressiomallin
tulokset, esim. jos käytetään samoja selittäjiä ja/tai selitettäviä eri malleissa,
ks. Yhteenvetotaulukko kolmen esimerkkimallin tuloksista yllä
− Raportoi aina myös mallissa käyttämiesi muuttujien keskiarvot,
keskihajonnat ja korrelaatiomatriisi (liitteeksi tai tekstiosaan aineiston
kuvailu- kappaleeseen)
65

kalvot_luento6

Transcript kalvot_luento6

Directory