PPT - Tampereen yliopisto

Download Report

Transcript PPT - Tampereen yliopisto

Luento 4: Regressioanalyysi
Petri Nokelainen
[email protected]
http://www.uta.fi/~petri.nokelainen
Kasvatustieteiden yksikkö
Tampereen yliopisto
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
1. General Linear Model (GLM)
z y  z x  e
X (IV)
Y (DV)
1, jatkuva
1, jatkuva
n, jatkuva
n, epäjatkuva
n, jatkuva
1, jatkuva
1, jatkuva
1, dikotominen
n, jatkuva
n, epäjatkuva
n, jatkuva
n, latentti
n, latentti
n, jatkuva
n, jatkuva
n, epäjatkuva
n, jatkuva
n, jatkuva
(3.2)
Pearsonin tulomomenttikorrelaatiokerroin (r)
k
z y    i z x i  e (3.3)
i 1
Regressioanalyysi (Multiple RA)
Varianssianalyysi (n-way ANOVA)
Kahden ryhmän erotteluanalyysi (Two-group LDA)
p

i 1
k
jm
z y jm    im z x im  e (3.4)
i 1
Monimuuttujaregressioanalyysi (Multivariate RA)
Monimuuttujavarianssianalyysi (MANOVA)
Erotteluanalyysi (LDA)
Faktorianalyysi (EFA)
Pääkomponenttianalyysi (PCA)
(Nokelainen, 2008.)
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
1.1 Korrelaatio
z y  z x  e
IV 1
(3.2)

DV

Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2. Regressioanalyysi
z y  z x  e
X (IV)
Y (DV)
1, jatkuva
1, jatkuva
n, jatkuva
n, epäjatkuva
n, jatkuva
1, jatkuva
1, jatkuva
1, dikotominen
n, jatkuva
n, epäjatkuva
n, jatkuva
n, latentti
n, latentti
n, jatkuva
n, jatkuva
n, epäjatkuva
n, jatkuva
n, jatkuva
(3.2)
Pearsonin tulomomenttikorrelaatiokerroin (r)
k
z y    i z x i  e (3.3)
i 1
Regressioanalyysi (Multiple RA)
Varianssianalyysi (n-way ANOVA)
Kahden ryhmän erotteluanalyysi (Two-group LDA)
p

i 1
k
jm
z y jm    im z x im  e (3.4)
i 1
Monimuuttujaregressioanalyysi (Multivariate RA)
Monimuuttujavarianssianalyysi (MANOVA)
Erotteluanalyysi (LDA)
Faktorianalyysi (EFA)
Pääkomponenttianalyysi (PCA)
(Nokelainen, 2008.)
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
2. Regressioanalyysi
k
z y    i z x i  e (3.3)
i 1
IV 1
IV 2
r
IV 3
IV 4




DV

2. Regressioanalyysi
”…regression analysis is a method of
analyzing the variability of a dependent
variable by resorting to information
available on one or more independent
variables.”
(Pedhazur, 1982, 5)
2. Regressioanalyysi
• Tarkastelee muuttujien välistä lineaarista
yhteyttä, ts. ilmoittaa korrelaatiokertoimen
tavoin kahden muuttujan välisen
vaikutussuhteen voimakkuuden (-1, …, 1).
• Mahdollistaa lisäksi DV -muuttujan arvojen
ennustamisen IV –muuttujan (tai muuttujien)
arvojen perusteella.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2.1 Regressioanalyysin historia
• Perustuu Galtonin (1885)
havaintoihin:
– Pitkien isien pojista ei keskimäärin
tullutkaan yhtä pitkiä kuin isistään,
lyhyiden isien pojista tulikin
keskimäärin pidempiä kuin
isistään.
Sir Francis Galton – Poikien keskipituus lähestyi
keskipituutta.
1822-1911
2.1 Regressioanalyysin historia
• Regressioanalyysi on yksi
kasvatustieteiden käytetyimmistä
menetelmistä, mutta usein unohdetaan
että sen tulisi perustua vahvalle
teoreettiselle pohjalle.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2.2 Regressioanalyysin lajit
• Yhden tai useamman ennustemuuttujan
(IV) regressioanalyysi
• Monimuuttujaregressioanalyysi
(Multivariate regression analysis)
(ks. lisää esim. Nummenmaa et al., 1997, 307326; Kerlinger, 1986, 527-561).
• Hierarkkinen regressioanalyysi
– Hierarchical/sequential multiple regression
(Pedhazur, 1982; Tabachnick & Fidell, 2007)
2.2 Regressioanalyysin lajit
• Askeltava regressioanalyysi
– Stepwise multiple regression (Pedhazur, 1982;
Tabachnick & Fidell, 2007)
• Kanoninen korrelaatio
– Canonical correlation (Kerlinger, 1986, 561-568)
• Logistinen regressioanalyysi
– Logistic regression analysis
– Poistaa lineaarisen regressioanalyysin vaatimuksen
selitettävän muuttujan jatkuvuudesta, ks. esimerkki
dokumentista ”6.1 Logistinen regressio” (FSD)
– Multiway frequency analysis (Nummenmaa et al.,
1997, 127-147)
A Standardi R
B Hierarkkinen R
C Askeltava R
A
B
C
IV1
IV2
IV3
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2.3 Regressioanalyysin käyttötapoja
• Käyttötapoja:
– Selittävien (IV) muuttujien etsiminen
• Opiskelumenestyksen selittäminen motivaation ja
oppimisstrategioiden avulla.
– Selittävien (IV) muuttujien selitysosuuden
tutkiminen
• Kuinka suuri vaikutus varhaisessa vaiheessa
tapahtuneella erityisluokalle siirrolla on erityisoppilaan
koulumenestykseen.
– Selittävien (IV) muuttujien keskinäisen
selitysosuuden vertailu eli mitkä muuttujat ovat
toisia parempia tietyn Ilmiön selittäjinä.
– Selitettävän (DV) muuttujan ennustaminen.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2.4 Regressioanalyysin rajoituksia
• Yleisiä rajoituksia
– Regressioanalyysin avulla löydetyt
vaikutussuhteet eivät välttämättä ole kausaalisia.
• Kausaalisuuden määrittely on looginen ja
koeasetelmallinen ongelma (Pearl, 2000).
– Analyysiin mukaan otettujen DV ja IV muuttujien
valinnan tulee olla teoreettisesti, loogisesti tms.
perusteltavissa.
2.4 Regressioanalyysin rajoituksia
• Teknisiä rajoituksia
– Otoskoko (esim. viisi IV muuttujaa)
• Greenin (1991) mukaan
– N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90
– N > 104 + m (yksi IV), esim. N = 104 + 5 = 109
• Stevensin (1996) mukaan
– N = 15m (kaikissa tapauksissa), esim. 15*5 = 75
– IV muuttujien väliset suhteet
• Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita)
ei saa esiintyä.
• Singulaarisuutta (muuttuja on toisen/toisten
kombinaatio, esim. kolmen testin yksittäiset pistemäärät
ja niiden summamuuttuja) ei saa esiintyä.
2.4 Regressioanalyysin rajoituksia
• Teknisiä rajoituksia
– Poikkeavat arvot (outlier) tulisi poistaa, korvata
uudella arvolla (rescore) tai muuntaa (transform).
• X Y –muuttujien kuvaajien tarkastelu!
– Regressioanalyysiohjelmissa (SAS, BMDP, SPSS)
poikkeavien arvojen vaikutusta tutkitaan
seuraavilla mittaluvuilla:
• Leverage (l) arvioi poikkeavia arvoja IV muuttujien
joukossa
– Korkeat arvot ovat “kaukana” toisista
• Discrepancy (d) arvioi sitä kuinka tapaus on linjassa
muiden kanssa.
• Influency (l) = l * d.
2.4 Regressioanalyysin rajoituksia
Korkea l
Matala d
Kohtuullinen i
Korkea l
Korkea d
Korkea i
Matala l
Korkea d
Kohtuullinen i
(Tabachnik & Fidell, 1996, 135.)
2.4 Regressioanalyysin rajoituksia
• Residuaalien (havaitun ja ennustetun DV
arvon välinen erotus, regressioyhtälön
virhetermi tai jäännöstermi, )
– Normaalisuus
• Residuaalien (ennustevirheiden) tulisi olla normaalisti
jakautuneita
– Lineaarisuus
• Residuaalien ja ennustettujen DV arvojen välillä tulisi olla
lineaarinen suhde
– Homoskedastisuus
• DV muuttujien residuaalien varianssien tulisi olla yhtä
suuria.
– Riippumattomuus
• Residuaalien tulisi olla toisistaan riippumattomia.
2.4 Regressioanalyysin rajoituksia
– A) Normaalisuus
ei toteudu
A
0
– B) Lineaarisuus
ei toteudu
0
B
0
– C) Homoskedastisuus
ei toteudu
C
0
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
2.5 Regressioanalyysin vaiheet
• Regressioanalyysin vaiheet:
– Muuttujien valinta (DV, IV)
• Paitsi jos käytetään “Enter” -menetelmää
– Analyysi
– Mallille tehtävät diagnostiset tarkastelut
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
3. Kahden muuttujan regressioanalyysi
• Kahden muuttujan regressioanalyysi
– Määritellään kahden, riippuvan (DV) ja
riippumattoman (IV) muuttujan välinen yhtälö.
• Esim. ennustetaan akateemista tuottavuutta (DV)
kognitiivisten oppimistuotosten, esim. GPA, avulla (IV).
– Jokaiselle yhtälössä olevalle riippumattomalle
muuttujalle annetaan painokerroin (), jotka
yhdessä muodostavat ns. Beta –vektorin (B).
– Selitettävän muuttujan arvo saadaan kun
selittävät muuttujat lasketaan yhteen
painokertoimilla painotettuna ja summaan
lisätään vakio.
• Mallissa on aina mukana virhettä, jota kuvataan
jäännöstermin, residuaalin, () avulla.
3. Kahden muuttujan regressioanalyysi
• Yksinkertaisessa kahden muuttujan
välisessä regressiossa määritetään
lineaarinen yhtälö joka kuvaa riippuvan (Y)
ja riippumattoman (X) muuttujan välistä
suhdetta:
y = 0 + x + 
y
0

x

= riippuva muuttuja
= leikkauskohta (intercept, constant)
= regressioparametri (slope), kuvaa Y –muuttujan
ennustettua arvon muutosta kun X –muuttujan
arvo kasvaa yhden yksikön
= riippumaton muuttuja
= jäännöstermi
3. Kahden muuttujan regressioanalyysi
y
yi
yj,
ei
yi = 0 + xi + 
x
3. Kahden muuttujan regressioanalyysi
• Mallin (regressioyhtälö) ”hyvyyden”
mittana käytetään selitettävän (DV, Y)
ja selittävien (IV, X) muuttujien välistä
korrelaatiota R.
• H0 = DV ja IV muuttujien välillä ei ole
korrelaatiota (yksikin regressiokerroin
saa arvon 0).
– Suurella otoskoolla nollahypoteesi tulee siis
lähes varmasti hylätyksi.
3. Kahden muuttujan regressioanalyysi
3. Kahden muuttujan regressioanalyysi
• R2 on mallin selitysaste
– Kuinka monta prosenttia malli (siis
ennustemuuttuja eli IV) pystyy selittämään
riippuvan muuttujan (DV) vaihtelusta.
– SPSS laskee kaksi selitysastetta, joista
tieteellisissä raporteissa käytetään
konservatiivisempaa (”Adjusted R2”).
– Selitysasteen (R2) perusteella voidaan tehdä
päätelmiä efektikoosta:
3. Kahden muuttujan regressioanalyysi
3. Kahden muuttujan regressioanalyysi
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
4. Useamman muuttujan regressioanalyysi
• Määritellään yhden riippuvan (DV) ja usean
riippumattoman (IV) muuttujan välisiä
yhtälöitä.
– Esim. ennustetaan työssä koettua stressiä (DV)
esimiehen johtamisominaisuuksien (IV1) ja
ryhmän toimintakyvyn perusteella (IV2).
• Kaikki riippumattomat muuttujat
analysoidaan (“Enter” –menetelmä), niitä ei
valita tai aseteta järjestykseen.
4. Useamman muuttujan regressioanalyysi
• Usean muuttujan lineaarisessa regressiossa
määritetään lineaarinen yhtälö joka kuvaa
yhden riippuvan ja usean riippumattoman
muuttujan välistä suhdetta:
y = 0 + 1x1 + 2x2 + ... + nxn + 
y
0
1…n
x1…n

=
=
=
=
=
riippuva muuttuja
vakio (constant)
regressioparametreja
riippumattomia muuttujia
virhetermi
4. Useamman muuttujan regressioanalyysi
yi = 0 + 1ix1i + 2ix2i + ... + nixni + 
y
yi
yj,
ei
x
4. Useamman muuttujan regressioanalyysi
Knowledge
Value
Performance

Satisfaction
(Warren, White, & Fuller, 1974.)
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen
menestys
Kontrolliuskomukset
Näyttötilanteiden
jännittäminen
WorldSkills
kilpailumenestys
Ulkoinen tavoiteorientaatio
Tekemällä oppiminen
N=64

4. Useamman muuttujan regressioanalyysi
•
Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa
– Analyze – Regression - Linear
• Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3
luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras).
• Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa
mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety),
ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen
päästötodistuksen keskiarvo).
• Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, DurbinWatson.
• Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)
4. Useamman muuttujan regressioanalyysi
• Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta
täyttävätkö residuaalit niille asetetut vaatimukset
normaaliuden ja lineaarisuuden osalta:
Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.
4. Useamman muuttujan regressioanalyysi
• Seuraavaksi tarkastellaan Model Summary –taulukon
Durbin-Watson –sarakkeesta täyttävätkö residuaalit
niille asetetut vaatimukset myös riippumattomuuden
osalta:
Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia
residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen
korrelaatio). Hyväksyttävät arvot vaihtelevat 1.0 – 3.0 välillä (2.0 = optimi).
Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja
riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten
tulkintaan.
4. Useamman muuttujan regressioanalyysi
Kuvaa mallin yleistettävyyttä
populaatioon, ts. pitäisi olla lähellä R2 –
arvoa. Jos malli olisi laskettu
populaatiosta, eikä tästä 64 nuoren
otoksesta, se selittäisi noin 11%
vähemmän kilpailumenestyksestä (.442
- .331= .111).
Malli selittää tilastollisesti
merkitsevästi kilpailumenestystä.
4. Useamman muuttujan regressioanalyysi
Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun
painokertoimen (B) kuvaavan populaation mielipidettä. Esim.
B=.644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä
kilpailumenestykseen (p=.021), ja samaa viestiä tarjoaa
luottamusvälikin (B:n arvo vaihtelee populaatiossa 95%
todennäköisyydellä välillä .104 - 1.185). Heikon selittäjän,
esim. ”ulkoinen tavoiteorientaatio” (B=.242 , p=.368), osalta
luottamusväli ilmaisee että populaatiossa on todennäköisesti
myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus
kilpailumenestykseen on negatiivinen (-.299).
Multikollineaarisuustarkastelu suoritetaan
vertaamalla Tolerance sarakkeen arvoja lukuun .67
(1-R2=1-.33). Suuret
korrelaatiot eivät ole
ongelma, koska arvot
vaihtelevat välillä .730-.893
eli ovat arvoa .67
suurempia.
Huom. Tolerance = 1 / VIF.
Standardoimattomat kertoimet kuvaavat IV –muuttujan
(prediktori) yhden yksikön kasvun vaikutusta DV –
muuttujassa. Esim. kun ammatillinen opintomenestys
kasvaa yhdellä arvosanalla, kilpailumenestyksen
odotetaan paranevan .66 sijoituksen verran.
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen
menestys
-.141(.139)
R2=33%
.644(.417)
Kontrolliuskomukset
.247(.166)
Näyttötilanteiden
jännittäminen
Ulkoinen tavoiteorientaatio
Tekemällä oppiminen
-.426(-.362)
.242(.138)
.644(.341)
WorldSkills
kilpailumenestys
4. Useamman muuttujan regressioanalyysi
Ammattitaidon maailmanmestaruuskilpailuissa menestymistä
selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden
ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi
ammattiopintomenestys (=.417, p=.001), tekemällä
oppiminen (=.361, p=.021) ja näyttötilanteiden
jännittäminen (=-.362, p=.018). Malli sopi aineistoon
(p=.005) ja tuloksen efektikoko oli Cohenin (1988) mukaan
suuri, R a2 =.331.
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
4.1 Hierarkkinen regressioanalyysi
• Hierarchical/sequential multiple regression
(Pedhazur, 1982; Tabachnick & Fidell, 2007)
• Rajoitukset ovat samat kuin perinteisessä
regressioanalyysissa.
• Analyysin suorittamiseen tarvitaan yksi
jatkuva DV ja kaksi tai useampia jatkuva tai
ei-jatkuva IV muuttuja.
• Analyysin avulla voi selvittää kunkin IV
muuttujan suhteellisen selitysosuuden DV
muuttujan varianssista.
4.1 Hierarkkinen regressioanalyysi
• Riippumattomat muuttujat sijoitetaan
regressioyhtälöön tutkijan määrittämässä
järjestyksessä.
• Yleensä sijoittelun taustalla on teoreettinen,
kausaalinen tms. oletus.
– Tutkittaessa koettua stressiä (DV) sisäisten
prosessien (IV) ja ulkoisten tapahtumien
hallinnan (IV) toimiessa selittävinä muuttujina,
on varmasti hyvä ottaa malliin mukaan
työkokemus (IV) ja minäkäsitys (IV).
4.1 Hierarkkinen regressioanalyysi
• Pääselittäjien ”voimaa” voi myös tutkia
sijoittamalla yhtälöön ensin vähempiarvoisia
selittäjiä (=kontrolloimalla niitä).
– Henkilön lukunopeutta (DV) voi tutkia
intensiivikurssin sisällön (IV) ja keston (IV)
kannalta sijoittamalla yksilölliset erot
lukunopeudessa (IV) yhtälöön ensimmäiseksi.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
4.2 Askeltava regressioanalyysi
• Stepwise multiple regression, statistical
regression (Pedhazur, 1982; Tabachnick
& Fidell, 2007)
• Menetelmää kutsutaan ”tilastolliseksi”
regressioanalyysiksi, koska selittävien
muuttujien valinta perustuu puhtaasti
tilastollisiin kriteereihin (esim.
korrelaation voimakkuus DV muuttujan
kanssa).
• Muuttujien valinta tapahtuu yleisimmin
kolmen menetelmän avulla: (1) forward
selection, (2) backward selection, ja (3)
stepwise selection.
4.2 Askeltava regressioanalyysi
• Forward selection (lisäävä menettely)
– Tyhjään yhtälöön lisätään tilastollisen kriteerin
täyttävä IV yksi kerrallaan. Kukin lisätty IV jää
yhtälöön.
• Backward selection (poistava menettely)
– Kaikki IV muuttujat ovat alussa yhtälössä.
Tilastollisen kriteerin ulkopuolelle jäävät IV:t
poistetaan yhtälöstä yksi kerrallaan.
• Stepwise selection (askeltava menettely)
– Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja
siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä
voidaan myös poistaa IV muuttujia kun uusia,
paremmin selittäviä tulee tilalle.
4.2 Askeltava regressioanalyysi
• Perinteisessä regressioanalyysissa (A)
voimakkaasti selitettävän muuttujan
(DV) kanssa korreloiva selittävä
muuttuja (IV1) voi jäädä statistin
rooliin.
A
4.2 Askeltava regressioanalyysi
• Askeltavassa mallinnuksessa (C)
selitettävät muuttujat saavat ”krediitit”
riippuvan muuttujan selittämisestä
korrelaation voimakkuuden perusteella.
C
4.2 Askeltava regressioanalyysi
• Ylisovitus (overfitting) on askeltavien
menetelmien riski, erityisesti tehtäessä
tulkintoja yhden näytteen perusteella.
• Ristiinvalidointi (cross validation) esim.
toisen näytteen avulla (tai suuren
datatiedoston puolitus) on suositeltavaa
käytettäessä tilastollisia
regressiomenetelmiä.
– Ajetaan sama regressioanalyysi kaksi kertaa
eri aineistoilla, esim. jaetaan yksi riittävän
suuri aineisto kahteen satunnaisesti
muodostettuun aliotokseen.
Sisältö
1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet
DV
IV
Kovariaatit Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei
Multiple R
n jatkuvaa
Joitakin
Muuttujien
välisten
riippuvuuksien
voimakkuus
Seq. Multiple R
n jatkuvaa
n jatkuvaa
Canonical R
1 diskr.
n jatkuvaa
tai diskr.
Multilevel modeling
Ei yhtään
n diskr.
n-way Freq. Anal.
5. Kanoninen korrelaatio
• Canonical correlation
– (Kerlinger, 1986, 561-568)
• Yleismenetelmä, jonka erikoistapauksia
ovat mm. regressioanalyysi,
erotteluanalyysi ja MANOVA.
• Käytetään tutkimuskirjallisuudessa
enemmän kuvailuun kuin
hypoteesintestaukseen.
– ”Tulokset ovat usein matemaattisesti
elegantteja, mutta vaikeasti tulkittavissa”
(Tabachnik & Fidell, 2007, 570).
5. Kanoninen korrelaatio
• Menetelmän avulla tutkitaan kahden
muuttujaryhmän välisiä
vaikutussuhteita.
– Toinen ryhmä voi koostua DV (esim.
ympäristötietoisuus) ja toinen IV (esim.
sukupuoli, koulutustaso, poliittinen kanta)
muuttujista.
– Tutkijan kannalta muuttujien valinta ja
erityisesti tulosten mielekäs tulkinta on
haasteellista.
Lähteet
Berk, R. A. (2004). Regression Analysis: A Constructive Critique.
Thousand Oaks: Sage.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences.
Hillsdale, NJ: Erlbaum.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of
tests. Psychometrika, 16, 297-334.
Galton, F. (1885). Regression towards mediocrity in hereditary stature.
Journal of the Anthropological Institute, 15, 246-63.
Green, S. B. (1991). How many subjects does it take to do a regression
analysis? Multivariate Behavioral Research, 26, 499-510.
Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley &
Sons.
Lähteet
Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA:
Wadsworth Publishing Company.
Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition.
New York: CBS College Publishing.
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of
test reliability. Psychometrika, 2, 151-160.
Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet
ihmistieteissä. Helsinki: International Methelp Ky.
Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät.
Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.
Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997).
Tutkimusaineiston analyysi. Porvoo: WSOY.
Lähteet
Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on
reporting Eta-squared values from multifactor ANOVA designs.
Educational and Psychological Measurement, 64(6), 916-924.
Pearl, J. (2000). Causality. New York: Cambridge University Press.
Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral
Research. New York: Holt, Rinehart and Winston.
Stevens, J. (1996). Applied Multivariate Statistics for the Social
Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum.
Tabachnick, B. G., & Fidell, L. S. (1996). Using Multivariate Statistics.
Third Edition. New York: Harper Collins.
Lähteet
Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics.
Fifth Edition. Boston: Pearson.
Warren, R. D., White, J. K., & Fuller, W. A. (1974). An errors-invariables analysis of managerial role performance. Journal of
American Statistical Association, 69, 886-893.
Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät.
http://www.helsinki.fi/%7ekvehkala/mmm/moniste.pdf