Slide 1 - Ühiskonnateaduste instituut, Tartu Ülikool
Download
Report
Transcript Slide 1 - Ühiskonnateaduste instituut, Tartu Ülikool
Mitmetasandiline lineaarne
regressioon
Mihkel Solvak
Riigiteaduste Instituut
Tartu Ülikool
01.11.2013
1
Tavaline lineaarne regressioon
35.00
30.00
Hääled %
25.00
20.00
15.00
10.00
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
2
Tavaline lineaarne regressioon
35.00
30.00
Hääled %
25.00
20.00
15.00
10.00
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
3
Tavaline lineaarne regressioon
35.00
30.00
d1
Hääled %
25.00
d2
20.00
15.00
10.00
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
4
Tavaline lineaarne regressioon
35.00
30.00
d1
Hääled %
25.00
d2
20.00
15.00
10.00
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
5
Tavaline lineaarne regressioon
35.00
30.00
d1
Hääled %
25.00
d2
20.00
15.00
10.00
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
6
Tavaline lineaarne regressioon
35.00
y=4,6 + 0,7x
30.00
Hääled %
25.00
20.00
15.00
10.00
R2=0,79
5.00
0.00
0.00
10.00
20.00
30.00
Kampaaniakulud %
40.00
7
Tavaline lineaarne regressioon
• Sellisel regressioonil on rida eeldusi
• Kaks neist on eriti relevantsed hierarhilise
andmestruktuuri juures:
– Keskmiste sõltumatus (mean independence)
– Vigade mittekorreleeritus ehk inimkeeli juhtumite
sõltumatus
8
Mitmene lineaarne regressioon- eeldused (I)
• Keskmiste sõltumatus:
y= β0+ β1X1 + β2X2 +… +βnXn+ε
–
–
–
–
–
Vea ε keskmine ei sõltu x-de väärtustest
Vea ε keskmine on null
Teisisõnu, regressioonimudelis on korrektsed tunnused
Vaid siis on konstant ja koefitsiendid kallutamata
Eelduse rikkumise tagajärjed on:
• kallutatud parameetrid
9
Mitmene lineaarne regressioon- eeldused (II)
• Juhtumite sõltumatus:
y= β0+ β1X1 + β2X2 +… +βnXn+ε
– Viga ε ei ole juhtumite vahel korreleeritud
– Lihtsamalt öeldes – juhtumid on sõltumatud
– Eelduse rikkumise tagajärjed on:
• OLS on ebaefektiivne seose kirjeldamisel
• Liiga väikesed standardvead
10
MLM
• Juhtumite sõltumatuse eelduse rikkumine
tähendab:
– Juhtumist saadav info kattub või on dubleeritud teiste
juhtumite infoga ehk kogu saadav info on väiksem
olukorrast, kus juhtumid on juhuslikult valitud
– “Efektiivne” juhtumite arv on väiksem tegelikust
juhtumite arvust
– Standardvead on liiga väikesed
– Olulisuse nivoo eksitab (nn alpha inflation), tekib
suurem I tüüpi vea tegemise tõenäosus
11
MLM
Lükkate H0
tagasi
Ei lükka H0
tagasi
H0 on tõene
H0 on vale
I tüüpi viga
Kõik hästi
Kõik hästi
II tüüpi viga
12
MLM
• Juhtumite sõltumatuse eelduse rikkumine
tähendab:
– Juhtumist saadav info kattub või on dubleeritud teiste
juhtumite infoga ehk kogu saadav info on väiksem
olukorrast, kus juhtumid on juhuslikult valitud
– “Efektiivne” juhtumite arv on väiksem tegelikust
juhtumite arvust
– Standardvead on liiga väikesed
– Olulisuse nivoo eksitab (nn alpha inflation), tekib
suurem I tüüpi vea tegemise tõenäosus
– Sõltuvust tekitava faktori väljajätmine annab valesti
spetsifitseeritud mudeli (nn omitted variable bias)
13
MLM
• Lahendused:
– Kaasata sõltuvust tekitav faktor mudelisse
• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+ε
kus W1 on teise tasandi tunnus
14
Miks MLM?
12
10
8
Y
6
4
2
0
0
1
2
3
X
4
5
6
Miks MLM?
12
10
8
Y
6
4
Üldine seos x ja y vahel
2
0
0
1
2
3
X
4
5
6
16
Miks MLM?
12
10
Grupisisene seos x ja y vahel
8
Y
6
4
Üldine seos x ja y vahel
2
0
0
1
2
3
X
4
5
6
17
Miks MLM?
Gruppideülene seos x ja y vahel
12
10
Grupisisene seos x ja y vahel
8
Y
6
4
Üldine seos x ja y vahel
2
0
0
1
2
3
X
4
5
6
18
MLM
• Lahendused:
– Kaasata sõltuvust tekitav faktor mudelisse
• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+ε
kus W1 on teise tasandi tunnus
– Mudeldada andmete tekke protsessi viisil, mis
võtab juhtumite sõltuvust arvesse
– Ehk mitmetasandiliselt
19
Kuidas sõltuvus tekkida võib
• Korduvad mõõtmised
– Eksperimendid
– Paneeluuringud
– Aegread
• Klasterdatud vaatlused (sõltuvus, mis tekkinud
füüsilisest, geograafilisest või sotsiaalsest
lähedusest)
20
Mitmetasandiline analüüs
• Hierarhiad andmetes leiab iga nähtuse puhul:
– Tark õpilane õpib paremini tugevama tasemega
koolis kui sama tark õpilane nõrgema tasemega
koolis (lapsed klastritena koolides)
– Rikas inimene vaeses riigis näeb maailma
teismoodi kui rikas inimene rikkas riigis (inimesed
klastritena riikides)
– Sama haigusega patsiendi ravi on edukam ühes
haiglas kui teises (patsiendid klastritena haiglates)
Mitmetasandiline analüüs
• Klastrid viitavad erinevatele tasanditele, mille abil
maailma kirjeldada saab ehk “indiviidi” tasandil ja
mingi klastri tasandil
• Analüüsides vaid ühte tasandit ja lisades info
teistelt tasanditel agregeerides või
disagregeerides tekib:
– Sõltuvus andmetes
– Kontseptuaalne segadus põhjuslikkuse analüüsimisel:
• Nn ökoloogiline eksitus (ecological fallacy)
• Nn individualistlik eksitus (individualist fallacy)
22
Miks MLM?
Gruppideülene seos x ja y vahel
12
10
Grupisisene seos x ja y vahel
8
Y
6
4
Üldine seos x ja y vahel
2
0
0
1
2
3
X
4
5
6
23
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health)
24
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health)
25
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health)
26
AUT 09
AUT 99
BGR 09
CYP 04
CYP 09
CZE 04
CZE 09
DEN 04
DEN 09
DEN 99
ESP 04
ESP 09
ESP 99
EST 04
EST 09
FIN 04
FIN 09
FIN 99
FRA 04
FRA 09
FRA 99
GBR 04
GBR 09
GBR 99
GER 04
GER 09
GER 99
GRC 04
GRC 09
HUN 04
HUN 09
IRE 04
IRE 99
ITA 04
ITA 09
ITA 99
LAT 09
LIT 09
MLT 09
NI 04
NLD 04
NLD 09
NLD 99
POL 04
POL 09
PRT 04
PRT 09
PRT 99
ROU 09
SVK 04
SVK 09
SVN 04
SVN 09
SWE 09
SWE 99
.4
.6
.8
1
.4
.6
.8
1
.4
.6
.8
1
.4
.6
.8
1
.4
.6
.8
1
.4
.6
.8
1
.4
.6
.8
1
AUT 04
0
.5
1
0
.5
1
0
.5
1
0
.5
1
0
.5
1
0
.5
1
0
.5
1
0
.5
1
Share of parties
95% CI
probability of participation
27
Miks MLM - analüüsitasand
• Ühendame indiviidi ja linnaosa informatsiooni
(Merlo et al 2005. J. Epidemiology and Community Health)
28
MLM
• Variatsioon eelmisel graafil oli:
– Kõikide indiviidide väärtused üldise keskmise suhtes
– Kõikide gruppide keskmised üldise keskmise suhtes
(varn)
– Kõikide indiviidide väärtused nende grupi keskmise
suhtes (vari)
• Koguvariatsiooni saame lahutada indiviidi ja grupi
osadeks. Intraklassi korrelatsioon näitab kui suur
osa koguvariatsioonist on põhjustatud teise
tasandi ühikute poolt (grupp, linnaosa jne)
ICC= varn /(varn + vari)
29
MLM
• Kui ICC on suur, siis peegeldab see midagi
teise tasandi ühikute kohta:
– Koosseisust tingitud efektid – teise tasandi ühikud
erinevad selles, mis vahekorras esimese tasandi
ühikuid nad sisaldavad
– Kontekstist tulenevad efektid – efektid mida ei saa
taandada esimese tasandi ühikute koosseisule
teise tasandi ühikute sees
30
MLM
• Kui ICC on väike, siis:
– Pääseb ehk õnneks MLM-ist!
– Grupi tasandi efektid ei pruugi olla olematud, vaid
teie valitud teise tasandi ühikud ei kattu tegelikult
nende füüsiliste, geograafiliste või sotsiaalsete
erisustega, mis grupeerivad indiviide/vaatlusi
31
MLM
• Lahendus on mitmetasandiline modelleerimine (multi-level
modelling) aka HLM (hierarchical linear modelling), LLM
(linear mixed models), mixed models (või mixed effects
models)
• Hinnatakse
1. indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi
sõltuvale tunnusele
2. konteksti/grupi mõju:
• indiviidi tasandi sõltuvale tunnusele
• indiviidi tasandi sõltumatute tunnuste efektidele
sõltuvale tunnusele (nn cross-level interaction)
32
MLM
• Mitmetasandiline lineaarne modelleerimine
võtab andmete klastreid arvesse:
1) lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja
DV suhe) varieeruda kõrgema tasandi ühikute lõikes
2) varieerumine saavutatakse koheldes indiviidi tasandi
vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid
järgmisel analüüsitasandil (kõrgem tasandi omadus
(kool) võib seletada madalamal tasandil täheldatud
varieerumist seostes (õpilane))
• Suur eelis:
– saab lisada sõltumatuid tunnuseid igal tasandil
33
Mida MLM teeb
• MLM alustab samuti lineaarsest seosest kahe tunnuse
vahel:
Yij=βoj + β1jXij+εij
Yij – on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i
sõltuva tunnuse väärtus grupis j
Xij – on esimese tasandi prediktor
βoj - on grupi j vabaliige
β1j - on sõltuva tunnuse ja esimese tasandi prediktori vaheline seos
(sirge tõus) grupis j
εij - on esimese tasandi valemi ennustusviga
Mida MLM teeb
• MLM alustab samuti lineaarsest seosest kahe tunnuse
vahel:
Yij=βoj + β1jXij+εij
• Kuid astub sammu edasi ennustades esimese taseme kahe
tunnuse vahelist seost kirjeldavaid parameetreid omakorda
teise taseme tunnustega:
βoj =γ00+ γ01Wj+u0j
β1j =γ10+ γ11Wj+u1j
Mida MLM teeb (I)
• Ennustame esimese tasandi vabaliiget teise tasandi
tunnustega:
βoj =γ00+ γ01Wj+u0j
γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide
gruppide kui prediktorid=0
γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese
tasandi vabaliikme (DV) vahel
Wj – teise tasandi prediktor
u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest
vabaliikmest, teisisõnu, grupi j unikaalne efekt vabaliikmele
Mida MLM teeb (II)
• Ennustame esimese tasandi koefitsienti teise tasandi
tunnustega:
β1j =γ10+ γ11Wj+u1j
γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide
gruppide kui prediktorid =0
γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese
tasandi koefitsiendi (DV) vahelise seose kohta
u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest
tõusust, teisisõnu grupi j unikaalne efekt tõusule
MLM
• Nüüd saame asendada:
βoj =γ00+ γ01Wj+u0j
β1j =γ10+ γ11Wj+u1j
Yij=βoj + β1jXij+εij
Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij
γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj)
γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij)
γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj),
korda esimese tasandi prediktori (Xij)
u0j+u1jXij+εij - asendatud valemi juhusliku vea osa
38
MLM
• Esimene mudel on ainult vabaliikmega mudel
(tühi mudel, empty model):
– milline on keskmine erinevus gruppide vahel
sõltuvas tunnuses
• Teises mudelis lisatakse esimese tasandi
prediktor vabaliikmega mudelile (esimese
tasandi mudel)
• Kolmandas mudelis lisatakse teise tasandi
prediktor (teise tasandi mudel)
39
MLM - eeldused
• Meie vaadeldud esimese tasandi ühikud
esindavad teise tasandi ühikutes olevat
esimese tasandi ühikute populatsiooni
(klasterdamata valim teise tasandi ühikute
sees)
• Vaadeldud teise tasandi ühikud on esinduslik
valim teise tasandi ühikute populatsioonist
• Muus osas tavalised lineaarse regressiooni
eeldused (v.a. juhtumite sõltumatus)
40
MLM - spetsifitseerimisotsused
• Kui palju konteksti tunnuseid lisada?
– Mida teooria ütleb?
– Kas mudel ei lähe liiga “keerukaks”?
• Kas kõrgema tasandi ühikuid saab mõista
juhuvalimina?
• Kas ikka kasutada MLM-i?
– Ignoreerida teise tasandi ühikuid
– Kasutada teise ühiku tunnuseid esimese ühiku
tunnustena
– Korrigeerida standardvigu (clustered, robust s.e.)
41
MLM - spetsifitseerimisotsused
• Mida fikseerida, mida mitte?
– Mida teooria ütleb?
– Kas mudel ei lähe liiga “keerukaks”?
– Kas tõlgendamine ei lähe liiga keerukaks?
Yij=βoj + β1jXij+εij
• Ainult fikseeritud efektidega mudelid ei arvesta klastrite sisu
• Juhuslike mõjudega mudelid (random coefficient models)
– Kui βoj sõltub grupist, siis on tegemist nn random intercept mudeliga
– Kui β1j sõltub grupist, siis on tegemist nn random slope mudeliga
– Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad
grupist
42
MLM – praktilised probleemid
• Gruppide arv N ja gruppide suurus nj
– Põletavam probleem kui tavalises OLS-is
– Gruppide arv N:
• Kui väiksem kui 10, siis kasutage juba fikseeritud efekte
(Snijders & Bosker 2012)
– Gruppide suurus nj :
• Isegi ühe juhtumiga grupid võimalikud, kui ülejäänud grupid
suuremad (Snijders & Bosker 2012)
– Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt
nj =30 grupi suurused
– Ehk “20/30” reegel
– Mida keerulisem mudel, seda suurem valim vajalik
43
MLM
• Allikaid:
– R. Bickel. Multilevel analysis for applied research:
It’s just regression! Guilford Press, 2007.
– T. Snijders & R. Bosker. Multilevel analysis: An
introduction to basic and advanced multilevel
modeling. Sage, 2012.
– J. Hox. Multilevel analysis: Techniques and
applications. Routledge, 2010.
– B. Tabachnick & L. Fidell. Using Multivariate
Statistics. Pearson, 2007.
44