Varianskomponentmodeller

Download Report

Transcript Varianskomponentmodeller

Varianskomponentmodeller
Thore Egeland
Epidemiologisk senter, RH
Seksjon for medisinsk statistikk
1
Innhold
• Innledning: Hensikt, eksempler, begreper
• Naiv, feilaktig analyse
• Eksempler
SPSS General Linear Model
Univariate
Varcomp
• Noen beregningsdetaljer.
• Forutsetninger.
2
Hensikt
• Modellere avhengighet som skyldes at
(noen) data er gjentatt i en eller annen
forstand.
Vi tenker ikke nødvendigvis på tid.
• Håndtere data som ikke er balanserte:
missing, dyr dør, etc...
3
Eksempler:
• family: høyden til personer hvorav noen er fra
samme familie.
Hvor stor del av variasjonen i høyde skyldes
familiekomponenten?
• rats: Rotter stimuleres ulikt i tre grupper. Vi måler
respons mange steder i hjernen.
Hvordan innvirker behandling på respons?
• anxiety: hver person plasseres i en gruppe
avhengig av 'anxiety' og 4 tester utføres.
Hvordan innvirker 'anxiety' på ferdigheter?
4
5
6
Begreper
• Tilfeldig versus fast effekt
Balansert
Nestet
• Eksempler: Family, Rats, Anxiety, Pigment
• Mål hele tiden:
Estimering av variabilitet og p-verdier
7
'family' data
id
1
2
.
.
18
family
1
1
.
.
.
4
gender
female
female
.
.
.
male
height
67
66
.
.
.
69
8
HEIGHT
74
72
70
68
66
GENDER
64
male
female
62
FAMILY
9
Family-eksempel
• Naiv analyse: Toveis variansanalyse:
height=mean+family+gender+family*gender
Formelt. Familier k=1,2,3,4
j=1,...,nk
ykj=    k   j   kj  ekj
10
11
12
n
-
D
p
e
e
m
a
d
u
F
a
S
i
f
g
a
a
C
0
7
1
7
3
I
n
0
1
0
6
0
G
6
1
6
1
2
F
7
3
2
1
4
G
7
3
9
5
9
E
0
0
0
T
0
8
C
0
7
a
R
13
Hvorfor er analysen naiv,
feilaktig?
• Avhengighet innen familier neglisjeres.
• Family (1,2,3,4) opptrer på samme måte i
modellen som behandling (1,2,3,4) ville ha
gjort.
• Urimelig? Samme analyse kan umulig
passe i begge tilfeller.
14
Faste og tilfeldige effekter
• Familier er en tilfeldig (random) effekt.
Behandling ville ha vært en
fast (fixed) effekt.
• Familier er trukket fra en fordeling,
derav tilfeldig.
Behandling bestemmes, fastlegges.
• Repetert over familier; ikke tid.
15
Varianskomponentmodell
• height=konstant +
gender +
(fast effekt)
family +
(tilfeldig effekt)
family*gender+ (interaksjon)
feilledd
(tilfeldig effekt)
ykj     k  bj  ckj  ekj
Det er vanlig å bruke norske bokstaver for
tilfeldige effekter og ellers greske.
16
n
-
D
p
e
m
e
a
u
S
d
u
S
a
F
i
f
g
a
I
H
n
0
1
0
8
0
a
E
4
1
0
G
H
6
1
6
1
4
b
E
1
2
0
F
H
7
3
2
5
6
c
E
7
3
9
G
H
7
3
9
5
9
d
F
E
0
0
0
a
,
8
b
,
8
c
M
d
M
17
Oppsummering så langt
• Faste (fixed) effekter:
behandling, gruppe,...
• Tilfeldige effekter:
family, batch, rat,
18
Varianskomponentmodell
• Variansen består av flere komponenter:
var(høyde)=var(family) +var(error)
• Medfører:
korrelasjon=0 for data fra forskj. familier
korrelasjon=var(family)/var(høyde),
for data fra samme familie
19
Balansert
• Balansert forsøksplan:
Hver kategori har like mange observasjoner
Ubalansert:
Balansert:
A
A
B
B
R1
R2
R1
R2
2.5
2.2
2.9
2.8
A
A
B
R1
R2
R1
2.5
2.2
2.9
20
Betydningen av balanserte planer
• Balanserte planer har best styrke, er lettere å
analysere og fortolke.
• I våre dager kan imidlertid ubalanserte
planer håndteres; imidlertid kan vi
forskjellige metoder gi forskjellige svar for
små ubalanserte planer.
21
Nesting
• Behandling Rotte Respons
A R1
2.5
A R2
2.2
B
R1
2.9
B R2
2.8
• Behandling Rotte Respons
A R1
2.5
A R2
2.2
B R3
2.9
B
R4
2.8
A
R1
B
R2
R1
A
R1
R2
B
R2
R3
R4
• Planen over er nestet
22
Eksempel
Mixed, unbalanced, nested...
(Moser et al., 1997)
trt. groups
fixed
rats
random,nested
enriched
...
R1 R2 ...
...
cells,
...
random
C1C2...C19 C20...
nested
paired
R20
...
...
isolated
...
23
Eksempel: anxiety.sav
• Subject Anxiety Trial 1 Trial 2 Trial 3 Trial 4
1
1
18
14 12
6
2
1
19
12
8
4
11
12
2
2
16
16
14
12
10
8
9
8
24
1
1
....
1
2
2
3
6
4
7
....
Anxiety group
12
subject
Trials
25
Modell 1
• Anxiety. Fast effekt.Vi velger, bestemmer
• Subject. Tilfeldig effekt, fra en fordeling av
individer.
Nestet, fra figur.
• Trial. Fast effekt
26
Modell 2
• score=konstant+
anxiety+
subject(anxiety)+
trial+
trial*anxiety+
feil
27
x
1
2
t
t
e
e
i
a
a
a
T
1
S
7
1
2
S
2
3
3
S
8
2
4
S
5
3
28
SPSS
• Analyze
General Linear Model
Univariate (general Factorial i SPSS 8)
Dependent variable: score
Fixed factor(s): trial anxiety
Random factor(s): subject
• Model > Custom
Model: anxiety trial trial anxiety
• Nesting må gjøres manuelt: Trykk paste og legg inn
paranteser som på nederste linje neste side
29
SPSS
UNIANOVA
score BY anxiety trial subject
/RANDOM = subject
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/PRINT = DESCRIPTIVE
/PLOT = PROFILE( trial*anxiety )
/CRITERIA = ALPHA(.05)
/DESIGN = anxiety subject(anxiety) trial anxiety*trial .
30
Estimated Marginal Means of Score
18
16
14
12
10
8
Anxiety
6
4
1
2
2
1
2
3
4
Trial
31
n
-
D
p
e
e
m
a
S
d
u
S
a
F
i f
I
H
n
0
1
0
9
0
a
E
7
0
2
A
H
3
1
3
0
0
a
E
7
0
2
S
H
7
0
2
2
0
b
E
3
0
9
T
H
0
3
0
7
0
b
E
3
0
9
A
H
7
3
6
2
8
b
E
3
0
9
a
M
b
M
32
Kontroll av antagelser
• Noen antagelser tar vi stilling til før data:
Modellen medfører at korrelasjoner
(mellom målinger ftra samme individ) ikke
er negative.
33
Residualene skal være
normalfordelt
12
10
8
6
4
Std. Dev = 1.28
2
Mean = 0.00
N = 48.00
0
-2.50
-1.50
-2.00
-.50
-1.00
.50
0.00
1.50
1.00
2.50
2.00
3.50
3.00
4.00
Residual f or SCORE
34
Hvor god er modellen?
20
Score
10
0
0
5
10
15
20
25
Predicted Value f or SCORE
35
Homogenitet?
Variansen i residualene skal være
uavhengig av nivået til de faste komponenter
4
3
2
Residual for SCORE
1
0
-1
-2
-3
0
Score
10
20
36
Sjekk av antagelser i SPPS
• Vi lagrer residualer og predikerte verdier
i save og plotter etterpå.
37
38
Eksempel: pigment
16
14
12
10
8
6
4
Std. Dev = 5,98
2
Mean = 26,8
N = 60,00
0
12,5
17,5
15,0
22,5
20,0
27,5
25,0
32,5
30,0
37,5
35,0
40,0
MOISTURE
39
Problemstilling
• Variabiliteten i produksjonen av et
legemiddel er for stor:gj.snitt=26.8, sd =6
• Hva bidrar mest til variasjonen:

sample (stikkprøven): 
batch (produksjonen):
2
B
2
S
laboratoriet (test,residual):

2
T
40
Figur s 571,572
Batch og Sample er tilfeldige effekter,
Hierarkisk (nestet) modell)
41
Modell
• Moisture=
 2 ( 62  36)
konstant+
batch+
(random)  B2
sample(batch)+ (random)  S2
2

test
(random) T
42
Beregninger
• Manuelt.
Denne balanserte planen kan håndregnes.
• SPPS
43
Table 17.3 , s574-575
44
Detaljer I
• Utregninger
( 1) 2  02 ... ( 2) 2  2 2
VT 
 0.92
30
(39.5  30) 2 ... (38  27) 2
VS 
 28.99
15
2
2
(34.75  26.783) ... (32.5  26.783)
VB 
 216
.
14
45
Detaljer II
• Det kan vises:
 T2  VT  0.92
  VS   / 2  28.99  0.92 / 2  28.5
2
S
2
T
  VB   / 2   / 4 
2
B
2
S
2
T
216
.  28.5 / 2  0.92 / 4  6.9
46
Konklusjon
• Mesteparten av variasjonen kommer fra
'sample' (stikkprøven):
28.5/(0.92+28.5+6.9)=78.5%
• 'Man hadde glemt å røre i bøtta før man tok
stikkprøven'.
47
Beregninger i SPSS
• Man kan kjøre GLM univariate som før.
Da må man imidlertid bearbeide tallene litt
før man får varianskompontene.
• Vi kan bruke glm varcomp:
48
E
m
C
V
V
V
D
M
7.128+28.533+0.917=36.6
Innledende figur viste varians 36.8
49
SPSS syntaks
• Syntaksen er muligens kryptisk, imidlertid
er alt unntatt parantesen sample(batch)
fremkommet ved pek og klikk:
VARCOMP
moisture BY batch sample
/RANDOM = batch sample
/METHOD = REML
/CRITERIA = ITERATE(50)
/CRITERIA = CONVERGE(1.0E-8)
/DESIGN = batch sample(batch)
/INTERCEPT = INCLUDE .
50
Hypoteseprøving
• Uinteressant her, allikevel ...
• H0: "ingen batch effekt"
 0
2
B
51
n
-
D
p
e
m
e
a
S
u
d
u
F
S
a
i f
g
I
H
n
7
1
7
9
0
a
E
3
4
5
B
H
3
4
5
2
6
b
E
0
5
3
S
H
0
5
3
5
0
c
E
0
0
7
a
M
b
M
c
M
Hvorfor baseres testen på F=86.495/57.983=1.492 og
ikke F=86.495/0.917?
52
Forklaring av testen
• Testobservator
VB 4  2  
86.495
F


 1492
.
2
2
VS
2 S   T
57.983
2
B
2
S
2
T
Denne størrelsen er omtrent 1 hvis nullhypotesen er riktig
og større enn 1 ellers. En stor F verdi gir en liten p-verdi og
tilsier forkastning.
53
ti l
0 10 20 30 40
Areal
0
1
2
3
4
5
6
x
54
Litteratur
• Box, Hunter og Hunter. "Statistics for
experimenters", Wiley 1978. God&gammel!
• SPSS Base 9.0. Applications Guide. Ch 10.
55