CFAM Linjär regression

Download Report

Transcript CFAM Linjär regression

Linjär Regressionsanalys
Centrum för allmänmedicin
Henrik Källberg
[email protected]
www.henrikkallberg.com/undervisning
Linear regression(Dag 1)
Upplägg Dag 1
• Kort repetition
- Deskriptiv statistik
- t-test
- Typ I och Typ II fel
- Problem
• Korrelation
- Kovarians
- Korrelation, (Pearson,
Spearman)
• ANOVA (Analysis of
Variance)
- Motivation
- Kvadratsummor
- Antaganden
Henrik Källberg, 2013
Linjär Regressionsanalys(Dag 1)
• Mål
- Snabb Repetition av grundläggande statistik, t-test
- ANOVA (analysis of variance)
- Veta när ANOVA är applicerbart och veta vad
kvadratsumma är.
- Veta vilka antaganden som krävs.
- Samvariation och kovarians.
- Korrelation, kunna beräkna och tolka korrelation
- Beskriva en enkel regressionsmodell med hjälp av
graf. Och veta vad de olika komponenterna i en
modell beskriver.
Skalor och datanivåer
Datanivåer
Datanivå
Klass- Rangordning
indelning
NominalJa
Nej
Skala
OrdinalJa
Ja
Skala
IntervallJa
Ja
Skala
KvotJa
Ja
Skala
Ekvidistans
Kvoter
Nej
Nej
Nej
Nej
Ja
Nej
Ja
Ja
Beteckningar
Förklaring symboler
 Prov, Urval
- x (medelvärde)
 Population
- µ (medelvärde)
-

2
(Varians)
- 
2
(Standardavvikelse)
-
S2 (Varians)
-
S  S2
(Standardavvikelse)
Urval
x
S2
Stickprov
Population
 2
Inferens
Repetition, Konfidensintervall
Urvalsfördelning
(Skål med sifferlappar!)
  1.96
ca 2.5% av urvalen hamnar
utanför denna sidan av
gränsen (under)
Urvalsfördelning för
x
μ

x
x
x
n
x
x
x
x
x
x
  1.96
x
X

n
ca 2.5% av urvalen hamnar
utanför denna sidan av
gränsen (över)
x
ca 95% of all sample means falls within this interval
P-värde och olika fel
 P-värdet anger hur stor sannolikheten är
att vi observerar ett extremare värde
förutsatt att HO är sann.
HO
Typ II-fel (β)
Signifikansnivå (α)
P-värde
Typ I och Typ II fel
Verklighet
H0 är falsk
Beslut
Förkasta H0
Förkasta inte H0
H0 är sann
OK
Typ I fel (falskt
positiv)
Typ II fel (falskt
negativ)
OK
Uppgift! Beräkna Varians!
Summa
X
1
X-1
2
3
6
0
1
0
X 6

X
 2
n
x
x
(X - )2
1
0
1
2
s2 
3
s( std .avvikelse)  s 2 (var iance )
2
(
x

x
)

n 1
?
T-test
• Jämföra två Grupper (t.ex. behandlade (X1)
mot obehandlade (X0))
X 1  X 0  t n1  n2  2 S
2
Pool
1 1
    t 
 n1 n2 
X1  X 0
S
2
Pool
1 1
  
 n1 n2 
• Poolad varians: Variansen för de båda
grupperna vägs samman enl. formeln:
2
S Pool

(n1  1) S  (n0  1) S
n1  1  n0  1
2
1
2
0

X


1  X 1    X 0  X 0 
2
n1  n0  2
2
Hypotes T-test
• Nollhypotesen vid vanligt t-test är:
H0: X 1  X 0
• Den alternativa hypotesen är:
H 1: X 1  X 0
alt.
X1  X 0 , X1  X 0
Uppgift!
• Utför ett hypotestest med hjälp av ett t-test för att avgöra
om det är signifikant skillnad mellan två grupper (X1 är
gruppen skidåkare som tränat på hög höjd, X0 är gruppen
som ej tränat på hög höjd ) med avseende på blodvärde:
𝑺𝟐 𝑷𝒐𝒐𝒍= 120, n1=30, n0=40, X1= 165, X0 = 132
t
X1  X 0
1
2  1
  
S Pool
 n1 n2 
Svar Uppgift!
• Tolkningen blir att det är en signifikant skillnad mellan
gruppernas medelvärde. Höghöjdsträning verkar ha effekt
på blodvärdet.
t
X1  X 0
165  132
33


 3.94
120 120 8,37
1
2  1

S Pool   
30 40
 n1 n2 
ANOVA (motivering)
Två variabler : 1 Kategorisk, 1 Kvantitativ
Fråga: Skiljer sig medelvärdet med avseende på den
kvantitativa variabeln åt mellan grupperna (Kvalitativ
variabel)?
Om vi bara har två grupper (baserat på den kvalitativa
variabeln):
- t-test
ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer
sig höghöjdsträning, träning och ej träning åt (tre grupper)?
ANOVA II (Hypotes)
Anta att vi har K stycken oberoende grupper:
ANOVA testar Nollhypotesen:
H0: μ1 = μ2 = … = μK
Vilket innebär, “Grupperna har lika medelvärde”
Alternativ hypotes ges av:
H1: μi ≠ μj för någon av grupperna i,j.
(Samma sak som att grupperna har olika medelvärde)
ANOVA III visuell
• ANOVA utgår från
“overall”
medelvärdet och X
testar de olika
grupperna utifrån
detta värde.
13
12
11
days
10
• Om det
kombinerade
avståndet skiljer sig
från overall
medelvärdet så
förkastas H0.
9
X
8
7
6
5
A
B
treatment
P
ANOVA formler
För att kombinera avståndet från “overall mean”
– Kvadrera skillnaden
– Multiplicera med antalet individer I gruppen
– Summera alla grupper


2


2

SSB  40 X A  X  35 X B  X  20 X P  X

2
X * Betecknar medel i respektive grupp (A,B och P)
“SSB” = Sum of Squares Between groups
ANOVA fortsättning
• SSB (sum of square between) måste relateras till någon
annan ”Sum of Square”
• Mean square Error (MSE), talar om hur stor den
kombinerade variationen är, med hänsyn till respektive
grupp
MSE 
1
2


x

X
 ij j
N K j i
• N är antalet individer, K är antalet grupper och xij är den ith
observationen i den jth gruppen
ANOVA (MSE)
N är antalet individer, K
är antalet grupper och
xij är den ith
observationen i den jth
gruppen, xj är medel i
respektive grupp
0.4
0.3
0.2
Samma grupper som
innan men nu visas
individuella värden,
0.1
1
2


x

X
 ij j
N K j i
Implant Height Error (mm)
MSE 
0.5
Implant Height Error by Guide Width
A
4mm
6mm
B
Guide Width
Treatment
P
8mm
ANOVA beräkningar
• Ide! Jämföra ”medel” Variation ”mellan” (MSB) mot
”medel” Variation inom (MSE).
SSB ( K  1)
F

MSE
 ( X  X ) /( K  1)
1

x X 

N K
J
2
ij
j
j
i
• Detta F-värde följer F-fördelningen med K-1 och N-K
frihetsgrader (N är totalt antal observationer, K är antalet
grupper)
ANOVA Summering
SST   ( xij  x)  s ( DFT )
2
1. Lägg märke till
att den totala
variansen (SST) är
summan av SSB
och SSE.
2
obs
SSE   ( xij  xi ) 
2
obs
i
(df i )
2. Lägg märke till
att SSE är kopplat
till variansen
grupper
SSB   ( xi  x) 
2
obs
s
2
 n ( x  x)
i
grupper
i
2
3. ANOVA för
endast två
grupper = t-test
SS
MSB
SSE SSB  SST ; MS 
; F
DF
MSE
ANOVA Tabell, uppgift
I de flesta statistikprogram presenteras en ANOVA tabell
mellan
Grupper
Inom
Grupper
Totalt
Sum of
Squares
df
Mean
Square
F
Sig.
.01
2
.05
5
.0105
.5
50
.01
.51
52
Frågor!: Var finns följande värden I tabellen?
Sum of Squares
Between (SSB)
Mean Square
Error (MSE)
F Statistic
p value
ANOVA antaganden!!
– Naturligtvis så krävs ett antal antaganden för att
beräkningarna skall vara valida! Dessa är:
* Att individerna i respektive grupp är oberoende
slumpmässigt utvalda.
* Varje grupp är ungefär normalfördelad med avseende
på testvariabeln. (Kollas enklast via histogram eller dylikt)
* Standardavvikelsen (std) är ungefär lika stor för de olika
grupperna. Tumregel: Kvoten mellan högsta och lägsta
skall vara mindre än 2.
Kovarians (cov)
Kovarians är ett mått på samvariation mellan två stokastiska variabler
Obs! cov(x,x)=var(x)
Kovarians
• Kovariansen kan tolkas på följande sätt:
1. cov(x,y) > 0 innebär att x och y är positivt korrelerade
2. cov(x,y) = 0 innebär att x och y är okorrelerade
(oberoende)
3. cov(x,y) < 0 innebär att de är omvänt korrelerade
(negativt korrelerade)
Korrelationskoefficienten r
(pearson, kontinuerliga var.)
• Fråga! Finns det något linjärt samband mellan längd och
vikt?
• Genom att använda varians (var) och kovarians (cov) så
kan vi skatta korrelationskoefficienten (r).
𝒓=
𝒄𝒐𝒗(𝒙, 𝒚)
𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)
• Korrelationskoefficienten, r (Pearson):
– Har ingen enhet.
– Är ett mått på hur starkt linjärt förhållande det är mellan två variabler
– Kan anta värden mellan -1 och 1.
– r = 0 innebär att det inte finns något linjärt samband mellan variablerna
– r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna
– r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.
Korrelationskoefficient (r)
Y
Y
r = -1
Y
r = -.6
X
r=0
X
r=0
r = +1
X
X
r = +.3
Spearmans rangkorrelation
(Kontinuerliga, diskreta och ordinal var.)
• Fråga! Finns det något samband mellan betyg (x)
och IQ (y)?
n = antal, di = differens i rangordning
mellan variablerna
6 ∗ 𝑑2
𝑟 =1−
Betyg (x)
𝑖
𝑛(𝑛2 − 1)
IQ (y)
Rang x
Rang y
𝒅𝟐𝒊
di
(rang x-rang y)
1
86
1
1
0
0
2
92
2
2
0
0
4
100
3,5 = (3+4)/2 3
0,5
0,25
4
115
3,5
4
-0,5
0,25
5
120
5
5
0
0
Uppgift! Beräkna r (Spearman)
6 ∗ 𝑑𝑖2
𝑟 =1−
𝑛(𝑛2 − 1)
Betyg (x)
IQ (y)
Rang x
Rang y
Svar : r = 1-6*0,5/5*(25-1)
= 0,975
𝒅𝟐𝒊
di
(rang x-rang y)
1
86
1
1
0
0
2
92
2
2
0
0
4
100
3,5 = (3+4)/2 3
0,5
0,25
4
115
3,5
4
-0,5
0,25
5
120
5
5
0
0
Signifikanstest r.
• Två sätt:
1. t-test: 𝒕 = 𝒓
𝒏−𝟐
𝟏−𝒓𝟐
t >,< tn-1,95%
2. Fischer information: 𝑭 𝒓 =
𝒛=
𝒏−𝟑
𝟏,𝟎𝟔
∗ 𝑭(𝒓)
𝟏
𝟏+𝒓
𝒍𝒏
,
𝟐
𝟏−𝒓
z >,< 1,96
Korrelationskoefficient (r)
• r kan vara:
–
–
–
–
Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01)
Hög men inte signifikant t.ex r = 0.9 (p=0.5)
Låg och ej signifikant t.ex. r = 0.1 (p=0.5)
Hög och signifikant t.ex. r = 0.9 (p<0.01)
Sammanfattning dag 1
• Repetition (t-test, p-värde etc.)
• ANOVA (Flera grupper,
Kvadratsummor (SS))
• Kovarians
• Korrelation (r (Pearson, Spearman))
Linear regression(Dag 2)
Upplägg Dag 2
• Kort repetition Dag 1
- ANOVA
- Kovarians
- Korrelation
• Enkel Linjär regression
– Regressionskoefficienten
– Test av lutning
– Kategorivariabler
• Enkel Linjär regression
- Räta linjens ekvation
- Prediktion
- Antaganden
Henrik Källberg, 2013
Repetition Dag 1 (ANOVA)
Sum of Squares
Between
groups
Within
groups
Totalt
𝑆𝑆𝐵 =
𝑛𝑖 (𝑦𝑖 − 𝑦.. )2
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐵
𝑆𝑆𝑇 =
(𝑦𝑖 − 𝑦.. )2
df
b-1
N-b
N-1
Mean Square
F
𝑆𝑆𝐵
𝑀𝑆𝐵 =
𝑏−1
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑁−𝑏
𝑀𝑆𝐵
𝐹=
𝑀𝑆𝐸
Sig.
Repetition Dag 1 (Kovarians, r)
𝒓=
Par
X
Y
1
1
3
2
3
5
3
6
7
4
8
10
Total
18
25
𝒄𝒐𝒗(𝒙, 𝒚)
𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)
Uppgift!! Beräkna
kovarians, och
korrelation
Svar repetitionsuppgift
•
•
•
•
Cov = 9.167
Var(x) = 9.67
Var(y) = 8.917
R = 0.987 = (9.167/rot(9.67)*rot(8.917)
Dag 2 Regressionsanalys
• Mål Dag 2
–
–
–
–
–
Känna till räta linjens ekvation.
Veta vad oberoende och beroende variabel är.
Veta vad lutningskoefficient och intercept är.
Utföra lämpligt test för regressionskoefficient.
Veta vilka antaganden som regressionsmodellen
bygger på.
– Tolka en regressionsanalys.
Dag 2 Regressionsanalys
• I regressionanalys pratar man om Beroende (y) och
Oberoende (x) variabler. Detta innebär att målet
med regressionsanalys ofta är att predicera ett
värde på Y med hjälp av en annan variabel X.
• I korrelationsanalys finns ingen värdering i vad som
är oberoende respektive beroende.
Dag 2 Regressionsanalys
(räta linjens ekvation)
Y=kX+B
Y
k
x
B
Dag 2 Regressionsanalys
(räta linjens ekvation, lutning)
•
Vad Innebär k i en linjär ekvationsmodell?
- Svarar mot lutningen
- Hur mycket Y ökar då X ökar.
- T.ex. för varje ökning av X ökar Y med 2
Y=kX+B
k
Dag 2 Regressionsanalys
(Prediktion)
• Mål:
– Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X.
– Jämför med betingade sannolikheter, P(Y|X).
– Jämför med denna ekvation:
E ( yi / xi )    xi
– Här är 𝛼 det samma som B och β det samma som k i föregående slides.
– Med ett normalfördelat fel i ekvationen:
E ( yi / xi )    xi   i
Fixerade effekter, passar
den räta linjen
Slumpmässigt fel som följer
normalfördelning (N(0,1))
Dag 2 Regressionsanalys
(4 Antaganden)
• Förhållandet mellan X och Y är linjärt.
• Y är normalfördelat för varje punkt vid X.
• Variansen för Y är samma för varje punkt X.
• Observationerna är oberoende.
Dag 2 Regressionsanalys
(Sum of squares)
yi
yˆ i  xi  
C
A
B
y
B
A
y
C
yi
x
n
(y
i
i 1
 y)
2

n
 ( yˆ
i 1
i
 y)
2

n
 ( yˆ
i
 yi ) 2
i 1
R2=SSreg/SStotal
A2
B2
C2
SStotal
Total variation
SSreg
SSresidual
Avstånd mellan regressionslinjen och medel
värdet på y
Varians omkring regressions linjen
Dag 2 Regressionsanalys
(Uppgift !)
• Jämför kvadratsummorna som används för att
skatta regressionskoeffcienterna med
Kvadratsummorna i ANOVA!
• SStotal =?, SSREG =?, SSRESIDUAL=?
• SSB=?,SST=?,SSE=?
Dag 2 Regressionsanalys
(Prediktion II)
Y = max HR
X = Ålder
Y = 196 – 0.9*Ålder
Dag 2 Regressionsanalys
(Prediktion II, Uppgift!)
Beräkna DIN maximala Hjärtfrekvens
med hjälp av formeln:
Max_HR = 196 – 0.9*Ålder (i år räknat)
Dag 2 Regressionsanalys
(Koefficient och intercept)
Regressionskoefficienten skattas genom Minsta
kvadratmetoden. Följande uttryck erhålls:
Cov
(
x
,
y
)
ˆ
Lutningen:

Var ( x)
Interceptet
fås genom:
Calculate
:ˆ  y - ˆx
(regressionslinjen går
alltid genom 𝑥 och 𝑦)
Dag 2 Regressionsanalys
(Koefficient, intercept uppgift)
• Beräkna β och 𝜶 samt skriv upp
regressionsmodellen !
• Cov(y,x) = 20, var(x)=5, 𝒚 = 𝟑𝟓, 𝒙 = 𝟐𝟐
Dag 2 Regressionsanalys *
(Koefficient-Korrelation)
Korrelations koefficienten (r)
har ett samband med
regressionskoefficienten (β).
Observera att i regression så
finns beroende (y) och
oberoende variabler (x)
SDx
ˆ
rˆ  
SDy
Dag 2 Regressionsanalys
(Koefficient, signifikans)
• För att avgöra om lutningen (β) är skild från 0, så
bör man testa detta.
• Fördelningen för “lutningen” β~ Tn-2(β,s.e.(𝜷))
• Hypotesen blir följande:
H0: β1 = 0
H1: β1  0
Tn-2=
ˆ  0
s.e.( ˆ )
Dag 2 Regressionsanalys *
(Koefficient, Standardavvik.)
Standardavvikelse för β
n
2
ˆ
(
y

y
)
 i i
i 1
sˆ 
n2
SS x

sy / x
2
SS x
Dag 2 Regressionsanalys
(Koefficient, signifikans, uppg.)
Dag 2 Regressionsanalys
(Dataexempel)
Individ
Height
Weight
1
142
34
2
160
75
3
150
62
4
155
45
5
158
52
6
170
73
7
161
62
Dag 2 Regressionsanalys
(Koefficient, signifikans, uppg.)
Uppgift!
1. Skriv upp regressionsmodellen
2. Avgör med lämpligt test om lutningen är skild från 0.
Dag 2 Regressionsanalys
(Koefficient, signifikans, Svar)
Dag 2 Regressionsanalys
(Dataexempel)
Individ
Grupp (1=behand) LDL
1
1
4.3
2
1
2.7
3
1
5.0
4
0
7.8
5
0
6.4
6
0
5.6
7
0
6.0
Dag 2 Regressionsanalys
(Dikotom variabel)
T37 
4.27  6.97  2.7
S12

S 22
 8.2; p  .0001
n1  1 n2  1
En regressionsmodell med en
dikotom variabel (y = x*β + ε)
med β= - 2.7 är det samma som
ett t-test för differensen mellqn
gruppernas medelvärde.
Sammanfattning Dag 2
(Regressionsanalys)
• Räta linjens ekvation (Y=kx + m)
• Prediktion ( E ( yi
/ xi )    xi   i )
• Antaganden (Linjärt, NIID)
• Koefficient och intercept
-test av koefficient, Intercept
• Olika variabeltyper (Dikotom och Kontinuerlig)
Dag 3 Regressionsanalys
(Flera variabler)
Upplägg Dag 3
• Kort repetition, Frågor
• Flera variabler
• Confounding
• Interaktion
• Faror med multivariabla
modeller (ev. Välja ”bästa”
modellen)
• ”Ytterliggare modeller”
Dag 3 Regressionsanalys (Mål)
• Mål Dag 3
- Veta hur man infogar fler variabler i en
-
regressionsmodell.
Förstå hur man kontrollerar för Confounding
Interaktion mellan variabler
Veta om faror med multivariata modeller
(ev. Undersöka vilken modell som är ”bäst”)
Veta om att det finns ytterligare regressionsmodeller
Dag 3 Regressionsanalys
(Repetition dag 2)
• Skriv upp den generella regressionsekvationen.
• Ange vilka fyra huvudsakliga antaganden som
vi förutsätter vid linjär regressionsanalys.
• Avgör om koefficienten (β=0.5, SD=0.3) är skiljd
från noll.
Dag 3 Regressionsanalys
(Flera variabler)
• Linjära regressionsmodeller har fördelen
att man kan infoga flera variabler i
samma modell. T.ex.
E ( yi / x1 , x2 ,...)    x1  x2  ...   i
• Bra för att kunna:
– Kontrollera för confounders.
– Hantera interaktion mellan variabler
(effektmodifiering)
– Förbättra prediktionsförmågan.
Dag 3 Regressionsanalys
(Flera variabler II)
• Det finns olika sätt att inkludera ytterligare
variabler:
1. Andra oberoende variabler t.ex:
E ( yi / x1 , x2 ,...)    x1  x2  ...   i
2. Polynom (om ”kurva”):
E ( yi / x1 , x12 ,...)    x1  x12  ...   i
(lätt att skapa overfitting!)
Dag 3 Regressionsanalys
(Confounding)
Confounding,
Confounding, exempel
BMI
Y, Blodtryck
Dag 3 Regressionsanalys
(Confounding, kokbok)
• En confounder (C) är associerad med beroende
(Y) och oberoende (X) variabler (den korrekta
metoden!, ofta skippas steg 3 och 4).
Justerat !
• 1.Kontrollera om Y är associerad med X.
𝑬 𝒀 𝑿 = 𝒂𝟎 + 𝜷𝒙 ∗ 𝑿 + 𝛜
• 2. Kontrollera om Y är associerad med X givet C.
𝑬 𝒀 𝑿, 𝑪 = 𝒂𝟎,𝒙,𝒄 + 𝜷𝒙,𝑪 ∗ 𝑿 + 𝜷𝒄,𝑿 ∗ 𝐂 + 𝛜
• 3. Kontrollera om C är associerad med Y.
𝑬 𝒀 𝑪 = 𝒂𝟎,𝒄 + 𝜷𝒄 ∗ 𝐂 + 𝛜
• 4. Kontrollera om C är associerad med X.
𝑬(𝑪|𝑿) = 𝒂𝟎,𝒙 + 𝜷𝑪,𝑿 ∗ 𝐗 + 𝛜
Dag 3 Regressionsanalys
(Confounding, Uppgift)
Dag 3 Regressionsanalys
(Confounding, Uppgift)
1. Vilken av behandlingarna är förenlig med
confounding?
2. Hur många confounders användes?
3. Är koefficienterna ”signifikanta”?
Dag 3 Regressionsanalys
(Interaktion)
• Interaktion innebär att effekten av en oberoende
variabel beror av en annan oberoende variabel.
• I artikeln skulle interaktion innebära att
kroppssammansättningen skulle bero på genetisk variation
(FTO) och Syreupptagningsförmåga. Det vill säga: Man har en
extra effekt av syreupptagningsförmågan om man har en
särskild genetisk variation.
Dag 3 Regressionsanalys
(Interaktion)
Fasting
Insulin (Y)
𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺 +
+𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼 + 𝜖
PPARG och BMI i
modellen är så kallade
main effects.
𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼 + 𝜖
Två olika modeller en med genetisk faktor
och en utan.
Dag 3 Regressionsanalys
(Interaktion)
𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺 +
+𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼 + 𝑃𝑃𝐴𝑅𝐺
× 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 + 𝜖
Fasting
Insulin (Y)
𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼 + 𝜖
Här är lutningen större än
i föregående diagram.
𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼
Är interaktionseffekten.
Dag 3 Regressionsanalys
(Interaktion)
• Interaktion innebär att en signifikant produkt
term existerar.
• Testa om interaktionstermen är skild från noll.
• Om det finns stark interaktion så är
confounding justering onödigt
Stratifiera!
Dag 3 Regressionsanalys
(Interaktion, uppgift)
Main effects:
FTO (”AA”): 3 (sd=0.9)
VO2Max: -0.2 (sd=0.05)
Interaction effects:
FTO*VO2Max: -0.1
(sd=0.07)
1. Skriv ut en modell för
main effects + en
modell med main
effects och interaction
effects.
2. Avgör vilka koeff.
Som är signifikanta.
Dag 3 Regressionsanalys
(Faror med multip. regression)
Multi-collinearity
 Residual confounding
 Overfitting

Dag 3 Regressionsanalys
(Faror, Multi-colinearity)
• Kolinearitet innebär att två oberoende variabler
”mäter samma sak”. Det finns en stark korrelation
mellan dem Tex. Vikt och BMI.
• Man bör endast inkludera en av dessa variabler i
modellen.
Dag 3 Regressionsanalys
(Faror, Residual confounding)
• Residual confounding:
• Är ”kvarstående” confounding trots att man
kontrollerar för confounders. Här följer tre
varianter:
1. Ytterligare confounders som det ej finns
information om (unmeasured confounding)
2. För grov indelning av confoundern som används
I analysen. T.ex. Variabel ung-gammal används
istället för ålder mätt I antal år.
3. Felklassificering av individer för confoundern I
fråga.
Dag 3 Regressionsanalys
(Faror, Overfitting)
• Overfitting = Modellen kan passa data
”perfekt” på grund av att man har för
många variabler i modellen.
• Tyvärr är modellen troligtvis värdelös ur
prediktionssynpunkt eftersom modellen är
starkt kopplad till data som används.
Dag 3 Regressionsanalys
(Faror, Overfitting)
Optimism modellerat för några faktorer, 5
oberoende faktorer i samma modell.
Variable
Parameter
Estimate
Standard
Error
Intercept
Motion
sömn
obama
Clinton
MatteKär
11.023
-0.29106
-1.91592
1.73993
-0.83128
0.45653
2.98341
0.09798
0.39494
0.24352
0.17066
0.10668
Type II SS
F Value
Pr > F
11.96067
6.74569
17.98818
39.01944
18.13489
13.99925
15.65
8.83
23.53
51.05
23.73
18.32
0.0019
0.0117
0.0004
<.0001
0.0004
0.0011
Univariat analys av motion:
Variable
Parameter
Estimate
Intercept
Motion
6.65189
0.19161
Standard
Error
0.89153
0.20709
T-värde
7.46
0.93
Pr > F
<.0001
0.3658
Dag 3 Regressionsanalys
(Faror, Overfitting)
Tumregel: Minst
10 individer per
ytterligare
infogad variabel i
en mult. Reg.
modell
“Brus”variabler orsakar bra R2 värden om modellen är
“overfitted”
(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction
to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)
Dag 3 Regressionsanalys
(Faror, uppgift)
• Diskutera med grannen och ge potentiella
exempel på:
1. Residual confounding
2. Overfitting
3. Kolinearitet.
Dag 3 Regressionsanalys
(Välja modell)
• Genom att undersöka om variabeln tillför ett
signifikant tillskott av SS(Dag 1).
• Stepwise
– Forward (utöka modellen med ytterligare variabler)
– Backward (minska modellen med en variabel i taget)
Dag 3 Regressionsanalys
(Välja modell)
Källa: www.Wikipedia.org
Dag 3 Regressionsanalys
(Ytterligare modeller)
Är observationerna oberoende eller
korrelerade?
Utfallsvariabel
Oberoende
Korrelerade
Antagande
Kontinuerlig
T-test
ANOVA
Linjär correlation
Linjär regression
Parat ttest
Repeated-measures ANOVA
Mixed models/GEE modeling
Utfallsvariablen är
norm.fördel.
Linjärt förhållande
mellan utfall och
oberoende variabel.
(sjuk, ordinalskala)
Difference in proportions
Relativa risker
Chi-2 test
Logistisk regression
McNemar’s test
betingad logistic regression
GEE modeling
Chi-2 test antar minst
antal I varje cell (>=5)
Tid till händelse
Kaplan-Meier
Cox regression
n/a
Prop.hazard
assumption
(VAS, längd, konc,
etc.)
Binär, kategori
(tid till sjukdom)
Dag 3 Regressionsanalys
(Sammanfattning)
•
•
•
•
Mulivariabel regression
Confounding
Interaktion
Faror
– Kolinearitet
– Residual confounding
– Overfitting
• Modellval.
• Ytterligare modeller
Dag 4 Regressionsanalys
(Diagnostik, Upplägg)
Hur bra stämmer våra antaganden?
• Kort repetition, Frågor
• (Multi) kolinearitet
• Residualer
- Linearitet
- Homoscedasitet
- Oberoende
• Outliers
Dag 4 Regressionsanalys
(Diagnostik, Mål)
• Mål Dag 2
– Känna till olika diagnostiker för att utvärdera
regressionsmodeller.
– Förstå vad en residual är.
– Veta hur residualmönster ser ut vid ”icke”,-linearitet, homoscedasitet, -oberoende.
– Känna till mått för kolinearitet mellan oberoende
variabler.
– Känna till situationer när outliers är ett problem.
– Känna till mått för att skatta outliers betydelse
Dag 4 Regressionsanalys
(Repetition)
• Multipel regressionsmodell:
E ( yi / x1 , x2 ,...)    x1  x2  ...   i
• Confounding
• Interaktion
• Faror
– Kolinearitet
– Residual confounding
– Overfitting
Dag 4 Regressionsanalys
(Repetition, uppgift!!)
• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och
aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:
1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).
2. BMI och vikt, fys samt interaktion mellan vikt och fys.
Dag 4 Regressionsanalys
(Multiple Regression, repetition antaganden)
• Förhållandet mellan X och Y är linjärt.
• Y är normalfördelat för varje punkt vid X.
• Variansen för Y är samma för varje punkt X.
• Observationerna är oberoende.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Kolinearitet innebär att två variabler mäter ”samma”
sak.
• Kolinearitet mellan två variabler kan medföra:
-
Instabila estimat!
- Falskt för stora standardfel, Nollhypotesen förkastas
inte.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Två mått på kolinearitet är:
1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅𝐽2 , Där 𝑅𝐽2 är korrelation mellan de båda variablerna, ett
värde under 0.2 indikerar kolinearitet.
2. 𝑉𝐼𝐹 =
1
,
1 − 𝑅𝐽2
kolinearitet.
VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar
Dag 4 Regressionsanalys
((multi)Kolinearitet, uppgift!!)
Estimate
(Intercept) 2.33e-15
x
3.67e-01
bm
1.00e+00
Std. Error
5.911e-16
2.803e-16
3.228e-16
t value
4.032e+00
1.308e+15
3.098e+15
Pr(>|t|)
0.000865 ***
< 2e-16 ***
< 2e-16 ***
Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm
(OBS!!! bm = x/1.2 + e, e = n(0,1))
Korrelation (r) mellan X och bm = 0.98
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.036
0.43158 -0.084 0.934
X
1.22158 0.03603 33.907 <2e-16 ***
Uppgift!
1. Avgör med
lämpligt mått
om det
föreligger
problem med
kolinearitet!
2. Skriv upp den
mest sannolika
regressionsmodellen
Dag 4 Regressionsanalys
(Residualer)
Residual:
Kom ihåg
ei  Yi  Yˆi
Yˆi      X
Residualer är skillnaden mellan
observerat värde (𝒀𝒊 ) och förväntat
värde (𝒀𝒊 ).
Dag 4 Regressionsanalys
(Residualer, uppgift)
• Beräkna residualen för x = 20 med
regressionsmodellen y = 100 + 0.5*X.
• Observerat Y-värde är 115.5
ei  Yi  Yˆi
Dag 4 Regressionsanalys
(Residualer)
• Residualer är användbara för att undersöka följande
antaganden (m.h.a. plottar):
• Linearitet
• Homoscedasitet (variansen är lika för respektive
punkt)
• Oberoende
Dag 4 Regressionsanalys
(Residualer, plottar)
• Genom att plotta residualerna på y-axeln mot
obeorende variabel(ler) på x-axeln kan ev.
mönster synliggöras.
Dag 4 Regressionsanalys
(Residualer, plottar (linearitet))
Y
Y
x
x
ej Linjär
residualer
residualer
x
x

Linjär
Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

Dag 4 Regressionsanalys
(Residualer, plottar, (Homoscedasitet))
Y
Y
x
x
icke-konstant varians
residualer
residualer
x
x

Konstant varians
Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

Dag 4 Regressionsanalys
(Residualer, plottar, (Oberoende))
Icke oberoende

X
oberoende
residuals
residuals
X
residuals

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall
X
Dag 4 Regressionsanalys
(Residualer, plottar, uppgift!!)
Uppgift!
Försök att avgöra
med hjälp av graferna
till vänster om det:
1. är ett linjärt
förhållande mellan
y och x.
2. om det är samma
varians.
3. om y-värden är
oberoende av
varandra
Dag 4 Regressionsanalys
(Outliers)
Även om antaganden håller kan modellen vara
“dålig”
T.ex. Outliers-extremvärden
Formellt: “inflytelserika individer”
Outliers kan bero på:
• Datainmatningsfel
• Extrema individer
• Representera riktig variation
Några få outliers kan påverka “lutningen” mycket,
Särskilt om “sampel size” är liten.
Dag 4 Regressionsanalys
(Outliers)
Outlier
Blå linje (med outlier):
Y = -3.79 + 1.73*X
svart linje (utan outlier):
Y = -0.036 + 1.22*X
Dag 4 Regressionsanalys
(Outliers, uppgift!)
• Var går gränsen för en ”inflytelserik” outlier?
- Om en standardiserad (medel=0, sd=1) outlier är större
än 3 eller minder än -3.
- Om cooks distance är större än 1.
𝑫𝒊 =
antal variabler.
𝒏
𝟐
𝒋=𝟏(𝒚𝒋 −𝒚𝒋 𝒊 )
𝒑×𝑴𝑺𝑬
, yj = modell med outlier, yj(i) =modell utan outlier, p =
• Uppgift!
– Avgör om ”outliern” har någon betydelse för regression modellen om de
standarddiserade residualerna har följande fördelning.
Min
1Q
Median 3Q Max
-6.280 -4.787 -0.565 1.352 32.393
Cooks Distance: Min.
1st Qu.
Median
Mean
3rd Qu.
Max.
0.0000335 0.0013600 0.0061360 0.1078000 0.0171100 2.0250000
– Vad står MSE för i formeln ovanför?
Dag 4 Regressionsanalys
(Sammanfattning)
• (Multi) kolinearitet
– Tolerance, VIF
• Residualer ei  Yi  Yˆi
- Linearitet (Plottar)
- Homoscedasitet (Varians)
- Oberoende
• Outliers
– Std. Residualer
– Cooks distance
𝑫𝒊 =
𝒏
𝟐
𝒋=𝟏(𝒚𝒋 −𝒚𝒋 𝒊 )
𝒑×𝑴𝑺𝑬
Dag 4 Regressionsanalys
(Regressionskokbok)
1. Börja med en modell som passar a’priori kunskap.
2. Plotta beroende och oberoende variabel.
3. Kör regressionsmodellen i 1.
4. Kolla hur bra modellen passar data (plotta regressionslinje + punkter)
- Kolla residualer efter mönster (Kolinearitet, homoscedasitet,
oberoende).
- Kolla om outlier(s) finns. Ev. kontrollera hur inflytelserika de är.
5. Inkludera om nödvändigt confounding och/eller interaktion.
6. Kör om från steg 3. tills en modell med bra förklarad varians och så få
variabler som möjligt (Occams razor).