Transcript luento7_kalvot
Kvantitatiiviset tutkimusmenetelmät
Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen
Binäärinen logistinen regressio
Logistinen regressioanalyysi
selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia) ryhmät a priori 2 ryhmää -> binary (dichotomous) logistic 3 k ryhmää -> ordinal response tai multinomial (polytomous) logistic Hosmer & Lemeshow (2000)
Applied Logistic Regression
, 2nd ed. New York: Wiley http://www2.chass.ncsu.edu/garson/pa765/logistic.htm
http://support.sas.com/documentation/cdl/en/statug/63033/ HTML/default/viewer.htm#logistic_toc.htm
4
Sovelluksia
asiakkuuden ja ei asiakkuuden selittäminen mikä erottaa kannattavia ja ei-kannattavia yrityksiä miksi toinen tuote menestyy ja toinen ei mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin 5
Vaiheet
tavoitteet Mitkä selittäjät vaikuttavat merkitsevästi Vaikutusten suunta ja suuruus luokittelu ryhmiin, ennustaminen suunnittelu selittäjien valinta riittävä otoskoko analyysi- ja validointiotokset edellytykset Muuttujien mittaustaso ja datan riittävyys OLS edellytyksiä ei ole 6
Vaiheet
mallin estimointi enter tai stepwise, maximum likelihood ennustetarkkuuden arviointi mallin merkitsevyys selityskerroin Onnistumisprosentti luokittelussa tulkinta Kertoimet ja odds ratio validointi split sample 7
Muuttujien valinta
selitettävä aidosti luokiteltu tai jatkuvasta tehty dikotominen eli binäärinen (tai 3-4 ryhmää) voidaan myös verrata vain ääriryhmiä Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen) selittäjät Jatkuvia tai luokiteltuja Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee sen itse 8
Otoksen riittävyys
min 10 (miel. 20) havaintoa per selittäjä Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän kuin selittäjiä Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia analyysiotos 50-75% ja holdout 25-50% ositettu otanta jotta ryhmäkoot säilyvät edustavina 9
Estimointi
vaihtoehtona diskriminanttianalyysi , mutta sillä on tiukemmat taustaedellytykset Maximum likelihood menetelmä muistuttaa tavallista regressiota Testit Epälineaarisia ja kategorisia saadaan mukaan Diagnostiikkaa Ennustaa tapahtuman todennäköisyyden p ja oddsin eli vedonlyöntisuhteen Odds = p/(1-p) eli p= odds/(1+odds) 10
Lineaarinen vs. logistinen
Y i
b
0
b i x i
p i
1 1
e
(
b
0
b i x i
) 11
Logistinen malli
todennäköi syys
p i
1 1
e
(
b
0
b i x i
)
e
1 (
b
0
e
b i x i
(
b
0 )
b i x i
)
odds
1
odds odds
1
p i
p i
e b
0
b i x i
e
logit
logit
ln 1
p i
p i
b
0
b i x i
12
Esimerkki: logit= -6+.39x
x 0 3 6 10 13 14 15 16 17 20 24 30 logit -6.00
-4.83
-3.66
-2.10
-.93
-.54
-.15
.24
.63
1.80
3.36
5.70
odds .00
.01
.03
.12
.39
.58
.86
1.27
1.88
6.05
28.79
298.87
P .00
.01
.03
.11
.28
.37
.46
.56
.65
.86
.97
1.00
13
Esimerkki: logit= -6+.39x
8 6 4 2 0 -2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 17 18 19 20 21 22 23 24 25 26 27 28 29 -4 -6 -8 logit -6+.39x
p odds/1+odds 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 14
Estimointi
OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi 15
Parametriestimaatit
tulkinta eroaa OLS-regressiosta: positiivinen b lisää tapahtuman todennäköisyyttä ja negatiivinen b vähentää, mutta yhteys on lineaarinen vain logitin kanssa, ei oddsin eikä todennäköisyyden!!
Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä niin odds a-kertaistuu Kun x kasvaa kahdella niin odds a 2 -kertaistuu ”Standardoituja” kertoimia ei saa muuten kuin standardoimalla selittäjät ennen estimointia 16
Keskivirheet ja merkitsevyys
Kertoimen b luottamusväli LCL=b - z*SE b UCL=b + z*SE b Odds ration luottamusväli e LCL …e UCL kertoimen b merkitsevyyden testaus Wald = b 2 / SE 2 b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin kerroin on merkitsevä 17
Mallin hyvyys
Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance) Vertailupohjana perusmalli (base model, null model ), jossa selittäjänä vain vakio Deviance-mittarina -2log likelihood ( –2LL) -> minimiarvo on nolla ja pienet arvot hyviä pseudo R 2 , selityskertoimet ei kerro montako % y:n vaihtelusta selittyy x:ien avulla Yleensä matalampia kuin OLS-mallin R 2 Yksinkertaisin versio R 2 =(D null – D k ) / D null Cox&Snell maksimi alle 1 Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1 18
Mallin merkitsevyys
OLS F-testin asemesta likelihood ratio chi square Chi square= D null – D k H0:malli yhtä huono kuin nollamalli; df=k Jos sig<.05 niin malli on merkitsevä Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva datan kanssa!) 19
Residuaalit
Pearson ja Deviance- residuaalit Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen poisjättäminen parantaisi mallin sopivuutta dataan 20
Diagnostiikka
Periaatteessa samoja kuin OLS-regressiossa Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla ennustettu todennäköisyys välillä .10 … .90
DFBETA (paljonko vaikuttaa kertoimiin) Cook (paljonko vaikuttaa sopivuuteen) 21
Luokittelu
ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus luokittelumatriisi hit ratio: montako % luokiteltiin oikein 22
Luokittelumatriisi Ennustettu Oikea 0 1 Yht.
0 1 Yht. Osuus oikein 40 10 50 .20 false neg.
20 40 60 .33 false pos.
60 50 .67 specificity .80 sensitivity 110 80/110 .73 rate of correct class.
23
Luokittelu
ennustetarkkuus verrattuna sattumaan yhtäsuuret ryhmät c=1/ryhmien määrä erisuuret ryhmät maximum chance criterion c= suurimman ryhmän suhteellinen osuus proportional chance criterion c=p 2 +(1-p) 2 jos kaksi ryhmää hit ratio po. vähintään 1,25 kertaa sattumalta saatavan suuruinen 24
SAS-esimerkki
Aineistona pankin asiakkaat Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö, 0=ei maksuhäiriöitä) Selittäjinä Koulutus, aika samassa osoitteessa, aika samassa työpaikassa, tulot, velat suhteessa tuloihin Huom! SAS laskee puuttuvan arvon omaksi luokakseen, joten suodata analyysiin vain ne havainnot, joilla selitettävä muuttuja saa validin arvon 25
Puuttuvien arvojen suodatus
26
Puuttuvien arvojen suodatus
Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta
27
SAS: analyze – regression - logistic
Dummy koodaus
Kategoriset selittäjät tänne 28
Selitettävän tiedot
Tämän luokan todennäköisyyttä mallinnetaan
29
Selittäjät
Valitse kaikki muuttujat ja klikkaa Main
30
Enter vai stepwise
31
Mitä tulostetaan
32
Kuvaajat
33
Mitä tallennetaan
34
SAS- koodi
PROC LOGISTIC DATA=WORK.SORTTempTableSorted
PLOTS(ONLY)=ALL ; CLASS ed (PARAM=REF); MODEL default (Event = '1')=employ address income debtinc ed SELECTION=NONE INFLUENCE LACKFIT AGGREGATE SCALE=NONE RSQUARE CTABLE PPROB=(
0.5)
LINK=LOGIT CLPARM=BOTH CLODDS=BOTH ALPHA=
0.05
; /
RUN; QUIT;
OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT") PREDPROBS=INDIVIDUAL RESCHI=reschi_default RESDEV=resdev_default DIFCHISQ=difchisq_default DIFDEV=difdev_default UPPER=upper_default LOWER=lower_default ; Footer
Menetelmän perustiedot
Data Set Response Variable Number of Response Levels Model Model Information
WORK.SORTTEMPTABLESORT
ED default Previously defaulted 2 binary logit
Optimization Technique
Fisher's scoring
Number of Observations Read
333
Number of Observations Used
333 36
Kategoristen muuttujien koodaus
Response Profile Ordered Value default 1
0
2
1
Total Frequency
150 183
Probability modeled is default=1.
Class Level Information Class ed Value 1 2 3 4 5 Design Variables
1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 37
Mallin merkitsevyys ja sopivuus
Deviance and Pearson Goodness-of-Fit Statistics Criterio n Deviance Value DF
345.8366 324
Value/DF
1.0674
Pr > ChiSq
0.1934
Pearson
323.6928 324 0.9991
0.4944
Criterion Model Fit Statistics Intercept Only
460.360
Intercept and Covariates
363.837
AIC SC -2 Log L
464.169
458.360
398.110
345.837
Tulisi olla lähellä ykköstä ja ei-merkitsevä
Number of unique profiles: 333
R Square
0.2867
Max-rescaled R Square
Cox-Snell Nagelkerke 0.3836
38
Mallin ja selittäjien merkitsevyys
Test Testing Global Null Hypothesis: BETA=0 Likelihood Ratio Score Chi Square
112.5237
94.4558
D F
8 8
Pr > Chi Sq
<.0001
<.0001
Wald
69.2901
8 <.0001
Effect employ address income debtinc ed Type 3 Analysis of Effects DF
1 1 1 1 4
Wald Chi-Square
30.9639
10.0017
8.9239
43.8928
1.9037
Pr > ChiSq
<.0001
0.0016
0.0028
<.0001
0.7535
Mallin merkitsevyys, <.05 on merkitsevä Kunkin selittäjän merkitsevyys, <.05 on merkitsevä 39
Parametriestimaatit ja merkitsevyys
Parameter Intercept employ address income debtinc ed ed ed ed 1 2 3 4 Analysis of Maximum Likelihood Estimates DF
1 1 1 1 1 1 1 1 1
Estimate
-0.3123
-0.1987
-0.0727
0.0204
0.1395
-0.0920
0.1246
-0.1550
-0.6275
Standard Error
1.5077
0.0357
0.0230
0.00684
0.0210
1.5031
1.5089
1.5305
1.5735
Wald Chi-Square
0.0429
30.9639
10.0017
8.9239
43.8928
0.0037
0.0068
0.0103
0.1590
Pr > ChiSq
0.8359
<.0001
0.0016
0.0028
<.0001
0.9512
0.9342
0.9193
0.6900
Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4 (tosin koulutus ei merkitsevä) 40
Effect employ address income debtinc ed 1 vs 5 ed 2 vs 5 ed 3 vs 5 ed 4 vs 5 Odds Ratio Estimates Point Estimate
0.820
95% Wald Confidence Limits
0.764
0.879
0.930
1.021
1.150
0.912
1.133
0.856
0.534
0.889
1.007
1.103
0.048
0.059
0.043
0.024
0.973
1.034
1.198
17.358
21.800
17.199
11.663
Yksi vuosi lisää samassa työpaikassa pienentää maksuhäiriön oddsia 0.82 kertaiseksi Kuinka hyvin ennustettu todennäköisyys ja todellinen maksuhäiriöluokka korreloivat keskenään. D,Gamma ja tau välillä 0…1, isot hyviä
Association of Predicted Probabilities Percent and Observed Responses
81.5
Somers' Concordant D Percent Discordant
18.5
Gamma Percent Tied
0.0
Tau-a
0.629
0.629
0.312
Pairs
27450
c
0.815
41
Parametriestimaattien luottamusvälejä
Profile Likelihood Confidence Interval for Parameters Paramete r Intercept Estimat e
-0.3123
95% Confidence Limit
-3.6696
s
3.0361
employ
-0.1987
-0.2720
-0.1320
address
-0.0727
-0.1189
-0.0284
income
0.0204
0.00858
0.0350
debtinc
0.1395
0.0999
0.1826
ed 1
-0.0920
-3.4347
3.2583
ed 2
0.1246
-3.2278
3.4810
ed 3
-0.1550
-3.5412
3.2278
ed 4
-0.6275
-4.0736
2.8170
Profile Likelihood Confidence Interval for Odds Ratios Effect employ Unit
1.0000
Estimat e
0.820
95% Confidence Limit
0.762
s
0.876
address
1.0000
0.930
0.888
0.972
income
1.0000
1.021
1.009
1.036
debtinc
1.0000
1.150
1.105
1.200
ed 1 vs 5
1.0000
0.912
0.032
26.005
ed 2 vs 5
1.0000
1.133
0.040
32.491
ed 3 vs 5
1.0000
0.856
0.029
25.224
ed 4 vs 5
1.0000
0.534
0.017
16.726
42
Oddsien luottamusvälit
43
ROC käyrä: isompi alue käyrän alapuolella -> paremmin luokitteleva malli % of events correctly classified (% of defaults predicted as default)
Luokittelu ja mallin sopiuvuus
Classification Table Correct Incorrect Percentages Prob Level 0.500
Event
140
Non Event Event
94 56
Non Event Correct
43 70.3
Sensi tivity
76.5
Speci ficity
62.7
False POS
28.6
False NEG
31.4
Hosmer and Lemeshow Goodness-of-Fit Test Chi Square DF Pr > ChiS q
5.2007
8 0.7359
140/183 94/150 56/196 43/137 Testaa mallin sopivuutta, H0: malli on yhteensopiva, eli p ei saisi olla <.05 45
Havaintojen listaus I
Regression Diagnostics Covariates Case Number 1 2 3 4 5 6 7 8 9 10 Years with current employer
20.0000
12.0000
4.0000
6.0000
9.0000
12.0000
2.0000
3.0000
8.0000
8.0000
Years at current address
9.0000
Household income in thousands
67.0000
11.0000
0 38.0000
23.0000
9.0000
26.0000
8.0000
1.0000
15.0000
4.0000
1.0000
29.0000
69.0000
58.0000
37.0000
20.0000
27.0000
35.0000
Debt to income ratio (x100)
30.6000
Level of education 1
1.0000
Level of education 2
0
Level of education 3
0
Level of education 4 Pearson Residual
0 -1.3522
Deviance Residual
-1.4420
3.6000
5.2000
16.3000
6.7000
1.0000
1.0000
1.0000
0 0 0 0 1.0000
0 0 0 0 0 -0.3150
0 -0.9980
0 -1.3597
0 -0.4669
-0.4350
-1.1757
-1.4470
-0.6280
18.4000
14.2000
2.1000
14.4000
2.9000
1.0000
1.0000
1.0000
0 0 1.0000
0 0 0 0 0 1.0000
0 0 0 0 -1.3478
0 -2.4580
0 -0.4991
0 -1.1474
0 -0.6228
-1.4391
-1.9758
-0.6669
-1.2962
-0.8097
Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois 46
Havaintojen listaus II
Regression Diagnostics Case Number 1 Hat Matrix Diagona l
0.0491
4 Intercep t DfBeta employ DfBeta address DfBeta income DfBeta debtinc DfBeta ed1 DfBeta ed2 DfBeta ed3 DfBeta Confidence Interval ed4 Displacemen DfBeta t C
0.0325 -0.125 0.0429 0.0403 -0.194 -0.004 0.0007 0.0035 -0.008
0.0992
2
0.00963 -0.0012 -0.018 -0.010 0.0125 0.0214 -0.002 -0.000 -0.001 -0.001
3
0.0177 -0.0107
0.016 0.0617 -0.017 0.0486 -0.016 -0.001 -0.003 -0.002
0.0111 0.00416 0.0318 -0.026 0.0017 -0.060 -0.012 0.0027
0.003 0.0051
0.000974
0.0183
0.0210
5
0.0367 0.00346 -0.000 -0.074 -0.000 0.0281 -0.000 -0.007 0.0023 0.0028
0.00861
6
0.0226
0.0160 -0.056 0.0196 0.0057 -0.079 0.0042 -0.026 0.0021 -0.003
0.0430
7 8
0.0196 -0.0094 0.0754 0.1343 -0.016 -0.098 0.0008 0.0026 -0.066 0.0021
0.0213 -0.0041 0.0053 -0.048 0.0127 0.0421 -0.005 0.0002 -0.000 0.0012
0.1235
0.00554
9
0.0112 -0.0008 -0.023 0.0362 0.0234 -0.027 -0.011 0.0001 -0.000 -0.003
0.0151
10
0.0175 -0.0056 -0.019 0.0311 -0.000 0.0503 -0.009 -0.002 -0.003 -0.004
0.00702
Leverage Vaikutus parametriestimaatteihin Vaikutus luottamusväleihin 47
Havaintojen listaus III
Regression Diagnostics Case Number 1 2 3 4 5 6 7 8 9 10 Confidence Interval Displacement CBar
0.0944
0.000965
0.0180
0.0207
0.00830
0.0420
0.1210
0.00542
0.0149
0.00690
Delta Deviance
2.1738
0.1902
1.4003
2.1144
0.4027
2.1131
4.0248
0.4502
1.6951
0.6625
Delta Chi Square
1.9228
0.1002
1.0140
1.8694
0.2263
1.8586
6.1630
0.2545
1.3315
0.3948
Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen 48
Diagnostiikkaa
49
Diagnostiikkaa
50
Havaintojen vaikutus estimaatteihin
51
Havaintojen vaikutus estimaatteihin
52
Vaikuttavuus ja ennustettu arvo
53
Leverage
54
Diagnostiikkaa
55
Selittäjä vs. ennustettu p
56
Havaintojen listaus
age ed
39 1
emplo y
20
addres s
9
incom e
67
debtin c
30.6
creddeb othdeb t
3.8339 16.668
t defaul
0
t Filter_ _FROM _INTO
1 0 1 43 1 25 1 37 1 45 2 33 2 26 3 45 1 25 1 25 1
26 2
30 2 12 4 6 9 12 8
6
10 2 3 8 11 0 9 26 8 1 15 4 1
7
4 38 23 29 69 58 37 20 27 35
45
22 3.6
5.2
16.3
6.7
18.4
14.2
2.1
14.4
2.9
26.0
16.1
0.1286 1.2394
0.2524 0.9436
1.7159 3.0111
0.7073 3.9157
3.0842 7.5878
0.2049 5.0491
0.1050 0.3150
1.0187 2.8693
0.0771 0.9379
6.0489 5.6511
1.4097 2.1323
0 0 0 0 0 0 0 0 0
0
0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
1 0
1 0 0 1 0 0 1 1 0 1 0
1
1
IP_0
0.3535
0.9097
0.5009
0.3510
0.8210
0.3550
0.1420
0.8006
0.4316
0.7205
0.0656
0.4429
Oikea luokka Ennustettu luokka Tn että ei default 57
Havaintojen listaus
IP_1
0.6464
_LEVEL _
1 0.0902
0.4990
0.6489
0.1789
1 1 1 1 0.6449
0.8579
0.1994
0.5683
0.2794
0.9343
0.5570
1 1 1 1 1
1
1
lower_defa ult
0.42441
0.04827
0.37155
0.54539
0.07570
0.49533
0.73338
0.10850
0.46405
0.17881
0.86329
0.38667
upper_defa ult
0.81930
0.16258
0.62659
0.74018
0.36718
0.77076
0.92993
0.33760
0.66688
0.40862
0.96980
0.71498
reschi_defa ult
-1.35220
-0.31501
-0.99801
-1.35967
-0.46689
-1.34782
-2.45804
-0.49906
-1.14742
-0.62280
-3.77364
-1.12142
resdev_defa ult
-1.44203
-0.43500
-1.17572
-1.44697
-0.62801
-1.43913
-1.97580
-0.66692
-1.29622
-0.80967
-2.33407
-1.27616
difdev_defa ult
2.17381
0.19019
1.40027
2.11445
0.40269
2.11307
4.02479
0.45020
1.69511
0.66246
5.59978
1.66831
difchisq_defa ult
1.9228
0.1002
1.0140
1.8694
0.2263
1.8586
6.1630
0.2545
1.3315
0.3948
14.3923
1.2973
Tn että default Luott.väli enn. tn:lle Residuaalit Vaikutus sopivuuteen 58
RAPORTOINTI
Selitettävän muuttujan luonne ja linkkifunktio (binary, ordinal, multinomial) Mihin ryhmään kuulumista mallinnettiin, vertailuryhmä Mallin sopivuus: Chi-Square+p, Hosmer Lemeshow+p, pseudo R 2 , hit ratiot %(total, sensitivity, specificity) Estimaatit, keskivirheet, Wald ja merkitsevyys Maininta residuaali- ja vaikuttavuustarkasteluista 59
RAPORTOINTI, binary
P(international) P(not BG|international) Novice entrepreneurs No int. work exp.
No int. education Novice entr.& no int. work exp.
Novice entr. & no int. educ.
Constant Model fit B 1.300
-3.784*** .875
1.231
S.E.
.820
1.228
.771
1.544
-.932
1.223
.511
Chi square 29.0 (df=5), p.00
Nagelkerke R Square .378
.422
Correct classification rate Exp(B) 3.670
.023
2.400
3.424
.394
1.667
B .470
19.593
1.743* -39.410
19.123
S.E.
.781
28420.721
.932
33627.851
17974.842
-.134
.518
Chi square 10.6 (df=5), p.06
Nagelkerke R Square .264
Exp(B) 1.600
3.2E08
5.714
.000
2.0E08
.875
international 88.2%, domestic 59.5% , overall 76.1% BG 50%, other int. 80%, overall 70.6% 60
LINEAARISET MALLIT (VARIANSSIANALYYSIT)
Oneway ANOVA, GLM Univariate (n-way ANOVA, ANCOVA)
61
PERUSASIAT
Selitettävä muuttuja on jatkuva Selittävät muuttujat ovat kategorisia (factor, CLASS) tai jatkuvia (covariate) Onko selitettävän muuttujan keskiarvoissa eroa selittävän muuttujan ryhmien välillä Selittävien muuttujien interaktioita voidaan myös mallintaa Sopii hypoteesien testaamiseen, erityisesti käytetty kokeellisissa tutkimuksissa 62
PERUSASIAT
Factor B (koko) Level 1 (pieni) Factor B (koko) Level 2 (keskisuuri) Factor B (koko) Level 3 (suuri) Factor A (toimiala) Level 1 (teollisuus) Cell Factor A (toimiala) Level 2 (kauppa) 3 X 2 full factorial design (full: kaikissa soluissa on havaintoja) Balanced design: kaikissa soluissa yhtä paljon havaintoja 63
EDELLYTYKSIÄ
Onko kussakin ryhmässä tarpeeksi havaintoja? (miel. >20) Havaintojen riippumattomuus Varianssi-kovarianssimatriisien samanlaisuus (ei haittaa jos suurin ryhmä < 1.5*pienin ryhmä, 4* jos yhtäsuuret ryhmät) Normaalisuus Lineaarisuus Ei outlier-havaintoja 64
VARIANSSIANALYYSIN TULKINTA
Onko malli merkitsevä?
F-testi ja R square Welch, jos varianssit erisuuret (testataan Levenen tai Brown-Forsythen testillä) Minkä selittäjämuuttujien vaikutukset ovat merkitseviä? (F-testit ja partial eta squared) Mitkä ryhmät eroavat? Post hoc tai kontrastit Miten ryhmät eroavat? Estimoidut ryhmäkeskiarvot 65
Oneway ANOVA
Yksi selitettävä jatkuva muuttuja (y) ja yksi selittävä muuttuja (x), jossa min. 3 luokkaa, luokkien määrä k Edellytyksiä: selitettävä (y) normaalijakautunut ja sen varianssit eri luokissa samat H0: y:n keskiarvot samat kaikissa x:n luokissa Vaihtelu jaetaan kahteen komponenttiin: within groups (error) ja between groups (model, treatment) -> ks. TAP prujusta kaavat Testisuure on between / within ja noudattaa F-jakaumaa vapausastein k-1, n-k Jos varianssit erisuuret, niin F-testin asemesta Welch Jos F testi on merkitsevä, niin post hoc-testeillä katsotaan mitkä ryhmäparit poikkeavat toisistaan 66
Multiway ANOVA, GLM
Yksi jatkuva selitettävä, kaksi tai useampia luokiteltuja selittäjiä (factorial design) ANCOVA, jos jonkin jatkuvan selittäjän vaikutus halutaan eliminoida Päävaikutukset tai suorat vaikutukset (main effect) ja yhdysvaikutukset eli interaktiot fixed factor , jos kaikki mahdolliset ryhmät ovat mukana ja random factor, jos otoksessa edustettuna satunnaisesti havaintoja joistakin mahdollisista ryhmistä 67
ANCOVA
Mallissa mukana kovariaatti (= jatkuva selittäjä, jonka vaikutus halutaan eliminoida, esim. työkokemuksen vaikutus eliminoidaan sukupuolen ja palkan välisestä yhteydestä) Regressio kovariaatin ja selitettävän välille -> residuaalille ANOVA Kovariaatin ja selitettävän välillä oltava lineaarinen yhteys, joka on samanlainen kaikissa faktorimuuttujan ryhmissä kovariaatin ja faktoreiden välillä ei yhteyttä Kovariaatteja saa olla enintään 0.1*n – (k-1) 68
Interaktiot
Kahden faktorin yhteisvaikutus, eron suuruus yhden faktorin ryhmien välillä riippuu toisen faktorin arvosta Crossing effect = interaction effect Ordinal (keskiarvokuviossa viivat erisuuntaiset, mutta eivät leikkaa) Disordinal (keskiarvokuviossa viivat leikkaavat toisensa) 69
Ei interaktiota
kannattavuuden keskiarvot
40 30 20 10 0 pieni keskisuuri suuri teollisuus kauppa Sekä koolla että toimialalla merkitsevä suora vaikutus Ei interaktiota, homogeneity of slopes 70
Interaktiot
Ordinaalinen interaktio (koon vaikutus teollisuudessa voimakkaampi kuin kaupassa) 50 40 30 20 10 0 pieni
kannattavuuden keskiarvot
keskisuuri suuri teollisuus kauppa Dis-ordinaalinen interaktio (koon vaikutus teollisuudessa 50 40 eri suuntainen kuin 30 kaupassa) 20 10 0
kannattavuuden keskiarvo
pieni keskisuuri suuri teollisuus kauppa 71
Sisäkkäiset vaikutukset
Nested effect B(A) ”B nested within A” Koko (toimiala): koon vaikutus erikseen kullakin toimialalla Eroaa interaktiosta vain siinä että B:n (koko) suora vaikutus ei ole mallissa mukana B:n (koko) kulmakerroin vaihtelee A:n (toimiala) luokissa 72
Estimoidut ryhmäkeskiarvot
Estimated marginal means tai LS (least squares) means Mallin tuottamat ennustetut ryhmäkeskiarvot, kun muiden selittäjien vaikutus on otettu huomioon Eri kuin otoksesta laskettu tavallinen ryhmäkeskiarvo, jos selittäjillä on yhteyttä keskenään 73
Neliösummat
Tyyppi I ei kontrolloi mallissa myöhemmin tulevien selittäjien vaikutuksia Tyyppi II kontrolloi kaikkien muiden selittäjien vaikutukset Tyyppi III ja IV parhaat jos soluissa eri määrät havaintoja, IV jos on tyhjiä soluja 74
Post hoc-testit
Multiple comparison procedures, mean separation tests Ajatuksena on välttää I tyypin virhettä joka johtuu siitä kun tehdään monta yksittäistä parivertailua, joissa jokaisessa on 5% riskitaso niin hylkäämisvirheitä tulee Esim. Bonferroni, Scheffe, Sidak,… Tukey-Kramer muita voimakkaampi H0: ryhmäkeskiarvot samat -> jos hylätään niin ovat eri mutta jos jää voimaan niin ei välttämättä ole samat (voi johtua vaikka otoksen pienuudesta ettei päästä hylkäämään) 75
SAS: analyze – ANOVA – linear models
Estimoitavat vaikutukset
Interaktiovaikutus tästä, valitse ensin molemmat muuttujat, sitten Cross
Neliösummat
Muita optioita, tarpeeton
Post hoc-testit
Kuvaajat
SAS - koodi
PROC GLM DATA=kirjasto.datatiedosto
PLOTS(ONLY)=DIAGNOSTICS(UNPACK) PLOTS(ONLY)=RESIDUALS PLOTS(ONLY)=INTPLOT ; CLASS Elinkaari Perheyr; MODEL growthorient= ln_hlo Elinkaari Perheyr Elinkaari*Perheyr / SS3 SOLUTION SINGULAR=
1E-07
; LSMEANS Elinkaari Perheyr Elinkaari*Perheyr / PDIFF ADJUST=BON ;
RUN; QUIT;
Mallin merkitsevyys ja sopivuus
Class Level Information Class Elinkaari Levels Values
3 2 3 4
Perheyr
2 0 1
Number of Observations Read Number of Observations Used Source Model Error Corrected Total DF Sum of Squares
6 13.03085542
125 75.69810081
131 88.72895623
Mean Square
2.17180924
0.60558481
F Value
3.59
Pr > F
0.0026
181 132
R-Square
0.146861
Coeff Var
21.79382
Root MSE
0.778193
growthorient Mean
3.570707
Selittäjien merkitsevyydet
Source ln_hlo Elinkaari Perheyr Elinkaari*Perheyr DF Type III SS Mean Square F Value Pr > F
1 2.88693851
2 9.52176337
1 0.28960870
2 1.99071120
2.88693851
4.76088169
0.28960870
0.99535560
4.77 0.0309
7.86 0.0006
0.48 0.4905
1.64 0.1974
Parametriestimaatit
Parameter Intercept ln_hlo Elinkaari 2 Elinkaari 3 Elinkaari 4 Perheyr 0 Perheyr 1 Elinkaari*Perheyr 2 0 Elinkaari*Perheyr 2 1 Elinkaari*Perheyr 3 0 Elinkaari*Perheyr 3 1 Elinkaari*Perheyr 4 0 Elinkaari*Perheyr 4 1 Estimate
3.196306815 B 0.161079578
0.372704251 B -0.041166136 B 0.000000000 B -0.862973482 B 0.000000000 B 1.250588328 B 0.000000000 B 0.654885600 B 0.000000000 B 0.000000000 B 0.000000000 B
Standard Error
0.49826714
0.07377500
0.49030119
0.46224369
0.92404272
.
0.98491805
.
0.94241380
.
.
.
.
t Value
6.41
2.18
0.76
-0.09
-0.93
.
1.27
.
0.69
.
.
.
.
Pr > |t|
<.0001
0.0309
0.4486
0.9292
0.3522
.
0.2065
.
0.4884
.
.
.
.
Yhtälöt kullekin 6 solulle, esim.
Elinkaari=2 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.37 – 0.86 + 1.25
= 3.96
+ 0.16*ln_hlo Elinkaari=3 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo – 0.04 – 0.86 + 0.65
= 2.95
+ 0.16*ln_hlo Elinkaari=4 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.00 – 0.86 + 0.00
= 2.34
+ 0.16*ln_hlo Elinkaari=2 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.37 + 0.00 + 0.00
= = = 3.57
+ 0.16*ln_hlo Elinkaari=3 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo - 0.04 + 0.00 + 0.00
3.16
+ 0.16*ln_hlo Elinkaari=4 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.00 + 0.00 + 0.00
3.20
+ 0.16*ln_hlo 86
Parametriestimaatit
The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely estimable.
T ä m ä huomautus tulee aina kun mallissa on kategorisia selitt ä ji ä , SAS pystyy kuitenkin estimoimaan kertoimet 87
Homoskedastisuus
Havaintodiagnostiikkaa
Residuaalien jakaumat
Mallin sopivuus
Havaintojen vaikuttavuus
Residuaalin riippumattomuus
Ryhmäerojen merkitsevyys, suorat vaikutukset
Perheyr 0 1 Elinkaari 2 3 4 growthorient LSMEAN
4.14643211
3.43471035
3.14843369
LSMEAN Number
1 2 3
i/j 1 2 3 Least Squares Means for effect Elinkaari Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient 1 2
0.0006
0.0006
0.1225
1.0000
3
0.1225
1.0000
growthorient LSMEAN
3.46261763
3.69043314
H0:LSMean1=LSMean 2 Pr > |t|
0.4905
Ryhmäerojen merkitsevyys, interaktiot
3 4 4 Elinkaari Perheyr 2 0 2 3 1 0 1 0 1 growthorient LSMEAN
4.34023953
3.95262468
3.33066641
3.53875430
2.71694695
3.57992043
LSMEAN Number
1 2 3 4 5 6 Kasvuvaiheen ei-perheyritykset eroavat vakiintuneen vaiheen ei perheyrityksistä
4 5 6 i/j 1 2 3 Least Squares Means for effect Elinkaari*Perheyr Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient 1 2 3 4 5 6
1.0000
0.0161
0.1052 0.8474 1.0000
1.0000
0.0161 0.1040
0.1040 0.8177 1.0000 1.0000
1.0000 1.0000 1.0000
0.1052 0.8177 1.0000
0.8474 1.0000 1.0000 1.0000
1.0000 1.0000
1.0000
1.0000 1.0000 1.0000 1.0000 1.0000
RAPORTOINTI
koko mallin merkitsevyys: F-testi ja selityskerroin suorien ja interaktiovaikutusten luonne ja merkitsevyys: parametriestimaatit B estimoidut ryhmäkeskiarvot post hoc testitulokset tai kontrastitestien tulokset 96
Estimoidut ryhmäkeskiarvot
3 2,5 2 1,5 5 4,5 4 3,5 1 kasvuvaihe vakiintunut Henkilöstömäärä oletettu keskiarvoksi (20) loppumassa perheyr ei-perheyr