luento7_kalvot

Transcript luento7_kalvot

Kvantitatiiviset tutkimusmenetelmät

Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen

Binäärinen logistinen regressio

Logistinen regressioanalyysi

selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia) ryhmät a priori 2 ryhmää -> binary (dichotomous) logistic 3 k ryhmää -> ordinal response tai multinomial (polytomous) logistic Hosmer & Lemeshow (2000)

Applied Logistic Regression

, 2nd ed. New York: Wiley http://www2.chass.ncsu.edu/garson/pa765/logistic.htm

http://support.sas.com/documentation/cdl/en/statug/63033/ HTML/default/viewer.htm#logistic_toc.htm

Sovelluksia

asiakkuuden ja ei asiakkuuden selittäminen mikä erottaa kannattavia ja ei-kannattavia yrityksiä miksi toinen tuote menestyy ja toinen ei mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin 5

Vaiheet

tavoitteet Mitkä selittäjät vaikuttavat merkitsevästi Vaikutusten suunta ja suuruus luokittelu ryhmiin, ennustaminen suunnittelu selittäjien valinta riittävä otoskoko analyysi- ja validointiotokset edellytykset Muuttujien mittaustaso ja datan riittävyys OLS edellytyksiä ei ole 6

Vaiheet

mallin estimointi enter tai stepwise, maximum likelihood ennustetarkkuuden arviointi mallin merkitsevyys selityskerroin Onnistumisprosentti luokittelussa tulkinta Kertoimet ja odds ratio validointi split sample 7

Muuttujien valinta

selitettävä aidosti luokiteltu tai jatkuvasta tehty dikotominen eli binäärinen (tai 3-4 ryhmää) voidaan myös verrata vain ääriryhmiä Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen) selittäjät Jatkuvia tai luokiteltuja Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee sen itse 8

Otoksen riittävyys

min 10 (miel. 20) havaintoa per selittäjä Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän kuin selittäjiä Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia analyysiotos 50-75% ja holdout 25-50% ositettu otanta jotta ryhmäkoot säilyvät edustavina 9

Estimointi

vaihtoehtona diskriminanttianalyysi , mutta sillä on tiukemmat taustaedellytykset Maximum likelihood menetelmä muistuttaa tavallista regressiota Testit Epälineaarisia ja kategorisia saadaan mukaan Diagnostiikkaa Ennustaa tapahtuman todennäköisyyden p ja oddsin eli vedonlyöntisuhteen Odds = p/(1-p) eli p= odds/(1+odds) 10

Lineaarinen vs. logistinen



Y i



0 

b i x i



p i

 1  1

 (

0 

b i x i

) 11

Logistinen malli

todennäköi syys



p i

 1 1 

 (

0 

b i x i

) 

1  (



b i x i

(

0 ) 

b i x i

) 

odds

1 

odds odds

 1  

p i



p i



e b

0 

b i x i



logit

logit

ln   1  

p i



p i

  

0 

b i x i

Esimerkki: logit= -6+.39x

x 0 3 6 10 13 14 15 16 17 20 24 30 logit -6.00

-4.83

-3.66

-2.10

-.93

-.54

-.15

.24

.63

1.80

3.36

5.70

odds .00

.01

.03

.12

.39

.58

.86

1.27

1.88

6.05

28.79

298.87

P .00

.01

.03

.11

.28

.37

.46

.56

.65

.86

.97

1.00

Esimerkki: logit= -6+.39x

8 6 4 2 0 -2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 17 18 19 20 21 22 23 24 25 26 27 28 29 -4 -6 -8 logit -6+.39x

p odds/1+odds 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 14

Estimointi

OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi 15

Parametriestimaatit

tulkinta eroaa OLS-regressiosta: positiivinen b lisää tapahtuman todennäköisyyttä ja negatiivinen b vähentää, mutta yhteys on lineaarinen vain logitin kanssa, ei oddsin eikä todennäköisyyden!!

Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä niin odds a-kertaistuu Kun x kasvaa kahdella niin odds a 2 -kertaistuu ”Standardoituja” kertoimia ei saa muuten kuin standardoimalla selittäjät ennen estimointia 16

Keskivirheet ja merkitsevyys

Kertoimen b luottamusväli LCL=b - z*SE b UCL=b + z*SE b Odds ration luottamusväli e LCL …e UCL kertoimen b merkitsevyyden testaus Wald = b 2 / SE 2 b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin kerroin on merkitsevä 17

Mallin hyvyys

Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance) Vertailupohjana perusmalli (base model, null model ), jossa selittäjänä vain vakio Deviance-mittarina -2log likelihood ( –2LL) -> minimiarvo on nolla ja pienet arvot hyviä pseudo R 2 , selityskertoimet ei kerro montako % y:n vaihtelusta selittyy x:ien avulla Yleensä matalampia kuin OLS-mallin R 2 Yksinkertaisin versio R 2 =(D null – D k ) / D null Cox&Snell maksimi alle 1 Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1 18

Mallin merkitsevyys

OLS F-testin asemesta likelihood ratio chi square Chi square= D null – D k H0:malli yhtä huono kuin nollamalli; df=k Jos sig<.05 niin malli on merkitsevä Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva datan kanssa!) 19

Residuaalit

Pearson ja Deviance- residuaalit Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen poisjättäminen parantaisi mallin sopivuutta dataan 20

Diagnostiikka

Periaatteessa samoja kuin OLS-regressiossa Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla ennustettu todennäköisyys välillä .10 … .90

DFBETA (paljonko vaikuttaa kertoimiin) Cook (paljonko vaikuttaa sopivuuteen) 21

Luokittelu

ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus luokittelumatriisi hit ratio: montako % luokiteltiin oikein 22

Luokittelumatriisi Ennustettu Oikea 0 1 Yht.

0 1 Yht. Osuus oikein 40 10 50 .20 false neg.

20 40 60 .33 false pos.

60 50 .67 specificity .80 sensitivity 110 80/110 .73 rate of correct class.

Luokittelu

ennustetarkkuus verrattuna sattumaan yhtäsuuret ryhmät c=1/ryhmien määrä erisuuret ryhmät maximum chance criterion c= suurimman ryhmän suhteellinen osuus proportional chance criterion c=p 2 +(1-p) 2 jos kaksi ryhmää hit ratio po. vähintään 1,25 kertaa sattumalta saatavan suuruinen 24

SAS-esimerkki

Aineistona pankin asiakkaat Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö, 0=ei maksuhäiriöitä) Selittäjinä Koulutus, aika samassa osoitteessa, aika samassa työpaikassa, tulot, velat suhteessa tuloihin Huom! SAS laskee puuttuvan arvon omaksi luokakseen, joten suodata analyysiin vain ne havainnot, joilla selitettävä muuttuja saa validin arvon 25

Puuttuvien arvojen suodatus

Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta

SAS: analyze – regression - logistic

Dummy koodaus

Kategoriset selittäjät tänne 28

Selitettävän tiedot

Tämän luokan todennäköisyyttä mallinnetaan

Selittäjät

Valitse kaikki muuttujat ja klikkaa Main

Enter vai stepwise

Mitä tulostetaan

Kuvaajat

Mitä tallennetaan

SAS- koodi

PROC LOGISTIC DATA=WORK.SORTTempTableSorted

PLOTS(ONLY)=ALL ; CLASS ed (PARAM=REF); MODEL default (Event = '1')=employ address income debtinc ed SELECTION=NONE INFLUENCE LACKFIT AGGREGATE SCALE=NONE RSQUARE CTABLE PPROB=(

0.5)

LINK=LOGIT CLPARM=BOTH CLODDS=BOTH ALPHA=

0.05

; /

RUN; QUIT;

OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT") PREDPROBS=INDIVIDUAL RESCHI=reschi_default RESDEV=resdev_default DIFCHISQ=difchisq_default DIFDEV=difdev_default UPPER=upper_default LOWER=lower_default ; Footer

Menetelmän perustiedot

Data Set Response Variable Number of Response Levels Model Model Information

WORK.SORTTEMPTABLESORT

ED default Previously defaulted 2 binary logit

Optimization Technique

Fisher's scoring

Number of Observations Read

333

Number of Observations Used

333 36

Kategoristen muuttujien koodaus

Response Profile Ordered Value default 1

Total Frequency

150 183

Probability modeled is default=1.

Class Level Information Class ed Value 1 2 3 4 5 Design Variables

1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 37

Mallin merkitsevyys ja sopivuus

Deviance and Pearson Goodness-of-Fit Statistics Criterio n Deviance Value DF

345.8366 324

Value/DF

1.0674

Pr > ChiSq

0.1934

Pearson

323.6928 324 0.9991

0.4944

Criterion Model Fit Statistics Intercept Only

460.360

Intercept and Covariates

363.837

AIC SC -2 Log L

464.169

458.360

398.110

345.837

Tulisi olla lähellä ykköstä ja ei-merkitsevä

Number of unique profiles: 333

R Square

0.2867

Max-rescaled R Square

Cox-Snell Nagelkerke 0.3836

Mallin ja selittäjien merkitsevyys

Test Testing Global Null Hypothesis: BETA=0 Likelihood Ratio Score Chi Square

112.5237

94.4558

D F

8 8

Pr > Chi Sq

<.0001

Wald

69.2901

8 <.0001

Effect employ address income debtinc ed Type 3 Analysis of Effects DF

1 1 1 1 4

Wald Chi-Square

30.9639

10.0017

8.9239

43.8928

1.9037

Pr > ChiSq

<.0001

0.0016

0.0028

<.0001

0.7535

Mallin merkitsevyys, <.05 on merkitsevä Kunkin selittäjän merkitsevyys, <.05 on merkitsevä 39

Parametriestimaatit ja merkitsevyys

Parameter Intercept employ address income debtinc ed ed ed ed 1 2 3 4 Analysis of Maximum Likelihood Estimates DF

1 1 1 1 1 1 1 1 1

Estimate

-0.3123

-0.1987

-0.0727

0.0204

0.1395

-0.0920

0.1246

-0.1550

-0.6275

Standard Error

1.5077

0.0357

0.0230

0.00684

0.0210

1.5031

1.5089

1.5305

1.5735

Wald Chi-Square

0.0429

30.9639

10.0017

8.9239

43.8928

0.0037

0.0068

0.0103

0.1590

Pr > ChiSq

0.8359

<.0001

0.0016

0.0028

<.0001

0.9512

0.9342

0.9193

0.6900

Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4 (tosin koulutus ei merkitsevä) 40

Effect employ address income debtinc ed 1 vs 5 ed 2 vs 5 ed 3 vs 5 ed 4 vs 5 Odds Ratio Estimates Point Estimate

0.820

95% Wald Confidence Limits

0.764

0.879

0.930

1.021

1.150

0.912

1.133

0.856

0.534

0.889

1.007

1.103

0.048

0.059

0.043

0.024

0.973

1.034

1.198

17.358

21.800

17.199

11.663

Yksi vuosi lisää samassa työpaikassa pienentää maksuhäiriön oddsia 0.82 kertaiseksi Kuinka hyvin ennustettu todennäköisyys ja todellinen maksuhäiriöluokka korreloivat keskenään. D,Gamma ja tau välillä 0…1, isot hyviä

Association of Predicted Probabilities Percent and Observed Responses

81.5

Somers' Concordant D Percent Discordant

18.5

Gamma Percent Tied

0.0

Tau-a

0.629

0.312

Pairs

27450

0.815

Parametriestimaattien luottamusvälejä

Profile Likelihood Confidence Interval for Parameters Paramete r Intercept Estimat e

-0.3123

95% Confidence Limit

-3.6696

3.0361

employ

-0.1987

-0.2720

-0.1320

address

-0.0727

-0.1189

-0.0284

income

0.0204

0.00858

0.0350

debtinc

0.1395

0.0999

0.1826

ed 1

-0.0920

-3.4347

3.2583

ed 2

0.1246

-3.2278

3.4810

ed 3

-0.1550

-3.5412

3.2278

ed 4

-0.6275

-4.0736

2.8170

Profile Likelihood Confidence Interval for Odds Ratios Effect employ Unit

1.0000

Estimat e

0.820

95% Confidence Limit

0.762

0.876

address

1.0000

0.930

0.888

0.972

income

1.0000

1.021

1.009

1.036

debtinc

1.0000

1.150

1.105

1.200

ed 1 vs 5

1.0000

0.912

0.032

26.005

ed 2 vs 5

1.0000

1.133

0.040

32.491

ed 3 vs 5

1.0000

0.856

0.029

25.224

ed 4 vs 5

1.0000

0.534

0.017

16.726

Oddsien luottamusvälit

ROC käyrä: isompi alue käyrän alapuolella -> paremmin luokitteleva malli % of events correctly classified (% of defaults predicted as default)

Luokittelu ja mallin sopiuvuus

Classification Table Correct Incorrect Percentages Prob Level 0.500

Event

140

Non Event Event

94 56

Non Event Correct

43 70.3

Sensi tivity

76.5

Speci ficity

62.7

False POS

28.6

False NEG

31.4

Hosmer and Lemeshow Goodness-of-Fit Test Chi Square DF Pr > ChiS q

5.2007

8 0.7359

140/183 94/150 56/196 43/137 Testaa mallin sopivuutta, H0: malli on yhteensopiva, eli p ei saisi olla <.05 45

Havaintojen listaus I

Regression Diagnostics Covariates Case Number 1 2 3 4 5 6 7 8 9 10 Years with current employer

20.0000

12.0000

4.0000

6.0000

9.0000

12.0000

2.0000

3.0000

8.0000

Years at current address

9.0000

Household income in thousands

67.0000

11.0000

0 38.0000

23.0000

9.0000

26.0000

8.0000

1.0000

15.0000

4.0000

1.0000

29.0000

69.0000

58.0000

37.0000

20.0000

27.0000

35.0000

Debt to income ratio (x100)

30.6000

Level of education 1

1.0000

Level of education 2

Level of education 3

Level of education 4 Pearson Residual

0 -1.3522

Deviance Residual

-1.4420

3.6000

5.2000

16.3000

6.7000

1.0000

0 0 0 0 1.0000

0 0 0 0 0 -0.3150

0 -0.9980

0 -1.3597

0 -0.4669

-0.4350

-1.1757

-1.4470

-0.6280

18.4000

14.2000

2.1000

14.4000

2.9000

1.0000

0 0 1.0000

0 0 0 0 0 1.0000

0 0 0 0 -1.3478

0 -2.4580

0 -0.4991

0 -1.1474

0 -0.6228

-1.4391

-1.9758

-0.6669

-1.2962

-0.8097

Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois 46

Havaintojen listaus II

Regression Diagnostics Case Number 1 Hat Matrix Diagona l

0.0491

4 Intercep t DfBeta employ DfBeta address DfBeta income DfBeta debtinc DfBeta ed1 DfBeta ed2 DfBeta ed3 DfBeta Confidence Interval ed4 Displacemen DfBeta t C

0.0325 -0.125 0.0429 0.0403 -0.194 -0.004 0.0007 0.0035 -0.008

0.0992

0.00963 -0.0012 -0.018 -0.010 0.0125 0.0214 -0.002 -0.000 -0.001 -0.001

0.0177 -0.0107

0.016 0.0617 -0.017 0.0486 -0.016 -0.001 -0.003 -0.002

0.0111 0.00416 0.0318 -0.026 0.0017 -0.060 -0.012 0.0027

0.003 0.0051

0.000974

0.0183

0.0210

0.0367 0.00346 -0.000 -0.074 -0.000 0.0281 -0.000 -0.007 0.0023 0.0028

0.00861

0.0226

0.0160 -0.056 0.0196 0.0057 -0.079 0.0042 -0.026 0.0021 -0.003

0.0430

7 8

0.0196 -0.0094 0.0754 0.1343 -0.016 -0.098 0.0008 0.0026 -0.066 0.0021

0.0213 -0.0041 0.0053 -0.048 0.0127 0.0421 -0.005 0.0002 -0.000 0.0012

0.1235

0.00554

0.0112 -0.0008 -0.023 0.0362 0.0234 -0.027 -0.011 0.0001 -0.000 -0.003

0.0151

0.0175 -0.0056 -0.019 0.0311 -0.000 0.0503 -0.009 -0.002 -0.003 -0.004

0.00702

Leverage Vaikutus parametriestimaatteihin Vaikutus luottamusväleihin 47

Havaintojen listaus III

Regression Diagnostics Case Number 1 2 3 4 5 6 7 8 9 10 Confidence Interval Displacement CBar

0.0944

0.000965

0.0180

0.0207

0.00830

0.0420

0.1210

0.00542

0.0149

0.00690

Delta Deviance

2.1738

0.1902

1.4003

2.1144

0.4027

2.1131

4.0248

0.4502

1.6951

0.6625

Delta Chi Square

1.9228

0.1002

1.0140

1.8694

0.2263

1.8586

6.1630

0.2545

1.3315

0.3948

Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen 48

Diagnostiikkaa

Havaintojen vaikutus estimaatteihin

Vaikuttavuus ja ennustettu arvo

Leverage

Diagnostiikkaa

Selittäjä vs. ennustettu p

Havaintojen listaus

age ed

39 1

emplo y

addres s

incom e

debtin c

30.6

creddeb othdeb t

3.8339 16.668

t defaul

t Filter_ _FROM _INTO

1 0 1 43 1 25 1 37 1 45 2 33 2 26 3 45 1 25 1 25 1

26 2

30 2 12 4 6 9 12 8

10 2 3 8 11 0 9 26 8 1 15 4 1

4 38 23 29 69 58 37 20 27 35

22 3.6

5.2

16.3

6.7

18.4

14.2

2.1

14.4

2.9

26.0

16.1

0.1286 1.2394

0.2524 0.9436

1.7159 3.0111

0.7073 3.9157

3.0842 7.5878

0.2049 5.0491

0.1050 0.3150

1.0187 2.8693

0.0771 0.9379

6.0489 5.6511

1.4097 2.1323

0 0 0 0 0 0 0 0 0

0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

1 0

1 0 0 1 0 0 1 1 0 1 0

IP_0

0.3535

0.9097

0.5009

0.3510

0.8210

0.3550

0.1420

0.8006

0.4316

0.7205

0.0656

0.4429

Oikea luokka Ennustettu luokka Tn että ei default 57

Havaintojen listaus

IP_1

0.6464

_LEVEL _

1 0.0902

0.4990

0.6489

0.1789

1 1 1 1 0.6449

0.8579

0.1994

0.5683

0.2794

0.9343

0.5570

1 1 1 1 1

lower_defa ult

0.42441

0.04827

0.37155

0.54539

0.07570

0.49533

0.73338

0.10850

0.46405

0.17881

0.86329

0.38667

upper_defa ult

0.81930

0.16258

0.62659

0.74018

0.36718

0.77076

0.92993

0.33760

0.66688

0.40862

0.96980

0.71498

reschi_defa ult

-1.35220

-0.31501

-0.99801

-1.35967

-0.46689

-1.34782

-2.45804

-0.49906

-1.14742

-0.62280

-3.77364

-1.12142

resdev_defa ult

-1.44203

-0.43500

-1.17572

-1.44697

-0.62801

-1.43913

-1.97580

-0.66692

-1.29622

-0.80967

-2.33407

-1.27616

difdev_defa ult

2.17381

0.19019

1.40027

2.11445

0.40269

2.11307

4.02479

0.45020

1.69511

0.66246

5.59978

1.66831

difchisq_defa ult

1.9228

0.1002

1.0140

1.8694

0.2263

1.8586

6.1630

0.2545

1.3315

0.3948

14.3923

1.2973

Tn että default Luott.väli enn. tn:lle Residuaalit Vaikutus sopivuuteen 58

RAPORTOINTI

Selitettävän muuttujan luonne ja linkkifunktio (binary, ordinal, multinomial) Mihin ryhmään kuulumista mallinnettiin, vertailuryhmä Mallin sopivuus: Chi-Square+p, Hosmer Lemeshow+p, pseudo R 2 , hit ratiot %(total, sensitivity, specificity) Estimaatit, keskivirheet, Wald ja merkitsevyys Maininta residuaali- ja vaikuttavuustarkasteluista 59

RAPORTOINTI, binary

P(international) P(not BG|international) Novice entrepreneurs No int. work exp.

No int. education Novice entr.& no int. work exp.

Novice entr. & no int. educ.

Constant Model fit B 1.300

-3.784*** .875

1.231

S.E.

.820

1.228

.771

1.544

-.932

1.223

.511

Chi square 29.0 (df=5), p.00

Nagelkerke R Square .378

.422

Correct classification rate Exp(B) 3.670

.023

2.400

3.424

.394

1.667

B .470

19.593

1.743* -39.410

19.123

S.E.

.781

28420.721

.932

33627.851

17974.842

-.134

.518

Chi square 10.6 (df=5), p.06

Nagelkerke R Square .264

Exp(B) 1.600

3.2E08

5.714

.000

2.0E08

.875

international 88.2%, domestic 59.5% , overall 76.1% BG 50%, other int. 80%, overall 70.6% 60

LINEAARISET MALLIT (VARIANSSIANALYYSIT)

Oneway ANOVA, GLM Univariate (n-way ANOVA, ANCOVA)

PERUSASIAT

Selitettävä muuttuja on jatkuva Selittävät muuttujat ovat kategorisia (factor, CLASS) tai jatkuvia (covariate) Onko selitettävän muuttujan keskiarvoissa eroa selittävän muuttujan ryhmien välillä Selittävien muuttujien interaktioita voidaan myös mallintaa Sopii hypoteesien testaamiseen, erityisesti käytetty kokeellisissa tutkimuksissa 62

PERUSASIAT

Factor B (koko) Level 1 (pieni) Factor B (koko) Level 2 (keskisuuri) Factor B (koko) Level 3 (suuri) Factor A (toimiala) Level 1 (teollisuus) Cell Factor A (toimiala) Level 2 (kauppa) 3 X 2 full factorial design (full: kaikissa soluissa on havaintoja) Balanced design: kaikissa soluissa yhtä paljon havaintoja 63

EDELLYTYKSIÄ

Onko kussakin ryhmässä tarpeeksi havaintoja? (miel. >20) Havaintojen riippumattomuus Varianssi-kovarianssimatriisien samanlaisuus (ei haittaa jos suurin ryhmä < 1.5*pienin ryhmä, 4* jos yhtäsuuret ryhmät) Normaalisuus Lineaarisuus Ei outlier-havaintoja 64

VARIANSSIANALYYSIN TULKINTA

Onko malli merkitsevä?

F-testi ja R square Welch, jos varianssit erisuuret (testataan Levenen tai Brown-Forsythen testillä) Minkä selittäjämuuttujien vaikutukset ovat merkitseviä? (F-testit ja partial eta squared) Mitkä ryhmät eroavat? Post hoc tai kontrastit Miten ryhmät eroavat? Estimoidut ryhmäkeskiarvot 65

Oneway ANOVA

Yksi selitettävä jatkuva muuttuja (y) ja yksi selittävä muuttuja (x), jossa min. 3 luokkaa, luokkien määrä k Edellytyksiä: selitettävä (y) normaalijakautunut ja sen varianssit eri luokissa samat H0: y:n keskiarvot samat kaikissa x:n luokissa Vaihtelu jaetaan kahteen komponenttiin: within groups (error) ja between groups (model, treatment) -> ks. TAP prujusta kaavat Testisuure on between / within ja noudattaa F-jakaumaa vapausastein k-1, n-k Jos varianssit erisuuret, niin F-testin asemesta Welch Jos F testi on merkitsevä, niin post hoc-testeillä katsotaan mitkä ryhmäparit poikkeavat toisistaan 66

Multiway ANOVA, GLM

Yksi jatkuva selitettävä, kaksi tai useampia luokiteltuja selittäjiä (factorial design) ANCOVA, jos jonkin jatkuvan selittäjän vaikutus halutaan eliminoida Päävaikutukset tai suorat vaikutukset (main effect) ja yhdysvaikutukset eli interaktiot fixed factor , jos kaikki mahdolliset ryhmät ovat mukana ja random factor, jos otoksessa edustettuna satunnaisesti havaintoja joistakin mahdollisista ryhmistä 67

ANCOVA

Mallissa mukana kovariaatti (= jatkuva selittäjä, jonka vaikutus halutaan eliminoida, esim. työkokemuksen vaikutus eliminoidaan sukupuolen ja palkan välisestä yhteydestä) Regressio kovariaatin ja selitettävän välille -> residuaalille ANOVA Kovariaatin ja selitettävän välillä oltava lineaarinen yhteys, joka on samanlainen kaikissa faktorimuuttujan ryhmissä kovariaatin ja faktoreiden välillä ei yhteyttä Kovariaatteja saa olla enintään 0.1*n – (k-1) 68

Interaktiot

Kahden faktorin yhteisvaikutus, eron suuruus yhden faktorin ryhmien välillä riippuu toisen faktorin arvosta Crossing effect = interaction effect Ordinal (keskiarvokuviossa viivat erisuuntaiset, mutta eivät leikkaa) Disordinal (keskiarvokuviossa viivat leikkaavat toisensa) 69

Ei interaktiota

kannattavuuden keskiarvot

40 30 20 10 0 pieni keskisuuri suuri teollisuus kauppa Sekä koolla että toimialalla merkitsevä suora vaikutus Ei interaktiota, homogeneity of slopes 70

Interaktiot

Ordinaalinen interaktio (koon vaikutus teollisuudessa voimakkaampi kuin kaupassa) 50 40 30 20 10 0 pieni

kannattavuuden keskiarvot

keskisuuri suuri teollisuus kauppa Dis-ordinaalinen interaktio (koon vaikutus teollisuudessa 50 40 eri suuntainen kuin 30 kaupassa) 20 10 0

kannattavuuden keskiarvo

pieni keskisuuri suuri teollisuus kauppa 71

Sisäkkäiset vaikutukset

Nested effect B(A) ”B nested within A” Koko (toimiala): koon vaikutus erikseen kullakin toimialalla Eroaa interaktiosta vain siinä että B:n (koko) suora vaikutus ei ole mallissa mukana B:n (koko) kulmakerroin vaihtelee A:n (toimiala) luokissa 72

Estimoidut ryhmäkeskiarvot

Estimated marginal means tai LS (least squares) means Mallin tuottamat ennustetut ryhmäkeskiarvot, kun muiden selittäjien vaikutus on otettu huomioon Eri kuin otoksesta laskettu tavallinen ryhmäkeskiarvo, jos selittäjillä on yhteyttä keskenään 73

Neliösummat

Tyyppi I ei kontrolloi mallissa myöhemmin tulevien selittäjien vaikutuksia Tyyppi II kontrolloi kaikkien muiden selittäjien vaikutukset Tyyppi III ja IV parhaat jos soluissa eri määrät havaintoja, IV jos on tyhjiä soluja 74

Post hoc-testit

Multiple comparison procedures, mean separation tests Ajatuksena on välttää I tyypin virhettä joka johtuu siitä kun tehdään monta yksittäistä parivertailua, joissa jokaisessa on 5% riskitaso niin hylkäämisvirheitä tulee Esim. Bonferroni, Scheffe, Sidak,… Tukey-Kramer muita voimakkaampi H0: ryhmäkeskiarvot samat -> jos hylätään niin ovat eri mutta jos jää voimaan niin ei välttämättä ole samat (voi johtua vaikka otoksen pienuudesta ettei päästä hylkäämään) 75

SAS: analyze – ANOVA – linear models

Estimoitavat vaikutukset

Interaktiovaikutus tästä, valitse ensin molemmat muuttujat, sitten Cross

Neliösummat

Muita optioita, tarpeeton

Post hoc-testit

Kuvaajat

SAS - koodi

PROC GLM DATA=kirjasto.datatiedosto

PLOTS(ONLY)=DIAGNOSTICS(UNPACK) PLOTS(ONLY)=RESIDUALS PLOTS(ONLY)=INTPLOT ; CLASS Elinkaari Perheyr; MODEL growthorient= ln_hlo Elinkaari Perheyr Elinkaari*Perheyr / SS3 SOLUTION SINGULAR=

1E-07

; LSMEANS Elinkaari Perheyr Elinkaari*Perheyr / PDIFF ADJUST=BON ;

RUN; QUIT;

Mallin merkitsevyys ja sopivuus

Class Level Information Class Elinkaari Levels Values

3 2 3 4

Perheyr

2 0 1

Number of Observations Read Number of Observations Used Source Model Error Corrected Total DF Sum of Squares

6 13.03085542

125 75.69810081

131 88.72895623

Mean Square

2.17180924

0.60558481

F Value

3.59

Pr > F

0.0026

181 132

R-Square

0.146861

Coeff Var

21.79382

Root MSE

0.778193

growthorient Mean

3.570707

Selittäjien merkitsevyydet

Source ln_hlo Elinkaari Perheyr Elinkaari*Perheyr DF Type III SS Mean Square F Value Pr > F

1 2.88693851

2 9.52176337

1 0.28960870

2 1.99071120

2.88693851

4.76088169

0.28960870

0.99535560

4.77 0.0309

7.86 0.0006

0.48 0.4905

1.64 0.1974

Parametriestimaatit

Parameter Intercept ln_hlo Elinkaari 2 Elinkaari 3 Elinkaari 4 Perheyr 0 Perheyr 1 Elinkaari*Perheyr 2 0 Elinkaari*Perheyr 2 1 Elinkaari*Perheyr 3 0 Elinkaari*Perheyr 3 1 Elinkaari*Perheyr 4 0 Elinkaari*Perheyr 4 1 Estimate

3.196306815 B 0.161079578

0.372704251 B -0.041166136 B 0.000000000 B -0.862973482 B 0.000000000 B 1.250588328 B 0.000000000 B 0.654885600 B 0.000000000 B 0.000000000 B 0.000000000 B

Standard Error

0.49826714

0.07377500

0.49030119

0.46224369

0.92404272

0.98491805

0.94241380

t Value

6.41

2.18

0.76

-0.09

-0.93

1.27

0.69

Pr > |t|

<.0001

0.0309

0.4486

0.9292

0.3522

0.2065

0.4884

Yhtälöt kullekin 6 solulle, esim.

Elinkaari=2 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.37 – 0.86 + 1.25

= 3.96

+ 0.16*ln_hlo Elinkaari=3 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo – 0.04 – 0.86 + 0.65

= 2.95

+ 0.16*ln_hlo Elinkaari=4 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.00 – 0.86 + 0.00

= 2.34

+ 0.16*ln_hlo Elinkaari=2 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.37 + 0.00 + 0.00

= = = 3.57

+ 0.16*ln_hlo Elinkaari=3 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo - 0.04 + 0.00 + 0.00

3.16

+ 0.16*ln_hlo Elinkaari=4 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.00 + 0.00 + 0.00

3.20

+ 0.16*ln_hlo 86

Parametriestimaatit

The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely estimable.

T ä m ä huomautus tulee aina kun mallissa on kategorisia selitt ä ji ä , SAS pystyy kuitenkin estimoimaan kertoimet 87

Homoskedastisuus

Havaintodiagnostiikkaa

Residuaalien jakaumat

Mallin sopivuus

Havaintojen vaikuttavuus

Residuaalin riippumattomuus

Ryhmäerojen merkitsevyys, suorat vaikutukset

Perheyr 0 1 Elinkaari 2 3 4 growthorient LSMEAN

4.14643211

3.43471035

3.14843369

LSMEAN Number

1 2 3

i/j 1 2 3 Least Squares Means for effect Elinkaari Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient 1 2

0.0006

0.1225

1.0000

0.1225

1.0000

growthorient LSMEAN

3.46261763

3.69043314

H0:LSMean1=LSMean 2 Pr > |t|

0.4905

Ryhmäerojen merkitsevyys, interaktiot

3 4 4 Elinkaari Perheyr 2 0 2 3 1 0 1 0 1 growthorient LSMEAN

4.34023953

3.95262468

3.33066641

3.53875430

2.71694695

3.57992043

LSMEAN Number

1 2 3 4 5 6 Kasvuvaiheen ei-perheyritykset eroavat vakiintuneen vaiheen ei perheyrityksistä

4 5 6 i/j 1 2 3 Least Squares Means for effect Elinkaari*Perheyr Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient 1 2 3 4 5 6

1.0000

0.0161

0.1052 0.8474 1.0000

1.0000

0.0161 0.1040

0.1040 0.8177 1.0000 1.0000

1.0000 1.0000 1.0000

0.1052 0.8177 1.0000

0.8474 1.0000 1.0000 1.0000

1.0000 1.0000

1.0000

1.0000 1.0000 1.0000 1.0000 1.0000

RAPORTOINTI

koko mallin merkitsevyys: F-testi ja selityskerroin suorien ja interaktiovaikutusten luonne ja merkitsevyys: parametriestimaatit B estimoidut ryhmäkeskiarvot post hoc testitulokset tai kontrastitestien tulokset 96

Estimoidut ryhmäkeskiarvot

3 2,5 2 1,5 5 4,5 4 3,5 1 kasvuvaihe vakiintunut Henkilöstömäärä oletettu keskiarvoksi (20) loppumassa perheyr ei-perheyr