Lucidi 3 - e

Download Report

Transcript Lucidi 3 - e

Corso di Laurea magistrale in
Psicologia Clinica, dello Sviluppo e Neuropsicologia
Esame di
Analisi Multivariata dei Dati
L’anova fattoriale between
Mercoledì 23 ottobre 2013
A cura di
Matteo Forgiarini
1
Il test anova
L’anova between
Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media
mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala
ordinale.
Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test:
abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la
significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare
l’ipotesi nulla di uguaglianza delle due medie.
Ma...
Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?
Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati
prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione
massima.
È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore
“età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i
soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.
In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è
quantitativa.
Per rispondere a questo tipo di domande occorre utilizzare il test anova.
2
Il test anova
L’anova between
Occorre utilizzare l’anova ogni volta che:
•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi
uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).
Cioè:
•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.
•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio
valore medio della V.D.
•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.
•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).
Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova
risulta:
H0: µ1= µ2=…= µk
H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)
3
Il t-test e l’anova
L’anova between
Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di
domanda, infatti:
In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di
uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa
pressione massima dei soggetti più anziani.
Statistics
anno di nascita
N
Valid
Missing
Percentiles
50
100
0
1951,00
Abbiamo selezionato l’opzione per ottenere il valore – ovvero la
mediana - della variabile “anno di nascita” che divide il campione
totale in due sotto-campioni di uguale numerosità. Possiamo quindi
4
costruire una nuova variabile per eseguire il t-test e l’anova.
L’anova between
Il t-test e l’anova
Con “ricodifica in una
nuova variabile” a partire
dalla variabile “nascita”
creiamo la variabile
“nasc_2f”, creiamo cioè
una variabile che indica
le due fasce di età dei
soggetti:
la
nuova
variabile assume valore 1
per soggetti nati prima
del 1951 e assume valore
2 per tutti gli altri
soggetti più giovani.
Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei
due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla
variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia
l’anova, perché?
Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.
H0: µ1= µ2
H1: µ1≠ µ2
5
L’anova between
Il t-test e l’anova
Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e
come variabile dipendente “pressione massima”.
Group Statistics
pressione massima
nasc_2f
1,00
2,00
N
Mean
133,46
139,63
52
48
Std. Deviation
13,854
14,676
Std. Error
Mean
1,921
2,118
Independent Samples Test
Levene's Test for
Equality of Variances
F
pressione massima
Equal variances
assumed
Equal variances
not assumed
Sig .
,926
,338
t-test for Equality of Means
t
df
Sig . (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,160
98
,033
-6,163
2,853
-11,825
-,501
-2,155
96,161
,034
-6,163
2,860
-11,840
-,487
Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione
sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.
6
L’anova between
Il t-test e l’anova
ANOVA
pressione massima
Between Groups
Within Groups
Total
Sum of
Squares
948,187
19912,173
20860,360
df
1
98
99
Mean Square
948,187
203,185
F
4,667
Sig .
,033
Il test dell’anova risulta significativo (pvalue<0,05): come per il t-test, possiamo
concludere che in media la pressione
sanguigna nei soggetti “più giovani” è
statisticamente maggiore rispetto ai
soggetti “più anziani”. È interessante
notare che il livello di significatività
ottenuto è il medesimo che abbiamo
ottenuto con il t-test.
È importante notare però che l’anova si
basa sul test F: infatti vengono
confrontate le varianze tra i gruppi
(between) ed entro i gruppi (within).
7
L’anova between
L’anova between
Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità
omogenea.
Statistics
anno di nascita
N
Valid
Missing
Percentiles
33,33333333
66,66666667
100
0
1948,00
1954,00
Dagli output notiamo che un terzo dei soggetti è nato prima
del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato
dopo il 1954.
8
L’anova between
L’anova between
Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi
fasce di età e che assume:
Valore 1 se i soggetti sono nati prima del 1948,
Valore 2 se i soggetti sono nati dal 1948 al 1954
Valore 3 se i soggetti sono nati dopo il 1954.
Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione
massima” all’interno dei tre livelli di età che abbiamo creato.
9
L’anova between
L’anova between
H0: µ1= µ2= µ3
H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza
statisticamente significativa.
ANOVA
pressione massima
Between Groups
Within Groups
Total
Sum of
Squares
1703,670
19156,690
20860,360
df
2
97
99
Il test risulta significativo (p-value<0,05).
Possiamo rifiutare l’ipotesi nulla e concludere
che la variabile età ha influenza sulla variablile
pressione sanguigna: in altri termini esiste una
coppia di livelli della V.I. per i quali le due medie
di gruppo hanno una differenza significativa.
Ma...
Con 3 livelli della V.I. esistono 3 coppie di
medie, qual è la coppia che rende significativo
l’anova? Ne esiste più di una? Andiamo a
scoprirlo...
Mean Square
851,835
197,492
F
4,313
Gradi di libertà
Sig .
,016
Varianza
within
Varianza
between
10
L’anova between
L’anova between
Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.
I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al
numero di livelli della V.I.). Ma...
Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente
pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo.
Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi
proposti verrà usata la correzione di Tukey.
I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi
che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si
gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.
11
L’anova between
L’anova between
Multiple Comparisons
Dependent Variable: pressione massima
Tukey HSD
(I) nasc_3f
1,00
2,00
3,00
(J) nasc_3f
2,00
3,00
1,00
3,00
1,00
2,00
Mean
Difference
(I-J)
2,669
-7,433
-2,669
-10,102*
7,433
10,102*
Std. Error
3,317
3,586
3,317
3,500
3,586
3,500
Sig .
,701
,101
,701
,013
,101
,013
95% Confidence Interval
Lower Bound
Upper Bound
-5,23
10,57
-15,97
1,10
-10,57
5,23
-18,43
-1,77
-1,10
15,97
1,77
18,43
*. The mean difference is significant at the .05 level.
Notiamo
che
la
media
2
risulta
significativamente diversa dalla media 3. Gli
scarti tra media 1 e media 2 e tra media 1 e 3 non
risultano invece significativi.
Dagli output possiamo notare che il test
anova è risultato significativo poiché
una coppia di medie presenta uno
scarto statisticamente significativo e
rende quindi falsa l’ipotesi nulla di
uguaglianza delle 3 medie.
12
L’anova between fattoriale
L’anova between
Oltre alle applicazioni fino ad ora affrontate, l’anova permette di rispondere a domande più
complesse: infatti è possibile inserire contemporaneamente più di un avariabile indipendente.
Ovvero...
È possibile eseguire l’anova su disegni fattoriali tramite i quali viene testata, oltre agli effetti
principali dei singoli fattori sulla variabile dipendente, anche l’interazione tra i fattori stessi.
Infatti se sulla variabile dipendente agiscono 2 fattori contemporaneamente è possibile che essi
interagiscano tra loro e che l’effetto di un fattore sulla variabile dipendente sia “modulato”
dall’altro fattore, ovvero è possibile che l’effetto del fattore 1 assuma valori differenti nei
diversi livelli del fattore 2.
Ipotizziamo di testare l’ipotesi che la pressione sanguigna sia influenzata contemporaneamente
dal sesso dei soggetti (livello1=femmina;livello2=maschio) e dall’essere fumatori o no dei
soggetti stessi.
Stiamo testando un anova between fattoriale 2X2.
13
L’anova between fattoriale
L’anova between
Per testare i modelli anova fattoriali, occorre scegliere il modello lineare generalizzato univariato; nei
fattori fissi, inseriamo il “genere” e la variabile “fuma”; inoltre l’analisi dei grafici risulta interessante e
utile alla comprensione: selezioniamo “plots” e inseriamo i due fattori per ottenere due diverse linee;
infine “aggiungiamo” il grafico desiderato.
14
L’anova between
L’anova between fattoriale
Tests of Between-Subjects Effects
Dependent Variable: pressione massima
Effetti
principali
Interazione
Source
Corrected Model
Intercept
genere
fuma
genere * fuma
Error
Total
Corrected Total
Type III Sum
of Squares
10596,207a
1729967,459
616,785
8907,754
59,637
9847,069
1836589,000
20443,276
df
3
1
1
1
1
94
98
97
Mean Square
3532,069
1729967,459
616,785
8907,754
59,637
104,756
F
33,717
16514,249
5,888
85,033
,569
Sig .
,000
,000
,017
,000
,452
a. R Squared = ,518 (Adjusted R Sq uared = ,503)
Testando un modello fattoriale con due variabili indipendenti verranno eseguiti 3 test f: un test
per l’effetto principale del fattore 1, un test per l’effetto principale del fattore 2 e un test
sull’interazione tra i due fattori.
Dall’analisi degli output, possiamo notare che gli effetti principali dei due fattori risultano
significativi (p-value<0,05): la media della pressione sanguigna dei maschi risulta statisticamente
diversa da quella delle femmine; similmente i non fumatori hanno una pressione media differente
dai fumatori.
Risulta interessante notare che l’interazione tra i fattori risulta non significativa: i due fattori
in modo indipendente hanno influenza sulla V.D., ma l’effetto di ogni fattore non varia nei
diversi livelli dell’altro fattore: il fattore “genere” influisce in ugual misura per i fumatori e per i
non fumatori; similmente è possibile concludere che il fattore “fuma” influisce sulla V.D. con la
15
stessa forza in modo indipendente dal genere dei soggetti.
L’anova between fattoriale
Estimated Marginal Means of pressione massima
genere del soggetto
150
maschio
femmina
Estimated Marginal Means
145
140
L’anova between
È possibile notare la mancanza di
interferenza tra i fattori anche
osservando il grafico che spss ha
prodotto: le linee sono quasi
parallele: infatti la riduzione di
pressione nei soggetti non
fumatori ha quasi la stessa entità
per i maschi e per le femmine.
Dicendo che le linee sono “quasi”
parallele,
considerando
che
l’interazione
non
risulta
significativa, affermiamo che il
“quasi” identifica una differenza
tanto piccola da non rendere
significativo
l’effetto
di
interazione.
135
130
125
120
fumatore
non fumatore
fuma
16
L’anova between fattoriale
Tests of Between-Subjects Effects
Dependent Variable: pressione massima
Source
Corrected Model
Intercept
genere
città
genere * città
Error
Total
Corrected Total
Type III Sum
of Squares
3945,062a
1777436,257
1404,369
627,491
1690,121
16915,298
1881902,000
20860,360
df
7
1
1
3
3
92
100
99
Mean Square
563,580
1777436,257
1404,369
209,164
563,374
183,862
a. R Squared = ,189 (Adjusted R Sq uared = ,127)
F
3,065
9667,234
7,638
1,138
3,064
Sig .
,006
,000
,007
,338
,032
L’anova between
Analizziamo ora un modello
anova fattoriale che permetta di
capire se la pressione sanguigna
(V.D.) è influenzata dal genere dei
soggetti
(fattore
1)
e
contemporaneamente
dalla
residenza
in
diverse
città
lombarde (Bergamo, Milano,
Cremona e Varese) (fattore 2).
Dall’analisi degli output, notiamo che il fattore genere risulta significativo (p-value<0,05); il
fattore “città” risulta invece non significativo (p-value>0,05): possiamo quindi concludere che la
pressione sanguigna dei soggetti non è influenzata in modo significativo dai differenti stili di vita
delle 4 città lombarde.. Contemporaneamente la pressione dei soggetti maschi risulta
statisticamente diversa da quella dei soggetti femmine.
Ma...
Notiamo che l’interazione tra i due fattori risulta significativa (p-value<0,05): possiamo quindi
concludere che il fattore “genere” influenza la pressione sanguigna in modo differente nelle 4
città.
Esaminiamo il grafico...
17
L’anova between fattoriale
L’anova between
Estimated Marginal Means of pressione massima
città di provenienza
bergamo
cremona
145
varese
Estimated Marginal Means
milano
140
135
Le quattro rette non risultano
parallele: la riduzione media della
pressione sanguigna delle femmine
rispetto ai maschi non è omogenea
nelle 4 città lombarde considerate. In
particolare a Milano si può notare
che le femmine hanno in media una
pressione maggiore dei soggetti
maschi.
130
maschio
femmina
genere del soggetto
18