Transcript Lezione 4
Introduzione alla statistica
per la ricerca
Lezione IV
Stefano Guidi
Siena, 30Ottobre 2010
1
Statistica Inferenziale
Processo di verifica di ipotesi:
• Assumo che H0 sia vera
• Calcolo la probabilità (p) di osservare i risultati
ottenuti per caso
• Se p < 5% rigetto H0 e concludo H1 vera
Test significativo al 5% (α=5%)
Se H0 fosse vera i risultati che ho trovato sarebbero
troppo improbabili->H0 falsa
2
Confrontare medie (usi del t-test)
• Confrontare la media di un campione ad un valore di
riferime nto
T test ad un campione (H0: μ=μ0 vs Ha:μ≠μ0)
Es:
I bambini di 4 anni comprendono il passivo o danno una risposta
a caso? (H0: μ=0.5 vs Ha:μ≠0.5)
• Confrontare le medie di due campioni
T test a due campioni indipendenti (H0: μ1=μ2 vs Ha:μ1≠μ0)
Es:
La comprensione del passivo dei maschi è diversa da quella
delle femmine? (H0: μm=μf vs Ha:μm≠μf)
3
BrightStats
• Web-application (gratuita) per analisi
statistiche (registrazione obbligatoria)
• http://www.brightstat.com/
• 3 tipi di finestre:
Data: I dati
Variables: elenco delle variabili presenti e
delle loro caratteristiche (tipo di scala)
Output: grafici e risultati delle analisi
4
BrightStats (Interfaccia)
Barra menù
Icone accesso rapido
Area dati/variabili/output
Navigazione finestre
5
Menu File (gestione file dati)
• Caricare i dati (da file esterni):
1. Comando: File/Upload Database
Scegliere e caricare un file .xls(x) o .txt (occhio al formato)
2. Comando: File/Import from Database
Scegliere il file precedentemente uploadato
• Salvare i dati in locale:
Comando: File/Save from Local
Specificare il nome del file
• Caricare i dati (da locale):
Comando: File/Load to local
Specificare il nome del file
6
T test in BrightStats
• Formato dati:
una colonna per i valori della variabile dipendente (scala numerica),
una riga per (ogni) soggetto
• Esplorare prima i dati
Comando: Analyze/Descriptives
Scegliere variabili di interesse e selezionare le statistiche richieste
(media, mediana, deviazione standard, min, max…)
Comando: Graphs/Histograms
Specificare estremi ed intervallo
7
T test in BrightStats
• Effettuare il test
Comando: Analyze/Compare Means/One Sample T test
Specificare il valore contro cui testare la media del gruppo
• Output
Valore di t;
P value: probabilità di osservare il risultato per caso con H0 vera (Test
significativo se p ≤ 0.05)
df: gradi di libertà del test (riportare insieme a t e p!)
8
Confrontare 2 medie
• La paura dei ragni (aracnofobia) è causata
solo dai ragni veri o anche dalle immagini
dei ragni?
• 24 aracnofobici
• 2 gruppi (formati a caso)
12 vedono ragni veri
12 vedono immagini di ragni
Il gruppo è la variabile indipendente
• Test per ansia (variabile dipendente)
9
T test in BrightStats
• Formato dati:
una colonna per i valori della variabile dipendente (scala numerica), una
riga per (ogni) soggetto [ex: Anxiety)
Una colonna per indicare il gruppo di appartenza (scala numerica,
labels per i nomi gruppi) [ex: Group]
• Esplorare i dati:
Comando: Graphs>Lines
Scegliere il tipo di grafico (Single lines + Summaries for groups)
Specificare cosa rappresenta la linea (other Summary)
Specificare quale è la variabile di interesse (Variable)
Specificare il tipo di indice da calcolare (Function. Ex: Mean)
Specificare quale è l’asse delle categoria (Category Axis)
10
T test in BrightStats
• Effettuare il test
Comando: Analyze>Compare Mean>Indipendent Samples T test
Specificare quale è la variabile dipendente (test variables)
Specificare quale è la variabile indipendente (grouping variable)
Specificare quali livelli della variabile indipendente definiscono i
gruppi (group 1 e group 2)
• Output
Test della varianza (se significativo, varianze diverse)
Esito del T-test (per varianze uguali e diverse)
• Cosa riportare
Media del gruppo o dei gruppi e della differenza, e relativi
standar error
t(df) = valore t; p = p value
11
Campioni appaiati
• A volte i campioni che io voglio
confrontare riguardano le stesse persone,
che io osservo in condizioni diverse
(misure ripetute)
Ex: Paura prima-dopo terapia
• Violate le assunzioni del t-test
Usare il related samples t-test
12
Esempio 1
• Terapia Cognitivo-Comportamentale ed
anoressia.
• Soggetti:
29 ragazze con diagnosi di anoressia
• Misura (variabile indipendente)
Peso (lb)
prima della terapia
12 settimane dopo la terapia
13
Campioni appaiati in BrightStats
• Formato dati:
Almeno due colonne per la variabile
dipendente
Ex: prima e dopo terapia
Una riga per soggetto
• T-test a campioni appaiati (paired)
Comando: Analyze/Compare Means/2
Related Samples
Specificare le coppie di variabili
14
Campioni appaiati
• Vantaggi rispetto al test a campioni indipendenti:
Più potenza statistica con minor numero di soggetti
Maggiore sensibilità per rigettare H0 anche con differenze
piccole
Considero la variazione individuale
• Contro:
Non sempre applicabile
Effetti di carry over (ordine dei trattamenti)
15
Oltre il t test
• T test confronta 2 gruppi alla volta
• Spesso vogliamo confrontare più di 2 gruppi (livelli della
variabile indipendente)
Ex: Valutare le differenze tra l’efficacia di 10 possibili loghi
per un nuovo brand
Ex: Verificare l’efficacia di due diversi dosaggi di un
farmaco, (rispetto ad un controllo - placebo)
• Altre volte vogliamo confrontare l’effetto di più di una
variabile indipendente
Ex: efficacia di uno spot in base al contenuto di immagini
di donne discinte (nessuno, basso, alto) per uomini e
donne (seconda variabile indipendente)
16
Oltre il t test
• Posso fare tanti t test, 1 per ogni possibile
coppia di loghi, ma
Tanti test: 10 loghi -> 45 coppie!
Richiede molti calcoli
I risultati sono meno comprensibili
I test non sono indipendenti
Aumentano le probabilità di avere un test significativo per
caso (familywise error rate)
1 test significativo su 20 è uno sbaglio!
• Soluzione:
Analisi della Varianza (ANOVA)
17
Analisi della Varianza (ANOVA)
• Ronald Fisher
• Permette di confrontare le differenze tra le medie di 2 o
più gruppi/trattamenti
H0:μi=μj per ogni i e j
Ha:μi≠μj per almeno una coppia i,j
• Stessa logica di fondo nel test
• Calcolo di una statistica F che misura il grado in cui H0 è
violata
F misura la probabilità di osservare per caso i risultati ottenuti,
assumendo che H0 sia vera
• F grande indica differenze difficilmente attribuibili al caso
18
Esempio 1
• Sono interessato agli effetti di un farmaco sul
grado di allerta in un compito di natura attentiva
• 18 soggetti, 3 gruppi
• Variabile indipendente (dosaggio)
Basso dosaggio farmaco
Alto dosaggio farmaco
Controllo (placebo)
• Test del grado di allerta
Numero di errori nel compito (variabile dipendente)
19
ANOVA in BrightStats (I)
• Formato dati
Una riga per ogni soggetto
Una colonna per nome/numero del soggetto
(consigliato)
Una colonna per (ogni) variabile indipendente
Variabile di tipo “string” (measure = “scale”) per ANOVA 1-way,
OPPURE
Variabile scala numerica (più generale, consigliato)
Per trasformare una variabile string in una numerica usare:
Transform/Automatic Recode
Una colonna per i valori della variabile dipendente
(scala numerica)
20
ANOVA in BrightStats (II)
• Esplorare i dati (descrittive, grafico medie)
• Condurre il test (opzione 1 - limitata)
Comando: Analyze/Compare Means/One Way
ANOVA
Specificare la(e) variabile(i) dipendente (Test Variables)
Specificare la variabile indipendente (Grouping Variable)
• Condurre il test (opzione 2 - migliore) *
Comando: Analyze/ANOVA/ANOVA
Specificare la variabile dipendente (Dependent Variable)
Specificare la(e) variabile(i) indipendente (Fixed Factors)
* solo se indipendente(i) numerica
21
Output ANOVA
• Output BrightStas
Tabella medie
Test varianze (opz.)
Tabella anova
• Riportare:
Valore di F;
P value: (Test significativo se p ≤ 0.05)
df: gradi di libertà (Between Groups e Within Groups)
Esempio
F(2,15)=8,789;
P<.01
22
F è un test generalista
• F test significativo
Fornisce evidenza contro H0
H0 è specifica
Ha è generica: molti pattern possibili
Non mi dice come H0 è violata
Non distingue diversi possibili pattern compatibili con
Ha
• Test Omnibus (generalista)
Non fornisce informazioni sulla natura degli effetti dei
trattamenti
23
Quali medie differiscono?
• 2 strumenti diversi per individuare quali gruppi
differiscano
Confronti analitici/contrasti pianificati/ad hoc
Confronti sistematici/post hoc (in BrightStats)
• Entrambi i sistemi permettono di controllare il rischio di
errori di tipo I (cioè rifiutare l’ipotesi nulla quando questa
è vera),
• Gli errori di tipo I aumentano con il numero di test
indipendenti condotti sui dati di un esperimento
Ecco perché non è consigliabile applicare semplicemente un ttest a tutte le coppie di medie
24
Post hoc (confronti a coppie)
• Confronti tra le medie di
tutte le possibili coppie di
gruppi:
Alto vs basso
Alto vs controllo
Basso vs controllo
• Selezionarli dalle opzioni
della finestra di dialogo del
test:
Tukey HSD (pochi gruppi)
Scheffe (molti gruppi)
Duncan (sconsigliato)
25
Esempio 2 (1-way)
• Sono interessato agli effetti di 2 farmaci
per i disordini da iperattività nei bambini
• 15 bambini affetti di età uguale
5 placebo
5 farmaco A
5 farmaco B
• Test di comprensione su testo
Numero di errori (variabile dipendente)
26
Esempio 3 (1-Way)
• Consumo di caffeina e controllo motorio
• Finger tapping test:
Battere con un dito su un tasto in un intervallo di
tempo (10s)
Numero di battutte nell’intervallo (variabile
dipendente)
• Variabile indipendente
Dose di caffeina assunta (4 livelli)
Livelli: 0, 100, 200 o 300 ml
27
ANOVA 1-way e Fattoriale
• In una ANOVA 1-way i gruppi sono definiti dai livelli di
una sola variabile indipendente:
Num. dei gruppi = num. dei livelli del fattore indipendente
• Una ANOVA fattoriale analizza simultaneamente l’effetto
di più di un fattore sulla variabile dipendente
Num. gruppi = (num. livelli del I fattore) x (num. livelli del II
fattore) x (…)
Es:
Fattore Età (3 anni, 6 anni, adulti)
Fattore Lingua Madre (Italiano, Inglese)
3 x 2 = 6 gruppi
28
Esempio ANOVA fattoriale (2-way)
• Variabile dipendente:
Valore della bellezza del partner
• 2 Fattori:
Genere (2 livelli)
Alcool assunto (3 livelli: no alcool, 2, 4 pinte)
2 x 3 = 6 possibili combinazioni
• Interazione tra i fattori
29
Interazione di Fattori
• In una ANOVA fattoriale possiamo analizzare
non solo gli effetti dei singoli fattori (sulla
variabile dipendente), ma anche gli effetti di
interazione tra i fattori
Interazione: l’effetto di uno dei fattori sulla variabile
dipendente cambia ai diversi livelli di un altro fattore
Effetto semplice: l’effetto di uno dei fattori ad uno
specifico livello di un altro fattore
Effetto principale: effetto di un fattore
indipendentemente dai livelli degli altri fattori
30
Esempio 3: La mariuana ti rallenta?
• Fattori:
Precedente uso di mariuana (3 livelli)
Nessuno
Lieve
Moderato
Condizione (2 livelli):
Fuma una sigaretta che sembra e odora come una canna
Fuma una canna
• Variabile dipendente:
tempo di reazione (ms)
31
Esempio Fattoriale 2
• Uno psicologo vuole sapere se
Gli effetti fisiologici dell’alcol influenzano
l’aggressività, e se
Le aspettative (psicologiche) sul consumo di alcol
influenzano l’aggressività
• Fattori:
Consumo di alcol: si vs no
Aspettativa di assumere alcol: si vs no
• Variabile dipendente
Intensità scossa somministrata
32
Tipi di Fattori e di ANOVA
• Si distinguono 2 tipi di fattori in una ANOVA:
Fattori Between Subjects
Soggetti diversi assegnati ai diversi livelli del fattore (Gruppo
di età)
Analogia con t test per campioni indipendenti
Fattori Within Subjects (ANOVA a misure ripetute)
Ogni soggetto testato a tutti i livelli del fattore
Analogia con t test per campioni appaiati
In un’ANOVA mista sono combinati fattori between
subjects e within subjects
33
Esempio 1-Way Within
• Differenze tra tutor nella severità nel
correggere i compiti
• Fattore (variabile indipendente):
tutor incaricato di correggere i compiti
4 livelli (diversi tutor)
• Variabile dipendente (misura):
Voto assegnato dal tutor
10 compiti
34
ANOVA Misure Ripetute in BrightStats
• Formato dati
Numero di colonne (numeriche) = Numero di livelli fattore Within
[EX: tutor = 4]
Una riga per ogni soggetto
Le celle contengono la variabile dipendente
• Effettuare il test *
Comando: Analyze/Compare Means/Rep. One Way ANOVA
Specificare le variabili con le misure (una per ogni livello del
fattore) nel campo Test Variables
Specificare i post-hoc e altre opzioni
* Valido solo in caso di solo fattore (1-Way) Within
35
Output BrightStats
• Tabella medie
• Tabella ANOVA
• Eventuali post-hoc
• Eventuali correzioni
sfericità
36
Esempio 2-Way mista
• Scrivere sms peggiora la grammatica?
• Fattori
Gruppo (between - 2 livelli):
Incoraggiati a scrivere sms
Proibito scrivere sms
Tempo (Within - 2 livelli):
All’inizio dello studio
Sei mesi dopo
• Variabile dipendente (misura):
Punteggio in test di grammatica
50 bambini (25 per gruppo)
37
ANOVA Mista in BrightStats *
• Comando: Analyze/ANOVA Repeated Measurements
Scegliere il formato dei dati (SPSS style per il formato wide)
Definire i fattore Within ed il numero di livelli (add per
aggiungere, poi continue)
Specificare quali colonne della tabella (Variables) corrispondono
ai livelli dei fattori within
Specificare il/i fattore/i Between (Grouping Factors)
Specificare opzioni e post-doc
* Valido solo in caso di solo fattore Within, per 2 o più
fattori Within usare EzAnova o altri (SPSS, R)
38
Esempio 2-Way mista
• Grande fratello e personalità borderline?
• Fattori
Gruppo (between - 2 livelli):
Concorrenti GF
Controlli
Tempo (Within - 2 livelli):
Prima di entrare nella casa
Dopo l’uscita dalla casa
• Variabile dipendente (misura):
Percentuale di personalità borderline
16 partecipanti (8 x gruppo)
39
Esempio 2-way Within (Luci, birra, ecc…)
• Quali fattori mediano l’effetto dell’alcool sui
giudizi di attrattività?
• Fattori:
Consumo di alcool (4 livelli):
0, 2, 4, o 6 pinte di birra
Tipo di luce:
Soffusa
Forte
• Variabile dipendente:
Bellezza del partner scelto
40
Formato Dati x ANOVA Within Subject
• Numero di colonne (per variabile dipendente) = Numero
di livelli fattore Within 1 x Numero di livelli fattore Within
2
2 (tipo di luce) x 4 (consumo alcol) = 8 colonne
• Una riga per ogni soggetto
• Altre eventuali colonne
Es: Soggetto sperimentale, Eventuali Fattori Between ecc.
41
Esempio 2-way Within (Stroop Effect)
• Tipi di parole:
Nomi di colori
Nomi di oggetti
• Condizioni presentazione:
Normale (b/n)
Congruente
Incongruente
• Misura
Tempo di lettura (ms)
42
Esempio 2-way Mista
• Matteini: Preverbal possessor construction
in production
• 1 fattore Between (gruppo):
Conoscenza lingua (madre lingua, beginner,
intermediate, advanced)
• 1 fattore Within:
Struttura Frase: Agg + Nome vs Nome
Proporzione di frasi corrette per i due tipi di
frasi
43
ANOVA: Applicabilità e assunzioni
• Applicabilità:
1 Variabile dipendente di tipo continuo
1 o più variabili indipendenti categoriali (fattori)
Ogni fattore indipendente può assumere 2 o più livelli (≠ t-test)
• Assunzioni principali:
Variabile dipendente con distribuzione normale
Varianze omogenee tra i gruppi
Effetto dei fattori di tipo additivo
• Trasformazioni dei dati:
Quando le precedenti condizioni non completamente soddisfatte, si
possono applicare trasformazioni numeriche dei dati per cercare di
ripristinare le assunzioni
Es: trasformazione arcosen su proporzioni
Es: trasformazione logaritmica su tempi di reazione
44