Transcript (Chi-quadrato)
Unità 9
Frequenze osservate e frequenze teoriche Test del
2
Tabelle di contingenza
1
FREQUENZE OSSERVATE E FREQUENZE TEORICHE
Spesso in medicina è necessario verificare se vi sia
significativa tra due o una differenza più categorie di esiti di trattamenti, ciascuna espressa dal numero (frequenza) degli esiti stessi
.
Come abbiamo già detto, i risultati ottenuti nei campioni non sempre concordano esattamente con i risultati teorici attesi secondo le regole di probabilità.
Per esempio, benché considerazioni teoriche ci portino ad attenderci 50 teste e 50 croci da 100 lanci di una moneta non truccata, è raro che questi risultati siano ottenuti esattamente.
2
DEFINIZIONE DI
2
(CHI-QUADRATO)
Una misura della e quelle teoriche per il calcolo del discrepanza esistente tra le frequenze osservate è fornita dalla statistica 2 è data da 2 . La formula generale 2
j k
1 (
O j
E j
) 2
E j
dove
k
è il numero di possibile eventi, mentre
O j
ed corrispondenti frequenze osservate e teoriche (o attese).
E j
sono le È ovvio che se la frequenza totale è
N
si ha
j k
1
O j
j k
1
E j
N
.
Se le frequenze teoriche possono essere calcolate senza dovere stimare parametri della popolazione per mezzo delle statistiche campionarie, il numero ν dei gradi di libertà è dato da ν = k –1.
3
TEST
2
PER L’ANALISI DELLE TABELLE DI CONTINGENZA
Per illustrare il test può essere utile fare riferimento ad un esempio.
Il passaggio al caso generale è banale.
Si pensi di considerare 3 trattamenti (A, B e C) con 3 categorie di esiti ciascuno (I, II e III).
I risultati ottenuti possono essere riassunti in una tabella simile alla Tabella 1 in cui che, sottoposti al
a
1
rappresenta il numero (frequenza) di individui trattamento A , hanno avuto esito I ,
b 1
il numero di individui che sottoposti a B hanno anche essi avuto esito I , e così via.
Tale rappresentazione sintetica prende il nome di contingenza .
tabella di
4
h i
(
i
= 1, 2, 3) rappresenta il numero di pazienti che globalmente ha avuto esito
i
(
h
i =
a
i +
b
i +
c
i ), mentre
n j
(
j
= a, b, c) rappresenta il numero di pazienti che globalmente è stato sottoposto al trattamento
j
(
n
j =
j
1 +
j
2 +
j
3 ).
Infine
T
rappresenta il numero totale degli individui osservati.
5
CALCOLO:
Il test su questa tabella può essere descritto nei seguenti punti:
a.
si calcola per ogni trattamento (riga) la somma dei quadrati delle frequenze, divise per il proprio totale di colonna:
N N b
N a c
a
2 1
h
1
b
2 1
h
1
c
2 1
h
1
a
2 2
h
2
b
2 2
h
2
c
2 2
h
2
a
2 3
h
3
b
2 3
h
3
c
2 3
h
3 6
b.
si dividono i valori ottenuti per il rispettivo totale di riga e si sommano i risultati ottenuti:
Z
N a n a
N b n b
N c n c
c.
al valore
Z
si toglie 1 e quindi si moltiplica per il numero totale di osservazioni: 2 (
Z
1 )
T
d.
fissato il livello quadrato con trattamenti e
c (t
α
di significatività, si va nella tabella del chi-
– 1)∙(c – 1)
gradi di libertà dove
t
è il numero di il numero delle categorie di esiti [ nel caso considerato].
(3 –1)·(3–1) = 4
e.
se il valore ottenuto differenza è superiore a quello tabulare allora la è significativa con
p
<
α
.
7
Per comodità di consultazione si riporta di nuovo a lato la
Tabella dei valori critici per la distribuzione del chi quadrato.
ν
indica il numero di gradi di libertà.
8
Esercizio 1
I dati nella tabella sotto derivano da uno studio su individui affetti da tumori cerebrali, classificati per tipo di tumore e sede.
Si stabilisca se il tipo di tumore è indipendente dalla sede con
α
= 5% .
Risposta
Applicando il test 2 ai dati in tabella si ottiene 2 = 7,844.
I gradi di libertà sono (3 – 1)x(3 – 1) = 4.
Si consulti ora la tabella dei valori critici del gradi di libertà.
2 in corrispondenza a 4 9
Il valore di 2 = 7,844 ottenuto è maggiore di quello corrispondente a
p
Esso = 0,10.
è tuttavia minore di quello corrispondente a
p
= 0,05.
Avendo fissato
nulla che
α = 0,05
, non è quindi possibile rifiutare l’ipotesi “il tipo di tumore è indipendente dalla sede”; ovvero
con i dati a disposizione non tumore dipende dalla è possibile concludere che “il tipo di sede”
.
Il valore esatto di
p
calcolato dal test è pari a 0,097.
10
TABELLA 2 x 2
Nel caso
t = 2
e
c = 2
2 x 2 con 1 grado di
la tabulazione assume la
libertà (tabella 2 x 2)
.
configurazione
In questo caso particolare la formula per il calcolo del chi-quadrato diventa semplicemente: 2 (
a
1
b
2
a
2
b
1 ) 2
T n a n b h
1
h
2 Tale espressione tende porta ad affermare però a dare risultati viziati, nel senso che l’efficacia di un trattamento anche quando i dati non lo confermano.
11
Per questo motivo per le tabelle 2 x 2, particolarmente quando i valori delle frequenze in tabella sono piccoli, utilizzare la
correzione di Yates
(o è stato proposto di
correzione per la continuità
) nel calcolo del valore del chi-quadrato.
La correzione consiste nel modificare la formula come segue: 2 (
a
1
b
2
a
2
b
1
n a n b
1
T
2
h
1
h
2 ) 2
T
Bisogna stare attenti al fatto che per campioni poco numerosi il test del chi-quadrato è poco accurato anche se si impiega la correzione di Yates.
12
Esercizio 2
In un esperimento sulla efficacia della vaccinazione antipoliomielitica, un gruppo di 244 conviventi di malati di poliomielite è stato sottoposto a vaccinazione, mentre un altro gruppo di 233 conviventi di malati di poliomielite non è stato vaccinato.
Nel gruppo dei non vaccinati si sono avuti 8 casi di poliomielite (3,43%), mentre fra i vaccinati si è avuto un solo caso (0,41%).
La differenza parla a favore del vaccino, ma possiamo considerarla significativa con α = 0,05?
Risposta
Si organizzino i dati in tabella.
Si calcoli ora il valore del 2 , impiegando le formule precedentemente discusse.
I valori che si ottengono sono 5,886 e 4,366, rispettivamente senza e con la correzione di Yates.
13
Si consulti ora la tabella dei valori critici del 2 in corrispondenza a 1 grado di libertà.
Il valore critico corrispondente ad
α
= 0,05 è 3,8415.
2 Sia il valore di corretto sia ( a maggior ragione ) quello non corretto superano il valore critico.
Avendo fissato
che
α = 0,05
, è quindi possibile rifiutare l’ipotesi nulla “i casi di poliomielite sono indipendenti dalla vaccinazione”, ovvero
le differenze osservate fra vaccinati e non vaccinati sono significative
.
Il problema può essere ovviamente risolto anche utilizzando un pacchetto di software statistico, quale, ad esempio, GraphPad. I risultati così ottenuti sono mostrati di seguito.
14
15
16
17