(Chi-quadrato)

Download Report

Transcript (Chi-quadrato)

Unità 9

Frequenze osservate e frequenze teoriche Test del

 2

Tabelle di contingenza

FREQUENZE OSSERVATE E FREQUENZE TEORICHE

Spesso in medicina è necessario verificare se vi sia

significativa tra due o una differenza più categorie di esiti di trattamenti, ciascuna espressa dal numero (frequenza) degli esiti stessi

Come abbiamo già detto, i risultati ottenuti nei campioni non sempre concordano esattamente con i risultati teorici attesi secondo le regole di probabilità.

Per esempio, benché considerazioni teoriche ci portino ad attenderci 50 teste e 50 croci da 100 lanci di una moneta non truccata, è raro che questi risultati siano ottenuti esattamente.

DEFINIZIONE DI

 2

(CHI-QUADRATO)

Una misura della e quelle teoriche per il calcolo del discrepanza esistente tra le frequenze osservate è fornita dalla statistica  2 è data da  2 . La formula generale  2 

j k

  1 (

O j



E j

) 2

E j

dove

è il numero di possibile eventi, mentre

O j

ed corrispondenti frequenze osservate e teoriche (o attese).

E j

sono le È ovvio che se la frequenza totale è

si ha

j k

  1

O j



j k

  1

E j



Se le frequenze teoriche possono essere calcolate senza dovere stimare parametri della popolazione per mezzo delle statistiche campionarie, il numero ν dei gradi di libertà è dato da ν = k –1.

TEST

 2

PER L’ANALISI DELLE TABELLE DI CONTINGENZA

Per illustrare il test può essere utile fare riferimento ad un esempio.

Il passaggio al caso generale è banale.

Si pensi di considerare 3 trattamenti (A, B e C) con 3 categorie di esiti ciascuno (I, II e III).

I risultati ottenuti possono essere riassunti in una tabella simile alla Tabella 1 in cui che, sottoposti al

rappresenta il numero (frequenza) di individui trattamento A , hanno avuto esito I ,

b 1

il numero di individui che sottoposti a B hanno anche essi avuto esito I , e così via.

Tale rappresentazione sintetica prende il nome di contingenza .

tabella di

h i

(

= 1, 2, 3) rappresenta il numero di pazienti che globalmente ha avuto esito

(

i =

i +

i ), mentre

n j

(

= a, b, c) rappresenta il numero di pazienti che globalmente è stato sottoposto al trattamento

(

j =

1 +

2 +

3 ).

Infine

rappresenta il numero totale degli individui osservati.

CALCOLO:

Il test su questa tabella può essere descritto nei seguenti punti:

si calcola per ogni trattamento (riga) la somma dei quadrati delle frequenze, divise per il proprio totale di colonna:

N N b



N a c

 

2 1

1   

2 2

2   

2 3

3 6

si dividono i valori ottenuti per il rispettivo totale di riga e si sommano i risultati ottenuti:



N a n a



N b n b



N c n c

al valore

si toglie 1 e quindi si moltiplica per il numero totale di osservazioni:  2  (

 1 )

fissato il livello quadrato con trattamenti e

c (t

di significatività, si va nella tabella del chi-

– 1)∙(c – 1)

gradi di libertà dove

è il numero di il numero delle categorie di esiti [ nel caso considerato].

(3 –1)·(3–1) = 4

se il valore ottenuto differenza è superiore a quello tabulare allora la è significativa con

Per comodità di consultazione si riporta di nuovo a lato la

Tabella dei valori critici per la distribuzione del chi quadrato.

indica il numero di gradi di libertà.

Esercizio 1

I dati nella tabella sotto derivano da uno studio su individui affetti da tumori cerebrali, classificati per tipo di tumore e sede.

Si stabilisca se il tipo di tumore è indipendente dalla sede con

= 5% .

Risposta

Applicando il test  2 ai dati in tabella si ottiene  2 = 7,844.

I gradi di libertà sono (3 – 1)x(3 – 1) = 4.

Si consulti ora la tabella dei valori critici del gradi di libertà.

 2 in corrispondenza a 4 9

Il valore di  2 = 7,844 ottenuto è maggiore di quello corrispondente a

Esso = 0,10.

è tuttavia minore di quello corrispondente a

= 0,05.

Avendo fissato

nulla che

α = 0,05

, non è quindi possibile rifiutare l’ipotesi “il tipo di tumore è indipendente dalla sede”; ovvero

con i dati a disposizione non tumore dipende dalla è possibile concludere che “il tipo di sede”

Il valore esatto di

calcolato dal test è pari a 0,097.

TABELLA 2 x 2

Nel caso

t = 2

c = 2

2 x 2 con 1 grado di

la tabulazione assume la

libertà (tabella 2 x 2)

configurazione

In questo caso particolare la formula per il calcolo del chi-quadrato diventa semplicemente:  2  (

2 

1 ) 2

T n a n b h

2 Tale espressione tende porta ad affermare però a dare risultati viziati, nel senso che l’efficacia di un trattamento anche quando i dati non lo confermano.

Per questo motivo per le tabelle 2 x 2, particolarmente quando i valori delle frequenze in tabella sono piccoli, utilizzare la

correzione di Yates

(o è stato proposto di

correzione per la continuità

) nel calcolo del valore del chi-quadrato.

La correzione consiste nel modificare la formula come segue:  2  (

2 

n a n b

 1

2 ) 2

Bisogna stare attenti al fatto che per campioni poco numerosi il test del chi-quadrato è poco accurato anche se si impiega la correzione di Yates.

Esercizio 2

In un esperimento sulla efficacia della vaccinazione antipoliomielitica, un gruppo di 244 conviventi di malati di poliomielite è stato sottoposto a vaccinazione, mentre un altro gruppo di 233 conviventi di malati di poliomielite non è stato vaccinato.

Nel gruppo dei non vaccinati si sono avuti 8 casi di poliomielite (3,43%), mentre fra i vaccinati si è avuto un solo caso (0,41%).

La differenza parla a favore del vaccino, ma possiamo considerarla significativa con α = 0,05?

Risposta

Si organizzino i dati in tabella.

Si calcoli ora il valore del  2 , impiegando le formule precedentemente discusse.

I valori che si ottengono sono 5,886 e 4,366, rispettivamente senza e con la correzione di Yates.

Si consulti ora la tabella dei valori critici del  2 in corrispondenza a 1 grado di libertà.

Il valore critico corrispondente ad

= 0,05 è 3,8415.

 2 Sia il valore di corretto sia ( a maggior ragione ) quello non corretto superano il valore critico.

Avendo fissato

che

α = 0,05

, è quindi possibile rifiutare l’ipotesi nulla “i casi di poliomielite sono indipendenti dalla vaccinazione”, ovvero

le differenze osservate fra vaccinati e non vaccinati sono significative

Il problema può essere ovviamente risolto anche utilizzando un pacchetto di software statistico, quale, ad esempio, GraphPad. I risultati così ottenuti sono mostrati di seguito.