6-Box plot - Facoltà di Economia

Download Report

Transcript 6-Box plot - Facoltà di Economia

Dott.ssa Caterina Gurrieri
Il box plot
Proposto dallo statistico americano J. W. Tukey, il box plot serve per
rilevare alcune caratteristiche delle forma di distribuzione d’una
variabile quantitativa.
Più in particolare, il box plot è una rappresentazione grafica utilizzata
per descrivere la distribuzione di un campione tramite semplici indici
di dispersione e di posizione.
Esso si basa, infatti, sulla mediana, sul primo e sul terzo quartile e
sulla differenza interquartile.
Consente di porre in luce
 l’ordine di grandezza della variabile (tramite la mediana)
 la dispersione (tramite la differenza interquartile)
 la simmetria o asimmetria della distribuzione
 la lunghezza delle “code” della distribuzione
 l’eventuale presenza di valori anomali.
Il grafico può essere tracciato in senso orizzontale o verticale.
Come si costruisce il box plot
 Dopo aver scelto una scala adeguata per la variabile, si posiziona
sull’asse orizzontale (o verticale) la mediana e la si indica con un
segmento verticale (o orizzontale).
 A sinistra (o al di sotto) della mediana si colloca il valore del primo
quartile, mentre a destra (o al di sopra) si posiziona il valore del terzo
quartile, segnando un segmento verticale (o orizzontale) in
corrispondenza di ciascuno di tali quartili.
 Si uniscono gli estremi di tali segmenti, formando
una scatola rettangolare.
Si individuano quindi:
 Il punto di troncamento inferiore: il maggiore tra il minimo dei valori
osservati ed il valore Q1 - 1,5DI.
 Il punto di troncamento superiore: il minore tra il massimo dei valori
osservati ed il valore Q3 + 1,5DI.
 Si tracciano a sinistra e a destra della scatola due segmenti
orizzontali che la uniscono rispettivamente al punto di troncamento
inferiore e superiore.
 Gli eventuali valori esterni rispetto ai punti di troncamento vengono
considerati come possibili “valori anomali” o outliers, e sono indicati
con asterischi o punti sulla retta in prosecuzione del rispettivo
segmento.

Estremi [xi>Q3+3(Q3-Q1)]
+
Anomali
Max(xi) [xi<Q3+1.5(Q3-Q1)]
Q3
Q2=Me
Q1
min(xi) [xi>Q1-1.5(Q3-Q1)]
+
Anomali

Estremi [xi<Q1-3(Q3-Q1)]
25%
50%
25%
xmin
xmax
Q1
Med
Q3
Come interpretare un box plot
 La posizione della mediana corrisponde al punto che suddivide
l’insieme delle unità statistiche in due parti con uguale numero di
termini.
 La lunghezza della scatola (che corrisponde alla differenza
interquartile) individua l’intervallo che comprende il 50% dei valori
centrali: quanto maggiore è la lunghezza tanto più elevata è la
variabilità dei valori attorno alla mediana.
 I segmenti esterni alla scatola individuano la lunghezza delle “code”
della distribuzione, con esclusione degli outliers. Tali segmenti sono
talvolta chiamati “baffi” (whiskers), e il grafico box-and-whisker plot.
 La posizione dei quartili rispetto alla mediana e la lunghezza dei
segmenti esterni alla scatola segnalano se la distribuzione è
simmetrica (nel qual caso Q1 e Q3 sono ad uguale distanza dalla
mediana ed i segmenti corrispondenti al minimo ed al massimo hanno
la medesima lunghezza), oppure no.
 Ci sono valori anomali? I singoli punti oltre l’estremità dei segmenti
indicano possibili valori anomali (eccezionalmente piccoli oppure
eccezionalmente grandi rispetto agli altri valori).
 Tali valori anomali eventualmente presenti possono essere spiegati?
Ovviamente su di essi si dovranno effettuare opportuni controlli. In tal
caso è opportuno tener presente che i valori anomali possono essere
 dovuti a errori di misurazione
 valori veramente anomali (eccezionali) dovuti a cause
specifiche
In campo
economico e
sociale, il box
plot trova ampio
utilizzo anche
per i confronti a
livello
temporale…
… e spaziale
ESEMPIO 1.
Consideriamo due delle variabili utilizzate per lo studio della qualità
della vita nelle province italiane da Il Sole–24 Ore:
 numero di imprese fallite ogni mille registrate nell’anno 2000
 numero di furti d’auto denunciati ogni 100.000 abitanti, sempre
nell’anno 2000
Numero di imprese fallite ogni mille
registrate nell’anno 2000
x25%=20,86
Me=29,62
x75%=36,53
DI = 36,53 – 20,865 = 15,665
Essendo:
Q1 -1,5DI = 20,865 -1,515,665= -2,63
mentre il minimo è 11,05 (provincia di
Cremona) il punto di troncamento inferiore
è pari a 11,05
Q3+ 1,5  DI = 36,53 + 1, 5  15,665 =
60,0275 è il punto di troncamento
superiore
Numero di furti d’auto denunciati
ogni 100000 abitanti nell’anno 2000
DI = 305,31 – 99,9 = 205,41
Essendo
Q1-1,5DI=99,9–1,5205,41= -208,2
inferiore al minimo fra i valori
osservati (provincia di Belluno pari a
28,90) il punto di troncamento
inferiore si pone uguale a 28,90.
Q3+1,5DI=305,3+1,5205,4=613,4
è il punto di troncamento superiore.
ESEMPIO 2.
Nella seguente tabella sono riportate le durate di un gruppo di mutui.
Disegnare il Box-plot.
Durata in anni
N
0-|4
10
4-|8
53
8-|12
51
12-|16
30
16-|20
15
SOLUZIONE
Per costruire il box plot della distribuzione considerata, il primo passo
da fare è quello di calcolare il valore della mediana, del primo e del
terzo quartile. A tal fine occorre dunque calcolare le frequenze relative
cumulate della distribuzione. I risultati dei calcoli sono riportati nella
tabella seguente
Durata in anni
N
fr
frc
0-|4
10
0,0625
0,0625
4-|8
53
0,1563
0,2188
8-|12
51
0,3125
0,5313
12-|16
30
0,2813
0,8126
16-|20
15
0,1875
1
Totale
160
1
Dai dati riportati in tabella è possibile calcolare i valori esatti di
mediana, primo quartile e terzo quartile. In particolare
0,5  FC 1
0,5  0,2188
Me  l1 
  8 
 4  11,5994
FC  FC 1
0,5313  0,2188
0,25  FC 1
0,25  0,2188
Q1  l1 
  8 
 4  8,3994
FC  FC 1
0,5313  0,2188
0,75  FC 1
0,5  0,5313
Q3  l1 
  8 
 4  15,1098
FC  FC 1
0,8126  0,5313
Da cui
DI = 15,1098 – 8,3994 = 6,7104
A questo punto è possibile calcolare il punto di troncamento inferiore e
il punto di troncamento superiore. In particolare
Linf = Q1 – 15,*DI = 8,3994 – 1,5 * 6,7104 = -1,6662
e
Lsup = Q3 + 1,5*DI = 15,1098 + 1,5 * 6,7104 = 25,1754
Infine rappresentiamo su un segmento tutti i valori
Poichè
Linf < xmin
e
Possiamo porre come limiti xmin e xmax.
Lsup > xmax
ATTENZIONE
In alcuni casi si trova una versione diversa del box plot, che al posto
della mediana e della differenza interquartile utilizza la media
aritmetica e lo scarto quadratico medio.
In questo caso
 gli estremi del rettangolo sono tracciati in corrispondenza dei valori
μ-σeμ+σ
 i limiti inferiore e superiore corrispondono rispettivamente a
μ – 1,96σ e μ + 1,96σ