Misure di tendenza centrale

Download Report

Transcript Misure di tendenza centrale

Metodi Quantitativi per Economia, Finanza e Management

Lezione n °3

Le distribuzioni di frequenza e le misure di sintesi univariate

Metodi Quantitativi per Economia, Finanza e Management SUDDIVISIONE PER ESERCITAZIONI

Venerdì ore 08.30

Economia e direzione d'impresa, Marketing.

Venerdì ore 11.00

Amministrazione aziendale e libera professione, Banche mercati e finanza d'impresa, Management delle risorse umane.

Percorso di Analisi

Tipo di analisi

ANALISI UNIVARIATA

Cosa è?

La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di

Strumenti

- DISTRIBUZIONI DI FREQUENZA ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce - INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE DI TENDENZA NON CENTRALE) strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione.

- INDICI DI DISPERSIONE - MISURE DI FORMA DELLA DISTRIBUZIONE ANALSI BIVARIATA E TEST STATISTICI PER LO STUDIO DELL'ASSOCIAZIONE TRA VARIABILI La statistica descrittiva bivariata si occupa dello studio della distribuzione di due variabili congiuntamente considerate.

Due variabili qualitative o quantitative discrete:

TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA I test statistici per lo studio

Due variabili quantitative continue:

dell'associazione tra variabili ci INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE verificarle tramite i dati campionari. I dati

Una variabile qualitativa e una quantitativa continua:

campionari sono utilizzati per stabilire se o rifiutabile.

INDICE η 2 tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA ANALISI MULTIVARIATA L'analisi statistica multivariata e' l'insieme - ANALISI FATTORIALE di metodi statistici usati per analizzare simultaneamente più variabili. Esistono - REGRESSIONE LINEARE - REGRESSIONE LOGISTICA molte tecniche diverse, usate per risolvere problemi anche lontani fra loro.

- SERIE STORICHE

Matrice dei dati

Unità statistiche

1 X Modalità della variabile X rilevata sull'unità statistica 1 2 3 4 … … …

Variabili rilevate

Y Z

modalità

n W Modalità della variabile W rilevata sull'unità statistica n

Popolazione di 20 individui N=20

Esempio di matrice dei dati

Variabili rilevate su ogni unità statistica Unità statistiche

1 2

Numero di figli

0 1

Altezza Sesso Titolo di studio

175 Maschio Laurea 170 Maschio Diploma 3 4 5 6 7 8 1 3 2 0 0 1 173 Femmina Diploma 180 Maschio Licenza scuola media 155 Femmina Laurea 165 Femmina Laurea 188 Maschio Diploma 175 Femmina Diploma 17 18 19 20 9 10 11 12 13 14 15 16 2 2 3 6 0 0 0 0 2 1 0 0 182 Femmina Licenza scuola media 165 Maschio Licenza scuola media 158 Maschio Diploma 188 Maschio Laurea 180 Femmina Laurea 170 Maschio Diploma 179 Femmina Laurea 169 Maschio Licenza scuola media 178 Femmina Laurea 188 Maschio Laurea 175 Maschio Diploma 165 Femmina Laurea

Tipologia di variabili: NUMERO DI FIGLI

variabile quantitativa discreta

ALTEZZA

variabile quantitativa continua

SESSO

variabile qualitativa nominale

TITOLO DI STUDIO

variabile qualitativa ordinale

Statistica descrittiva univariata

La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione.

Unità statistiche

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Numero di figli

0 1 1 3 2

Altezza

175 170 173 180 0 0 1 2 155 165 188 175 2 3 6 0 182 165 158 188 0 0 0 2 180 170 179 169 1 0 0 178 188 175 165 • Distribuzioni di frequenza • Misure di sintesi –

Misure di posizione

– –

Misure di dispersione Misure della forma della distribuzione

• Data Audit – Errori di imputazione – Dati mancanti (missing) – Valori anomali (outliers) • Analisi preliminari

Le distribuzioni di frequenza

Lista dei dati Unità statistiche Sesso

1 Maschio 2 Maschio 3 Femmina 4 Maschio 5 Femmina 6 Femmina 7 Maschio 8 Femmina 9 Femmina 10 Maschio 11 Maschio 12 Maschio 13 Femmina 14 Maschio 15 Femmina 16 Maschio 17 Femmina 18 Maschio 19 Maschio 20 Femmina

Per variabili qualitative e quantitative discrete Sesso

Femmina Maschio Totale (N)

Frequenza assoluta n i

9 11 20

Frequenza relativa p i

9/20 = 45% 11/20 = 55% 100% La distribuzione di frequenza è in grado di dando «compattare» la lista di dati un’immagine immediata e di facile lettura della distribuzione della variabile.

Le distribuzioni di frequenza

Frequenza assoluta

: è un primo livello di sintesi dei dati, consiste nell’associare a ciascuna categoria, o modalità, il numero di volte in cui compare nei dati •

Distribuzione di frequenza

: insieme delle delle loro frequenze modalità e •

Frequenza relativa

: rapporto tra la frequenza assoluta ed il numero complessivo delle osservazioni effettuate.

p i = n i / N

I due tipi di frequenze vengono usati con dati qualitativi (nominali e ordinali) e quantitativi discreti.

Le distribuzioni di frequenza

Rappresentazione grafica variabili qualitative:

Diagramma a barre – titolo di studio Diagramma a torta - sesso

Diagr. a barre :

nell’asse delle ascisse ci sono le categorie, senza un ordine preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle diverse modalità

Diagr. a torta :

la circonferenza è divisa proporzionalmente alle frequenze

Le distribuzioni di frequenza

Rappresentazione grafica var.quantitative discrete:

Diagramma delle frequenze – numero di figli

Diagr. delle frequenze :

nell’asse delle ascisse ci sono i valori assunti dalla var. discreta (quindi ha un significato quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute del valore stesso

Istogramma :

nell’asse delle ascisse ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa.

Le distribuzioni di frequenza esempi

Numero di figli Numero_di_figli Frequency Percent Cumulative Cumulative 0 1

9 4 45 20

Frequency

9 13

Percent

45 65

2 3 6

4 2 1 20 10 5 17 19 20 85 95 100

Titolo_di_studio Diploma Laurea Licenza scuola media Titolo di studio Frequency Percent

7 9 4 35 45 20

Cumulative Cumulative Frequency Percent

7 16 20 35 80 100

Misure di sintesi

Misure di posizione:

Misure di tendenza centrale:

– Media aritmetica – Mediana – Moda

Misure di tendenza non centrale:

– Quantili di ordine p (percentili, quartili)

Misure di dispersione:

• Campo di variazione • Differenza interquantile • Varianza • Scarto quadratico medio • Coefficiente di variazione

Misure di forma della distribuzione:

• Skewness • Kurtosis

Misure di sintesi

Misure di posizione:

Misure di tendenza centrale:

– Media aritmetica – Mediana – Moda

Misure di tendenza non centrale:

– Quantili di ordine p (percentili, quartili)

Misure di dispersione:

• Campo di variazione • Differenza interquantile • Varianza • Scarto quadratico medio • Coefficiente di variazione

Misure di forma della distribuzione:

• Skewness • Kurtosis

Misure di Tendenza Centrale

Tendenza Centrale Media

x  i n   1 x i n Media Aritmetica

Mediana

Valore centrale delle osservazioni ordinate

Moda

Valore pi ù frequente

Media Aritmetica

• E’ è quel valore (non necessariamente una modalità osservata) che rileva la tendenza centrale della distribuzione • E’ la misura di tendenza centrale più comune • Media = somma dei valori diviso il numero di valori • Influenzata da valori estremi (outlier)

0 1 2 3 4 5 6 7 8 9 10

Media = 3

1  2  3  4  5 5  15 5  3

0 1 2 3 4 5 6 7 8 9 10

Media = 4

1  2  3  4  10 5  20 5  4

Media Aritmetica

Voto x i 18 19 20 21 22 23 24 25 Totale

Frequenze assolute

n i 1 5 3 2 3 1 3 2 20 x i *n i (18*1)=18,00 (19*5)=95,00 (20*3)=60,00 (21*2)=42,00 (22*3)=66,00 (23*1)=23,00 (24*3)=72,00 (25*2)=50,00  = 426,00  

i k

  1

x i

n i n

 426 , 00  21 , 30 20

Mediana

• In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto)

0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

• Non influenzata da valori estremi

Moda

• Valore che occorre più frequentemente, cioè quella modalità della distribuzione di frequenza alla quale è associata la frequenza assoluta (o relativa) maggiore • Non influenzata da valori estremi • Usata sia per dati numerici che categorici • Può non esserci una moda • Ci può essere più di una moda

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Moda = 9

0 1 2 3 4 5 6

No Moda

Moda

Quale è la moda della variabile “Titolo di Studio”?

Titolo di studio Diploma Laurea Licenza scuola media Totale Frequenza relativa 35% 45% 20% 100% Quale è la moda della variabile “Sesso”?

Sesso

Femmina Maschio Totale

Frequenza assoluta

9 11 20

Media, Moda & Mediana

1 2 3 4

La moda è pari a 1, è il valore che occorre pi ù frequentemente

1 1 1 2 2 3 4

In una lista ordinata, la mediana valore “centrale”, è pari a 2 è il Media = somma dei valori diviso il numero di valori = 2

1 2 3 4 (1+1+1+2+2+3+4)/7 = (1*3 + 2*2 + 3*1 + 4*1)/7 = 14/7 = 2

Misure di Tendenza Non Centrale I quantili di ordine p

• Il quantile di ordine p (p ∈ (0,1)) è quella modalità della distribuzione che lascia prima di sé almeno il p% delle n unità statistiche indagate e dopo di sé almeno il restante (1-p)%. • Quantile è il termine generico che individua una famiglia di indici di posizione, ad esempio si parla di: –

percentili

quando p assume un valore dell’insieme {0.01;0.02;…;0.99} –

quartili

quando p assume uno dei seguenti valori {0.25;0.50;0.75}. • Si noti che la mediana (il quantile più famoso) coincide con il 50 ° percentile o il 2° quartile.

Misure di Tendenza Non Centrale I Quartili

• I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori

25% 25% 25% 25%

Q1 Q2 Q3 • Il primo quartile, Q 1 , è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso • Q 2 coincide con la mediana (50% sono minori, 50% sono maggiori) • Solo 25% delle osservazioni sono maggiori del terzo quartile

Misure di Tendenza Non Centrale ESEMPIO

MATRICE DEI DATI:

Unità statistiche

1 2 3 4 5 6 7 8 9 10

Altezza

175 170 173 180 158 166 188 175 182 165 PRINCIPALI QUANTILI:

Quantile 100% Max 99% 95% 90% 75% Q3 50% Median 25% Q1 10% 5% 1% 0% Min Estimate

190 188 184 182 180 175 167 165 160 155 150 • Il primo quartile, Q 1 , è 167, cosa significa? • Il 25% delle unità statistiche che compongono il campione hanno un’altezza minore di 167 cm e il 75% un’altezza maggiore

Box Plot

X minimo Q1 Mediana (Q2) Q3 25% 25% 25% 25% X massimo

12 30 45 57 70

Differenza Interquartile 57 – 30 = 27 INDICE DI DISPERSIONE OUTLIERS: Q1 - 1,5 * Differenza interquartile Q3 + 1,5 * Differenza interquartile

Misure di sintesi

Misure di posizione:

Misure di tendenza centrale:

– Media aritmetica – Mediana – Moda

Misure di tendenza non centrale:

– Quantili di ordine p (percentili, quartili)

Misure di dispersione:

• Campo di variazione • Differenza interquantile • Varianza • Scarto quadratico medio • Coefficiente di variazione

Misure di forma della distribuzione:

• Skewness • Kurtosis

Misure di Variabilit à

Variabilit à

Campo di Variazione Differenza Interquartile Varianza Scarto Quadratico Medio Coefficiente di Variazione

• Le misure di variabilità forniscono informazioni sulla

dispersione

o

variabilit à

dei valori.

Stesso centro, diversa variabilit à

Campo di Variazione

• La più semplice misura di variabilità • Differenza tra il massimo e il minimo dei valori osservati:

Campo di variazione = X

massimo

– X

minimo Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Campo di Variazione = 14 - 1 = 13

Campo di Variazione

• Ignora il modo in cui i dati sono distribuiti

7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5

• Sensibile agli outlier 1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 5

Campo di Var. = 5 - 1 = 4

1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 120

Campo di Var = 120 - 1 = 119

Differenza Interquartile

• Possiamo eliminare il problema degli outlier usando la differenza interquartile • Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati • Differenza Interquartile = 3 o quartile – 1 o quartile IQR = Q 3 – Q 1

Varianza

• Media dei quadrati delle differenze fra ciascuna osservazione e la media – Varianza della Popolazione: dove σ 2  i N   1 (x i  μ) 2 N μ = media della popolazione N = dimensione della popolazione x i = i imo valore della variabile X

Scarto Quadratico Medio

• Misura di variabilità comunemente usata • Mostra la variabilità rispetto alla media • Ha la stessa unità di misura dei dati originali • Assume valori maggiori o uguali a 0; il caso particolare SQM=0 si verifica solamente in caso di assenza di variabilità – Scarto Quadratico Medio della Popolazione: σ  i N   1 (x i  μ) 2 N

Scarto Quadratico Medio

Scarto quadratico medio piccolo Scarto quadratico medio grande

Scarto Quadratico Medio

Dati A

11 12 13 14 15 16 17 18 19 20 21

Dati B

11 12 13 14 15 16 17 18 19 20 21

Dati C

11 12 13 14 15 16 17 18 19 20 21

Media = 15.5

s =

3.338

Media = 15.5

s =

0.926

Media = 15.5

s =

4.570

Scarto Quadratico Medio

• Viene calcolato usando tutti i valori nel set di dati • Valori lontani dalla media hanno più peso (poich è si usa il quadrato delle deviazioni dalla media) • Le stesse considerazioni valgono anche per il calcolo della Varianza

Coefficiente di Variazione

• Misura la variabilità relativa • Sempre in percentuale (%) • Mostra la variabilità relativa rispetto alla media • Può essere usato per confrontare due o più set di dati misurati con unit à di misura diversa • Assume valori maggiori di 0 e crescenti al crescere della variabilità; ancora una volta, si avrà che CV=0 in assenza di variabilità .

C V     | x s |     100%

Coefficiente di Variazione

• Azione A: – Prezzo medio scorso anno = $50 – Scarto Quadratico Medio = $5 C V A • Azione B:     | x s |     100%  $5 $50  100%  10% – Prezzo medio scorso anno = $100 – Scarto Quadratico Medio = $5 C V B     | s x |     100%  $5 $100  100%  5% Entrambe le azioni hanno lo stesso scarto quadratico medio, ma

l’azione B è meno variabile rispetto al suo prezzo

Misure di sintesi

Misure di posizione:

Misure di tendenza centrale:

– Media aritmetica – Mediana – Moda

Misure di tendenza non centrale:

– Quantili di ordine p (percentili, quartili)

Misure di dispersione:

• Campo di variazione • Differenza interquantile • Varianza • Scarto quadratico medio • Coefficiente di variazione

Misure di forma della distribuzione:

• Skewness • Kurtosis

120 100 80 60 40 20 0

Forma della Distribuzione

• La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.

Distribuzione Simmetrica

10 9 8 2 1 0 7 6 5 4 3 1 2 3 4 5 6 7 8 9

Forma della Distribuzione

• La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro.

Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi.

Distribuzione con Asimmetria Positiva

12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9

Distribuzione con Asimmetria Negativa

12 10 8 2 0 6 4 1 2 3 4 5 6 7 8 9

Misure di Forma della Distribuzione

• Descrive come i dati sono distribuiti • Misure della forma – Simmetrica o asimmetrica

Obliqua a sinistra

Media < Mediana

Simmetrica

Media = Mediana

Obliqua a destra

Mediana < Media

Misure di Forma della Distribuzione

Skewness

: indice che informa circa il grado di simmetria o asimmetria di una distribuzione. – γ=0 ditribuzione simmetrica; – γ<0 asimmetria negativa (mediana>media); – γ>0 asimmetria positiva (mediana

Kurtosis :

indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica).

– β=3 se la distribuzione è “Normale”; – β<3 se la distribuzione è iponormale (rispetto alla distribuzione di una Normale ha densità di frequenza minore per valori molto distanti dalla media); – β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di frequenza maggiore per i valori molto distanti dalla media).

Unità statistiche

1 2 3 4 5 6 7 8 9 16 17 18 19 20 10 11 12 13 14 15

Altezza

175 170 173 180 158 166 188 175 182 169 178 188 175 165 165 158 188 180 170 179

altezza Median Mode Basic Statistical Measures Mean Location

173.9

175 165

Variability Std Deviation Variance Range Interquartile Range

9.41946

88.72632

33 13 The mode displayed is the smallest of 3 modes with a count of 3.

H8 H9 H10 H11 H12 H13 H14 H15 H16 H17 H18 N_ID H1 H2 H3 H4 H5 H6 H7 H19 H20 H21 H22 D_8_2 0.1

0 0 0.2

0.05

0.2

0.1

0.1

0.2

0.05

0 0 0 0.15

0 0.1

0 0.2

0 0.05

0.2

0.2

H234 H235 H236 0.2

0.1

0.1

Univariate Analysis

• Frequency distribution • Synthesis measures –

Measures of location

– –

Measures of spread Measures of shape

Nominal Ordinal Quantitative Distribution X X X Mode X X X • Data Audit – Input errors – Outliers – Missing values • Basic insights Percentiles Moments X X X Shape X

Analisi di Concentrazione

Caratteri quantitativi trasferibili

• Un carattere è trasferibile se possiamo immaginare che un’unità possa cedere parte del carattere che possiede ad un’altra unità.

• Sono esempi di carattere trasferibile: reddito, fatturato, numero addetti, audience televisiva, clienti.

• Sono esempi di carattere non trasferibile: altezza e peso.

Analisi di Concentrazione

Caratteri quantitativi trasferibili

Si rilevi il reddito delle famiglie di un campione. L’analisi di concentrazione ci aiuta a ripondere alla seguente domanda: Il reddito complessivo è equidistribuito tra le famiglie oppure la maggior parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di famiglie?

Vogliamo misurare il grado di concentrazione del carattere nella nostra popolazione.

Analisi di Concentrazione

Per caratteri quantitativi trasferibili

x

Equidistribuzione: 1 

x

2 

x

3  .......

x n

 μ Se tutte le famiglie hanno lo stesso reddito, si parla di

equidistribuzione

; Max concentrazione:

x

1 

x n

x

2

N

μ 

x

3  .......

x n

 1  0 Nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte le altre hanno zero reddito, si parla di

massima concentrazione

.

Analisi di Concentrazione

1.

Ordinare le osservazioni le unità sono ordinate dalla più povera alla più ricca 2.

Calcolare le quantità: F

i

i

N

Q i

 i  j  1 x j N  j  1 x j Dove F i è la frazione, sul totale delle unità, delle i unità più povere e Q i è la frazione di ammontare del carattere, sull’ammontare complessivo, posseduto dalle i unità più povere.

Analisi di Concentrazione

CURVA DI CONCENTRAZIONE REDD. >=0 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

0.0

0.1

0.2

0.3

0.4

0.5

FI 0.6

0.7

0.8

0.9

1.0

20% 50% 60% 90%