Transcript Troncamento
Distribuzioni troncate: esempio
Un vecchio amico: il dado
P(x)=1/6
Se supponiamo che 3 facce (1,2,3) siano “ cancellate”
P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x>3)= (4+5+6)*1/3= 15/3 = 5
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “piccoli”
TRONCAMENTO A SINISTRA
Se invece immaginiamo che siano cancellate le
facce 4,5,6:
P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x<4)= (1+2+3)*1/3= 6/3 = 2
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “grandi”
TRONCAMENTO A DESTRA
Effetti del Troncamento:
Rispetto alla distribuzione “non troncata”
1. La funzione di densità si modifica (“aumenta”)
2. La media si modifica (aumenta se tronc.sx, diminuisce se
tronc. A dx)
3. La varianza diminuisce in ogni caso
Ovviamente “ignorare” il troncamento porta a stime distorte
Funzione di densità di probabilità: quale relazione con la densità “non
troncata”?
In generale avremo (dalla definizione di probabilità condizionata)
f ( x / a x b)
f ( x)
Prob (a x b )
ma
Prob (a x b ) Prob (x b ) Prob (x a ) F ( b ) F ( a )
f ( x / a x b)
f ( x)
F (b ) F ( a )
F(a)
F(b)
Per un troncamento a sinistra:
f (x / x a)
f ( x)
Prob (x a )
f ( x)
1 F (a )
densità
ripartizio ne
Per un troncamento a destra:
f ( x / x b)
f ( x)
Prob (x a )
f ( x)
F (a )
densità
ripartizio ne
Questo rapporto è noto come “Inverse Mill’s Ratio” o
anche “Hazard function”
Equivale a “scalare” la troncata in modo che l’integrale
assommi a 1
Esempio: Distribuzione normale Troncamento a sx
(a )
(a )
Prob ( x a ) 1
1 ( )
( x )
1
f (x / x a)
f (x)
1 ( )
2
e
2
2
1 ( )
2
2
1
1
2
e
x
2
1 ( )
2
x
1
f
(x)
1 ( )
1 ( )
1
Dove
x2
exp
2
2
1
x
z dz
densità della N(0,1) NON troncata (è una funzione)
ripartizione della N(0,1) nel punto di troncamento
(è un numero)
Esempio: Distribuzione normale Troncamento a dx
Cambia solo il denominatore
(a )
(a )
Prob ( x a )
( )
1
( x)
f (x / x a)
( )
Esempio: Funzione di ripartizione dei logaritmi dei redditi - BdI 2014
1.2
1
0.8
F(x)
Tronchiamo a sx nel punto 10 cioè circa 22.000 euro
0.6
Osservata
Gaussiana
0.4
0.2
0
4
5
6
7
8
ln(Reddito)
9
10
11
12
Dati sulle distribuzioni (troncata nel punto ln(reddito)=10)
NON troncata
4609
100%
9,767
0,373
0,611
6%
Troncata
1592
35%
10,364
0,109
0,330
3%
DATIORIGINALI
Media
20800
Varianza
201203411
Sdev
14185
cv
68%
33915
274804136
16577
49%
Numerosità
%
media LN
Varianza LN
Sdev LN
cv
En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707
Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6
Nella distribuzione originale il valore standardizzato
(10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578
Nella troncata:
(a )
(a )
Prob ( x a ) 1
1 ( )
(10 9 , 767 )
0 , 611
1
0 ,3813 Prob ( x 10 ) 1 0 ,3813 1 0 , 6485 0 , 3515
( x)
f (x / x a)
1 ( )
1
f (10 , 6 / x 10 )
0 ,1578
0 , 611
0 ,3515
0 , 7347
Vista la relazione sulla densità è agevole ricavare quella sui parametri:
Basta calcolare l’integrale che definisce media e varianza per la troncata
Definiamo:
= E(x)
²=V(x)
(a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio)
(a)= (a)*((a)-a)
Allora:
E(x/x>a) = + (a)
V(x) = ²[1- (a)]
Valori di e al variare del punto di troncamento
1,6
1,4
Lambda
1,2
1-F(x)
1
delta
0,8
0,6
0,4
f(x)
0,2
0
-4
-2
0
2
4
Valori medi al variare del punto di troncamento (normale standardizzata)
4
3
2
1
E(x/x>a)
0
-3
-2
-1
0
-1
-2
-3
-4
1
2
3
E(x/x<a)
SQM al variare del punto di troncamento (normale standardizzata)
1
0,9
0,8
0,7
0,6
sqm(x/x>a)
0,5
sqm(x/x<a)
0,4
0,3
0,2
0,1
0
-3
-2
-1
0
1
2
3
Un esempio (artificiale):
Il 2% più ricco (coloro che hanno un reddito superiore a
100.000 €) della popolazione italiana ha un reddito medio
di 142.000 €.
Supponendo che la distribuzione dei redditi sia lognormale, qual è una stima del reddito medio dell’intera
popolazione?
Si ha:
ln(100)=4,605
ln(142)=4,956
I dati indicano che:
1. E( y/y > 4,605) = 4,956
2. Prob(y > 4,605) = 0,02
Ricordando che:
1
2
ma
E ( y / y 4 , 605 )
( )
1 ( )
4 ,956
4 , 605
( ) 0 , 98
1
( 0 ,98 ) 2 , 054
( ) ( 2 , 054 ) 0 . 0484
con
Quindi le equazioni diventano:
1
0 , 0484
con
0 , 02
2
4 , 605
che
implicano
2 , 635
2 , 054
0 , 959
ricordando
che
z N ,
si
4 , 956
se
E e
z
e
ottiene
reddito
medio
22 . 087
2
/2