Troncamento

Transcript Troncamento

Distribuzioni troncate: esempio
Un vecchio amico: il dado
P(x)=1/6
Se supponiamo che 3 facce (1,2,3) siano “ cancellate”
P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x>3)= (4+5+6)*1/3= 15/3 = 5
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “piccoli”
TRONCAMENTO A SINISTRA
Se invece immaginiamo che siano cancellate le
facce 4,5,6:
P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x<4)= (1+2+3)*1/3= 6/3 = 2
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “grandi”
TRONCAMENTO A DESTRA
Effetti del Troncamento:
Rispetto alla distribuzione “non troncata”
1. La funzione di densità si modifica (“aumenta”)
2. La media si modifica (aumenta se tronc.sx, diminuisce se
tronc. A dx)
3. La varianza diminuisce in ogni caso
Ovviamente “ignorare” il troncamento porta a stime distorte
Funzione di densità di probabilità: quale relazione con la densità “non
troncata”?
In generale avremo (dalla definizione di probabilità condizionata)
f ( x / a  x  b) 
f ( x)
Prob (a  x  b )
ma
Prob (a  x  b )  Prob (x  b )  Prob (x  a )  F ( b )  F ( a )
 f ( x / a  x  b) 
f ( x)
F (b )  F ( a )
F(a)
F(b)
Per un troncamento a sinistra:
f (x / x  a) 
f ( x)
Prob (x  a )

f ( x)
1  F (a )

densità
ripartizio ne
Per un troncamento a destra:
f ( x / x  b) 
f ( x)
Prob (x  a )

f ( x)
F (a )

densità
ripartizio ne
Questo rapporto è noto come “Inverse Mill’s Ratio” o
anche “Hazard function”
Equivale a “scalare” la troncata in modo che l’integrale
assommi a 1
Esempio: Distribuzione normale Troncamento a sx
 
(a   )

 (a   ) 
 Prob ( x  a )  1   
  1   ( )
 

( x )
1
f (x / x  a) 
f (x)
1   ( )

2 
e
2
2
1   ( )
2
2

1
1

2
e
 x 


  
2
1   ( )
2

x 
1
f

 (x)
   
 
1   ( )
1   ( )
1
Dove
 x2 

exp 

2
2


1
 x  
   



  z dz
densità della N(0,1) NON troncata (è una funzione)
ripartizione della N(0,1) nel punto di troncamento
(è un numero)
Esempio: Distribuzione normale Troncamento a dx
Cambia solo il denominatore
 
(a   )

 (a   ) 
 Prob ( x  a )   
   ( )
 

1
 ( x)
f (x / x  a)  
 ( )
Esempio: Funzione di ripartizione dei logaritmi dei redditi - BdI 2014
1.2
1
0.8
F(x)
Tronchiamo a sx nel punto 10 cioè circa 22.000 euro
0.6
Osservata
Gaussiana
0.4
0.2
0
4
5
6
7
8
ln(Reddito)
9
10
11
12
Dati sulle distribuzioni (troncata nel punto ln(reddito)=10)
NON troncata
4609
100%
9,767
0,373
0,611
6%
Troncata
1592
35%
10,364
0,109
0,330
3%
DATIORIGINALI
Media
20800
Varianza
201203411
Sdev
14185
cv
68%
33915
274804136
16577
49%
Numerosità
%
media LN
Varianza LN
Sdev LN
cv
En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707
Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6
Nella distribuzione originale il valore standardizzato
(10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578
Nella troncata:
 
 
(a   )

 (a   ) 
 Prob ( x  a )  1   
  1   ( )
 

(10  9 , 767 )
0 , 611
1
 0 ,3813  Prob ( x  10 )  1   0 ,3813   1  0 , 6485  0 , 3515
 ( x)
f (x / x  a)  
1   ( )
1
f (10 , 6 / x  10 ) 
0 ,1578
0 , 611
0 ,3515
 0 , 7347
Vista la relazione sulla densità è agevole ricavare quella sui parametri:
Basta calcolare l’integrale che definisce media e varianza per la troncata
Definiamo:
= E(x)
²=V(x)
(a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio)
(a)= (a)*((a)-a)
Allora:
E(x/x>a) =  +  (a)
V(x) = ²[1- (a)]
Valori di  e  al variare del punto di troncamento
1,6
1,4
Lambda
1,2
1-F(x)
1
delta
0,8
0,6
0,4
f(x)
0,2
0
-4
-2
0
2
4
Valori medi al variare del punto di troncamento (normale standardizzata)
4
3
2
1
E(x/x>a)
0
-3
-2
-1
0
-1
-2
-3
-4
1
2
3
E(x/x<a)
SQM al variare del punto di troncamento (normale standardizzata)
1
0,9
0,8
0,7
0,6
sqm(x/x>a)
0,5
sqm(x/x<a)
0,4
0,3
0,2
0,1
0
-3
-2
-1
0
1
2
3
Un esempio (artificiale):
Il 2% più ricco (coloro che hanno un reddito superiore a
100.000 €) della popolazione italiana ha un reddito medio
di 142.000 €.
Supponendo che la distribuzione dei redditi sia lognormale, qual è una stima del reddito medio dell’intera
popolazione?
Si ha:
ln(100)=4,605
ln(142)=4,956
I dati indicano che:
1. E( y/y > 4,605) = 4,956
2. Prob(y > 4,605) = 0,02
Ricordando che:
1
2 
ma

E ( y / y  4 , 605 )   
 
 ( )
1   ( )
 4 ,956
4 , 605  

 ( )  0 , 98    
1
( 0 ,98 )  2 , 054
 (  )   ( 2 , 054 )  0 . 0484
con
Quindi le equazioni diventano:
1
 
0 , 0484 
con
0 , 02
2 
4 , 605  
che
implicano

  2 , 635
 2 , 054
  0 , 959
ricordando
che
z  N  , 
si
 4 , 956

se
 
E e
z
e
 
ottiene
reddito
medio
 22 . 087
2
/2