Transcript Troncamento
Distribuzioni troncate: esempio Un vecchio amico: il dado P(x)=1/6 Se supponiamo che 3 facce (1,2,3) siano “ cancellate” P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x>3)= (4+5+6)*1/3= 15/3 = 5 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “piccoli” TRONCAMENTO A SINISTRA Se invece immaginiamo che siano cancellate le facce 4,5,6: P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x<4)= (1+2+3)*1/3= 6/3 = 2 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “grandi” TRONCAMENTO A DESTRA Effetti del Troncamento: Rispetto alla distribuzione “non troncata” 1. La funzione di densità si modifica (“aumenta”) 2. La media si modifica (aumenta se tronc.sx, diminuisce se tronc. A dx) 3. La varianza diminuisce in ogni caso Ovviamente “ignorare” il troncamento porta a stime distorte Funzione di densità di probabilità: quale relazione con la densità “non troncata”? In generale avremo (dalla definizione di probabilità condizionata) f ( x / a x b) f ( x) Prob (a x b ) ma Prob (a x b ) Prob (x b ) Prob (x a ) F ( b ) F ( a ) f ( x / a x b) f ( x) F (b ) F ( a ) F(a) F(b) Per un troncamento a sinistra: f (x / x a) f ( x) Prob (x a ) f ( x) 1 F (a ) densità ripartizio ne Per un troncamento a destra: f ( x / x b) f ( x) Prob (x a ) f ( x) F (a ) densità ripartizio ne Questo rapporto è noto come “Inverse Mill’s Ratio” o anche “Hazard function” Equivale a “scalare” la troncata in modo che l’integrale assommi a 1 Esempio: Distribuzione normale Troncamento a sx (a ) (a ) Prob ( x a ) 1 1 ( ) ( x ) 1 f (x / x a) f (x) 1 ( ) 2 e 2 2 1 ( ) 2 2 1 1 2 e x 2 1 ( ) 2 x 1 f (x) 1 ( ) 1 ( ) 1 Dove x2 exp 2 2 1 x z dz densità della N(0,1) NON troncata (è una funzione) ripartizione della N(0,1) nel punto di troncamento (è un numero) Esempio: Distribuzione normale Troncamento a dx Cambia solo il denominatore (a ) (a ) Prob ( x a ) ( ) 1 ( x) f (x / x a) ( ) Esempio: Funzione di ripartizione dei logaritmi dei redditi - BdI 2014 1.2 1 0.8 F(x) Tronchiamo a sx nel punto 10 cioè circa 22.000 euro 0.6 Osservata Gaussiana 0.4 0.2 0 4 5 6 7 8 ln(Reddito) 9 10 11 12 Dati sulle distribuzioni (troncata nel punto ln(reddito)=10) NON troncata 4609 100% 9,767 0,373 0,611 6% Troncata 1592 35% 10,364 0,109 0,330 3% DATIORIGINALI Media 20800 Varianza 201203411 Sdev 14185 cv 68% 33915 274804136 16577 49% Numerosità % media LN Varianza LN Sdev LN cv En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707 Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6 Nella distribuzione originale il valore standardizzato (10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578 Nella troncata: (a ) (a ) Prob ( x a ) 1 1 ( ) (10 9 , 767 ) 0 , 611 1 0 ,3813 Prob ( x 10 ) 1 0 ,3813 1 0 , 6485 0 , 3515 ( x) f (x / x a) 1 ( ) 1 f (10 , 6 / x 10 ) 0 ,1578 0 , 611 0 ,3515 0 , 7347 Vista la relazione sulla densità è agevole ricavare quella sui parametri: Basta calcolare l’integrale che definisce media e varianza per la troncata Definiamo: = E(x) ²=V(x) (a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio) (a)= (a)*((a)-a) Allora: E(x/x>a) = + (a) V(x) = ²[1- (a)] Valori di e al variare del punto di troncamento 1,6 1,4 Lambda 1,2 1-F(x) 1 delta 0,8 0,6 0,4 f(x) 0,2 0 -4 -2 0 2 4 Valori medi al variare del punto di troncamento (normale standardizzata) 4 3 2 1 E(x/x>a) 0 -3 -2 -1 0 -1 -2 -3 -4 1 2 3 E(x/x<a) SQM al variare del punto di troncamento (normale standardizzata) 1 0,9 0,8 0,7 0,6 sqm(x/x>a) 0,5 sqm(x/x<a) 0,4 0,3 0,2 0,1 0 -3 -2 -1 0 1 2 3 Un esempio (artificiale): Il 2% più ricco (coloro che hanno un reddito superiore a 100.000 €) della popolazione italiana ha un reddito medio di 142.000 €. Supponendo che la distribuzione dei redditi sia lognormale, qual è una stima del reddito medio dell’intera popolazione? Si ha: ln(100)=4,605 ln(142)=4,956 I dati indicano che: 1. E( y/y > 4,605) = 4,956 2. Prob(y > 4,605) = 0,02 Ricordando che: 1 2 ma E ( y / y 4 , 605 ) ( ) 1 ( ) 4 ,956 4 , 605 ( ) 0 , 98 1 ( 0 ,98 ) 2 , 054 ( ) ( 2 , 054 ) 0 . 0484 con Quindi le equazioni diventano: 1 0 , 0484 con 0 , 02 2 4 , 605 che implicano 2 , 635 2 , 054 0 , 959 ricordando che z N , si 4 , 956 se E e z e ottiene reddito medio 22 . 087 2 /2