Propensity score - I blog di Unica

Download Report

Transcript Propensity score - I blog di Unica

Gli utilizzi dell’analisi di regressione nelle stime DID
L’interpretazione da dare ai coefficienti α β γ δ si ricava manipolando i valori attesi della
variabile dipendente.
𝑌𝑖,𝑡 = 𝛼 + 𝛽𝑇𝑖 + 𝛾𝑃𝑡 + 𝛿𝑇𝑖 ∗ 𝑃𝑡 + 𝜀𝑖,𝑡
Si osservi che:
1) 𝐸 𝑌𝑖,𝑡 𝑇𝑖 = 0, 𝑃𝑡 = 0 = 𝛼
stima la media del reddito 1999 degli esclusi
2) 𝐸 𝑌𝑖,𝑡 𝑇𝑖 = 1, 𝑃𝑡 = 0 = ∝ +𝛽
stima la media del reddito 1999 dei beneficiari
2 − 1 = 𝛽 = stima le differenze di partenza (1999) nel reddito tra i due gruppi.
3) 𝐸 𝑌𝑖,𝑡 𝑇𝑖 = 0, 𝑃𝑡 = 1 = 𝛼 + 𝛾
stima la media del reddito 2001 degli esclusi
3 − 1 = 𝛾 = stima la dinamica spontanea (differenza tra il 2001 e il 1990 per gli esclusi)
d=effetto della politica
DID e regressione
Modello con variabile risultato espressa come differenza prima
La variabile dipendente è espressa come differenza, per ciascun individuo, tra il reddito 2001 e
il reddito 1999, indicata come ΔYi
Stimiamo il modello in cui l’unico regressore è la variabile trattamento:
∆𝑌𝑖 = 𝛾 + 𝛿𝑇𝑖 + 𝜀𝑖
Essendo la variabile dipendente espressa come differenza pre-post, viene a modificarsi il
significato dei coefficienti:
𝜸 l’intercetta (è una differenza che) stima la dinamica spontanea tra gli esclusi
𝛾 = 𝐸 ∆𝑌𝑖 𝑇𝑖 = 0
= 𝐸 𝑌𝑖,2001 − 𝑌𝑖,1999 𝑇𝑖 = 0
𝜸+δ stima la dinamica osservata per i beneficiari
𝛾 + 𝛿 = 𝐸 ∆𝑌𝑖 𝑇𝑖 = 1
= 𝐸 𝑌𝑖,2001 − 𝑌𝑖,1999 𝑇𝑖 = 1
Gli utilizzi dell’analisi di regressione
La regressione con variabile risultato espressa come differenza prima
Quindi si avrà che
𝛿 = 𝐸 𝑌𝑖,2001 − 𝑌𝑖,1999 𝑇𝑖 = 1 - 𝐸 𝑌𝑖,2001 − 𝑌𝑖,1999 𝑇𝑖 = 0
Quello appena visto è un modo per formulare la differenza nelle differenze
L’equazione stimata è la seguente:
∆𝑌𝑖,𝑡 = 2936 + 1256𝑇𝑖
(922)
(444)
N = 1725
E l’intercetta cattura la dinamica spontanea osservata fra i non trattati.
Le differenza di partenza fra i due gruppi vengono eliminate con la differenziazione. L’abilità dei
non trattati non cambia tra il 1999 e il 2001. Idem per i beneficiari.
Quindi, aggiungendo a questo modello in differenze altre X posso controllare per la ipotesi del
parallelismo. Se è poco plausibile, le X controllano per le distorsioni dovute a differenze nei
trend. Le X devono sempre essere misurate pre-trattamento.
Anche in questo caso, il modello di regressione consente di ovviare a tale problema, attraverso
l’inserimento delle variabili di controllo nella speranza di cogliere differenze nei trend.
Gli utilizzi dell’analisi di regressione
La regressione con variabile risultato espressa come differenza prima
Aggiungiamo le solite variabili di controllo e otteniamo:
∆𝑌𝑖,𝑡 = 2710 + 938𝑇𝑖 + 13,3donna + 435diplomato + 1,2età + 2,34punteggio
(922)
(444)
(42,3)
(128)
(12,5)
(1,11)
N = 1725
Il valore dell’effetto appare leggermente inferiore rispetto alle stime precedenti.
Le uniche variabili che paiono operare questa correzioni sono :
- La variabile diplomato
- La variabile punteggio
Entrambe positive e significativamente diverse da zero
Lavoro di Kiel and McClain (1995)
Valutazione d’impatto:
La collocazione di un inceneritore (trattamento) ha effetti
sul prezzo delle case (variabile risultato) vicine? Dati su
North Andover, Massachusetts. Si è saputo della sua
costruzione in quell’area nel 1978. La costruzione è iniziata
nel 1981. L’operatività dell’inceneritore è partita nel 1985.
Dati:
• Prezzo delle case vicine e lontane (3 miglia)
dall’inceneritore nel 1978 e nel 1981.
• Dati in valori monetari, $, (uso di prezzi costanti).
Confronto trattati-non trattati
Con i soli dati del 1981 si ottengono stime naive su:
rprice= prezzo delle case in termini reali
nearinc= dummy=1 se la casa è vicina all’inceneritore.
L’intercetta stimata misura il prezzo medio delle case lontane
dall’inceneritore. Il coefficiente su nearinc misura la differenza di
prezzo tra le case vicine e quelle lontane dall’inceneritore.
Questo significa che l’effetto dell’inceneritore è di
diminuire il prezzo delle case vicine di $30000?
Proviamo a replicare l’analisi con i dati del 1978:
Qui si vede che anche prima che si sapesse della sua costruzione le
case dell’area scelta per costruire l’inceneritore costavano meno
delle altre. Stima difference in difference:
Oppure stimo:
• Intercetta=prezzo medio delle case lontane
dall’inceneritore nel 1978.
• d0=cambiamento nel prezzo di tutte le case tra il
1978 e il 1981 (dinamica spontanea).
• b1= effetto della zona non dovuto all’inceneritore
(differenze di partenza).
• d1=effetto dell’inceneritore.
Aggiungo variabili al
modello per
migliorare le stime.
(2) Age= età delle
case
(3) Altre X:
• Distanza in metri
dall’inceneritore
• Mq delle case
• No. Delle camere
• No. Dei bagni
L’abbinamento statistico
Capitolo 11
A. Martini, M. Sisti, Valutare il successo delle politiche pubbliche, Il
Mulino.
L’abbinamento statistico (o propensity score matching)
E’ una metodologia molto intuitiva: consiste nel creare un gruppo di
controllo ex-post, scegliendo i non-trattati più simili, nelle
caratteristiche osservabili, ai trattati.
Una volta selezionato il gruppo di controllo ex-post, l’effetto del
trattamento è semplicemente calcolato come differenza tra le medie
della variabile-risultato nel gruppo dei trattati e nel gruppo dei nontrattati abbinati.
La media della variabile risultato delle unità non-trattate abbinate
rappresenta la stima del controfattuale.
Abbinamento statistico e metodo
sperimentale
Anche l’abbinamento statistico stima l’effetto come
differenza tra le medie dei trattati e dei non trattati.
MA
• Nell’esperimento i due gruppi sono formati ex-ante
tramite randomizzazione…Questo garantisce che i due
gruppi siano simili nelle caratteristiche osservabili e
non.
• Nell’abbinamento il gruppo di controllo è formato dopo
il trattamento. Posso solo garantire il bilanciamento tra
i due gruppi delle sole caratteristiche osservabili.
Abbinamento statistico e analisi di
regressione
Elementi comuni:
- Entrambi si basano sulla CIA - Conditional Independence Assumption.
Sull’assunto per cui le differenze di partenza nelle caratteristiche non
osservabili tra trattati e non-trattati siano in media nulle.
Differenze:
- l’abbinamento è, a differenza della regressione, un approccio non
parametrico. Non richiede di imporre una precisa forma funzionale
alla relazione tra variabile-risultato e variabili esplicative.
- L’abbinamento utilizza solo le osservazioni simili (che hanno un
supporto comune) e i soggetti più confrontabili. La regressione utilizza
tutte le osservazioni disponibili.
La differenza quindi è nel modo di utilizzare gli stessi dati a disposizione.
Elemento comune: CIA (Conditional Independence
Assumption)
Ricorda che nella regressione includevo altre variabili (confounding
factors) che influiscono sia sul processo di selezione che sulla
variabile risultato e che, se ignorate, distorcono le stime dell’effetto.
- Tali variabili, indicate con X, devono soddisfare:
𝐸 𝑣𝑖 𝑋𝑖 𝑇𝑖 = 1
= 𝐸 𝑣𝑖 𝑋𝑖 𝑇𝑖 = 0
= 0
Una volta che controllo per X, il termine 𝑣𝑖 ha media zero sia per i
trattati che per i non trattati.
CIA: La distorsione da selezione è eliminata se ci si condiziona a tutte
le X osservabili. Se il processo di selezione è davvero determinato
solo dalle X, per ogni sottogruppo con gli stessi valori di X
l’assegnazione al trattamento è come se fosse frutto di una
randomizzazione.
Differenze
Supporto comune
• I puntini
indicano gli
esclusi.
• La relazione
reddito –
punteggio è
positiva.
• Nessun trattato
ha un
punteggio
inferiore a 60,
mentre nessun
non-trattato ha
un punteggio
superiore a 90.
Regressione lineare?
Forse no.
In sintesi
Il metodo dell’abbinamento non richiede un assunto sulla forma della
relazione tra variabile-risultato e variabili di controllo.
In questo senso l’abbinamento è meno restrittivo della regressione.
D’altro canto, esso impone che esitano unità trattare e non-trattate
che abbiano caratteristiche simili, pena l’impossibilità di abbinarle
adeguatamente.
Da questo punto di vista l’abbinamento è più restrittivo della
regressione
Ma come definire quali unità sono simili?
Curse of dimensionality
Qui voglio abbinare i T=1 con i T=0 più simili. Qui abbiamo 4
caratteristiche.
Prendiamo il primo trattato (70 – 1- 1 – 25). A chi è più simile tra i
non trattati?
Più caratteristiche (X) ho, più è difficile abbinare…
Il propensity score
CIA: La distorsione da selezione è eliminata se ci si condiziona a tutte
le X osservabili. In termini di risultati potenziali… La media del
risultato potenziale Y0, condizionatamente alle variabili osservabili,
non varia tra trattati e non trattati:
𝐸 𝑌 0 𝑋, 𝑇 = 1 = 𝐸 𝑌 0 𝑋, 𝑇 = 0 = 𝐸 𝑌 0 𝑋
Si dimostra (Rosenbaum e Rubin) che:
se l’insieme delle variabili è riassunto dal PROPENSITY SCORE –
misura della probabilità che una unità venga assegnata al
trattamento date le sue caratteristiche osservabili prima del
trattamento – la CIA rimane valida.
𝐸 𝑌 0 𝑃(𝑋), 𝑇 = 1 = 𝐸 𝑌 0 𝑃(𝑋), 𝑇 = 0 = 𝐸 𝑌 0 𝑃(𝑋)
𝟎 < 𝑷 𝑿 = 𝑷 𝑻 = 𝟏 𝑿 < 𝟏 PROPENSITY SCORE
Il Propensity score deve quindi soddisfare:
0 < 𝑃 𝑇 = 1 𝑋 < 1 per tutte le unità
Ovvero, per nessun valore di X troviamo solo trattati o solo non
trattati. In altre parole:
𝑃 𝑇 = 1 𝑋 non è mai uguale 1;
𝑃 𝑇 = 1 𝑋 non è mai uguale 0.
In termini formali questo riassume la condizione del supporto
comune. Ricorda l’esempio del punteggio al test!
Riassumendo, laddove trattati e non-trattati abbiano un supporto
comune, il propensity score fa sì che non sia direttamente necessario
usare le variabili X per realizzare l’abbinamento, risolvendo così il
problema della curse of dimensionality. Uso il propensity score.
Propensity score: come si calcola?
- Utilizzare tutte le unità trattate e non trattate
- Stimare un modello probabilistico che metta in relazione la nostra
variabile trattamento T con le variabili osservabili.
- Il modello da utilizzare sarà un modello di regressione logistica (o
probit) che ha come variabile dipendente binaria=trattamento e
come esplicative le mie X.
NOTARE: in questa stima la variabile risultato viene completamente
messa da parte.
La stima considera la seguente relazione funzionale (logit):
𝑒 𝛼+𝛽𝑋
𝑃 𝑇=1𝑋 =
1 + 𝑒 𝛼+𝛽𝑋
Regressione Lineare
Qui stimo una probabilità negativa di ricevere il trattamento nel caso
in cui il punteggio al test sia minore di 40. E nel caso sia maggiore di
90?
Modello Logit
L’effetto delle X su la mia Y dicotomica non è costante come x l’OLS. Varia al variare del livello di X. Un
punto in più al test implica un aumento nella probabilità di accedere al trattamento, ma tale aumento
non è costante al variare del punteggio. Classica forma ad «esse» della regressione logistica.
Propensity score: come si calcola?
𝑒 𝛼+𝛽1 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜+𝛽2 𝑠𝑒𝑠𝑠𝑜+𝛽3 𝑑𝑖𝑝𝑙𝑜𝑚𝑎+𝛽4 𝑒𝑡à
𝑃 𝑇=1𝑋 =
1 + 𝑒 𝛼+𝛽1 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜+𝛽2 𝑠𝑒𝑠𝑠𝑜+𝛽3 𝑑𝑖𝑝𝑙𝑜𝑚𝑎+𝛽4 𝑒𝑡à
Effetti marginali: sono valutati al valore medio delle X. Infatti, la
relazione tra X e probabilità di essere trattato qui non è lineare.
+1.42 indica che l’effetto di un punto in più al test è di
aumentare del 1.42% la probabilità di ricevere il trattamento (la
borsa-lavoro).
Esempio:
𝑒 𝛼+𝛽1 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜+𝛽2 𝑠𝑒𝑠𝑠𝑜+𝛽3 𝑑𝑖𝑝𝑙𝑜𝑚𝑎+𝛽4 𝑒𝑡à
𝑃 𝑇=1𝑋 =
1 + 𝑒 𝛼+𝛽1 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜+𝛽2 𝑠𝑒𝑠𝑠𝑜+𝛽3 𝑑𝑖𝑝𝑙𝑜𝑚𝑎+𝛽4 𝑒𝑡à
VARIABILE DIPENDENTE: aver ricevuto o meno la borsa-lavoro
VARIABILI ESPLICATIVE: punteggio, sesso, titolo di studio, età…