Transcript prezentace

Funguje to, co děláme?
aneb
možnosti kontrafaktuálních evaluačních přístupů ke
zjišťování skutečných účinků veřejných politik.
(V prezentaci je použita část materiálů z letní školy ve
Fenestrele 1.-12.9.2010, vedené
Albertem Martinim)
Jazyková terminologická poznámka
• Terminologie Counterfactual impact evaluation v
současné době nemá ustálenou českou podobu
(případně nemá žádnou českou podobu).
• Rozvoj českého pojmosloví je jedním z
vedlejších cílů evaluačního projektu, v jehož
rámci se koná tento seminář.
• Ve svém vystoupení tak budu užívat jak
anglických termínů, tak budu experimentovat s
možnými odpovídajícími českými pojmy.
• Zpětnou vazbu k pojmosloví vítáme!
Cíl workshopu
• Seznámit s konceptem Counterfactual Impact Evaluation
(?srovnávacího hodnocení dopadů?), možnostmi a limity
použití použití jednotlivých metod.
• Ambice je v posunu účastníků ze stavu „nevím, co
nevím“ do stavu „vím, co nevím“ (nenaučím vás CIE).
• Připravit předmostí pro častější používání kvantitativních
metod v prostředí českých strukturálních fondů.
• Přinést úvod do problematiky před navazujícím
workshopem, který se věnuje aplikaci metod CIE na
oblast podpory 1.1 OP LZZ – „Adaptabilita“
Co to je ta
Counterfactual impact evaluation
• Nejprve se pustíme vysvětlení klíčových
pojmů: counterfactual a impact
• O vysvětlení pojmu evaluace se raději
pokoušet nebudu…
Kontext
Při hodnocení programů strukturálních fondů existují tři
základní otázky:
• „Manažerská“: Plním plán?
– Na tuto otázku více-méně odpovídá monitoring
• „Politická“: Přináší to výsledky dostatečné, abych byl
opět zvolen? (Accountability)
– Pokrok metodou pokusů a omylů?
• „Vědecká“: Co funguje, jak a proč?
– Intuice se může mýlit, co platí jsou důkazy.
– Kauzalita se nemůže jen předpokládat, musí se prokázat (snižují
rekvalifikace nezaměstnanost?).
V současná (česká/evropská) evaluační praxe stojí hodně
na názorech expertů a málo na rigorózních důkazech,
často se píše o tom, jak a proč něco funguje, aniž by se
věrohodně prokázalo, že to vůbec funguje.
Counterfactual impact evaluation
Counterfactual impact evaluation je důsledně vědecký převážně
kvantitativní přístup opírající se experimenty a kvaziexperimenty
(kontrolní a srovnávací skupiny / control & comparison groups).
Není to jediný správný přístup (průzkumy, případové studie,
ekonometrické modelování, kvalitativní metody obecně jsou také
důležité).
Není vždy použitelný (vyžaduje velké „N“, dostatek dat, určitý typ
intervence…).
Pomocí CIE nelze hodnotit program jako celek (příliš složitý komplex),
ale velmi dobře některé projekty, výzvy či oblasti podpory.
Ale pokud jde použít, představuje „zlatý standard“ kvality důkazů.
V rigorózním designu CIE se snadno hledají chyby (pro toho, kdo tomu
rozumí), protože je velmi transparentní. CIE evaluátoři jsou
nazí evaluátoři.
What the hell is „Counterfactual“!?
• „Český“ pojem kontrafaktuál není nic moc.
• Nenapadá mě výstižnější než „co-by-kdyby“.
• Counterfactual tedy označuje hypotetickou situaci, která
by nastala, pokud by intervence nebyla realizována. Jde
o stav cílové oblasti v případě alternativní historie.
• Counterfactual nelze pozorovat, jde o fikci, ideu. V řadě
případů však lze pomocí statistických metod a za
explicitně vyjádřených předpokladů counterfactual
věrohodně odhadnout (estimate).
• Odhad kontrafaktuálu (?nulové varianty?) je ústředním
problémem Counterfactual impact evaluation – CIE.
Intermezzo I
Terminologická vsuvka
• Pozorovatelnost
• Observability
• Dostupnost dat
• Data accessibility
• Je principiální,
teoretická.
• Je praktická
záležitost, dostupnost
může být limitována
rozpočtem,
(ne)existencí
záznamů atd.
Dekonstrukce pojmu Impact
• Impact, česky dopad je v žargonu
strukturálních fondů (vzor 2007-2013)
zpravidla chápán v souvislosti s logickým
rámcem (logframe, logical framework) jako
nějaký finální výsledek, dlouhodobý efekt
intervence kdesi na konci tradiční kauzální
linie
vstup => aktivita => výstup => výsledek => dopad
Stylizovaný logframe
vstupy
aktivity
výstupy výsledky
operativní
specifické
cíle
Jak se toto
sleduje?
indikátory
dopady
globání
Indikátory dopadu
• Současné (2007-2013) metodiky EK říkají:
• “The ultimate objective of Structural Funds and Cohesion
Fund assistance is a certain impact, measured as far as
possible by impact indicators”
• Indikátory mají různá označení, která pomáhají uchopit
jejich význam.
• Máme indikátory vstupů (input indicators), indikátory
výstupů (output indicators), … indikátory dopadů (impact
indicators), indikátory kontextu (contextual indicators),…
• Pokud indikátory výstupů měří výstupy, pak indikátory
dopadů měří dopady???
dopady.
NE!
• Protože to by znamenalo, že impact je
pozorovatelný a stav cílové oblasti po
intervenci je ovlivněn pouze intervencí
samotnou.
Aby bylo jasno:
Na indikátorech není nic špatného.
Něco shnilého ve státě dánském je však s
indikátory pokud jde o přičitatelnost (attribution).
Klíčovou otázkou je, zda indikátory samy o sobě
mohou měřit impact/dopad.
Intermezzo II
Dva často zaměňované pojmy
• Contribution
(česky = přispění?)
• Attribution
(česky = přičitatelnost?)
• Užívá se pro vyjádření, že
zkoumaná intervence má
nějaký účinek na cílovou
oblast, tj. je schopna dění v
cílové oblasti (nějak) ovlivnit.
Neboli: je intervence jedním z
faktorů ovlivňujících cílovou
oblast? Na „contribution“ lze
usuzovat z konstrukce teorie
změny (popisu kauzálních
vztahů intervence) a
zkoumáním naplnění jejích
předpokladů.
• Označuje skutečný příspěvek
intervence ke stavu cílové
oblasti. Co intervence
skutečně způsobila? Jakou
změnu cílové oblasti lze přičíst
jen intervenci po očištění
dalších vlivů? „Attribution“ lze
odhadnout pomocí metod
„Counterfactual impact
evaluation (CIE)“.
Odlišné významy Impact
• V kontextu
logického rámce (a
EK 2007-2013)
• Pozorovatelná
proměnná
• Stav, který
plánujeme, nebo si
přejeme, aby nastal
• V kontextu
counterfactual
impact evaluation
(a snad EK 2014+)
• Nepozorovatelný
rozdíl mezi
pozorovatelnou
skutečností a
hypotetickým stavem
• Skutečný účinek
intervence
Na logických rámcích není nic
špatného
• Jsou nenahraditelné pro plánování
(Kéž by každý program či projekt měl už v základním dokumentu
namalovanou teorii změny!)
• Jsou důležité pro monitoring
• Jsou užitečné pro evaluace
• Ale nemohou dost dobře odpovědět na
základní otázku: „FUNGUJE TO?“
Impact v kontextu CIE
• Sociální vědy definují impact/dopad jako
• “the difference between a situation observed
after a stimulus has been applied and the
situation that would have occurred without such
stimulus”
• „rozdíl mezi situací pozorovanou po provedené
intervenci a situací, která by nastala bez takové
intervence“.
Co je tedy impact?
• Impact lze definovat pouze, pokud víme:
• Dopad čeho zkoumáme (intervence/treatment)
• Dopad pro koho (a ve srovnání s kým)
zkoumáme
(pro podpořené osoby, firmy)
• Dopad na co zkoumáme
(na konkrétní proměnnou – tržby, zaměstnanost,
výdělek…)
• Otázka jaké jsou dopady OP LZZ proto bez
dalšího upřesnění nedává smysl.
Co je tedy impact?
• Dopad/impact je definován jako rozdíl v
hodnotě zkoumaného indikátoru (Y) v
situaci s intervencí (Y1) a v situaci bez
intervence (Y0).
• Tedy, impact = Y1 – Y0
• Impact lze v tomto kontextu použít jako
synonymum slov efekt, účinek, dopad.
Nemá smysl se zabývat tím, zda jde o
efekt krátkodobý či dlouhodobý.
Co je tedy contrafactual impact
evaluation?
“An impact evaluation is a study which tackles the issue of
attribution by identifying the counterfactual value of Y
(Y0) in a rigorous manner“
CIE je studie, která řeší problém přičitatelnosti (attribution)
pomocí hledání kontrafaktuální hodnoty Y (Y0)
rigorózním, vědeckým způsobem.
CIE není umění. Je to věda.
No dobře, je to věda, při které se občas hodí trocha intuice.
Ideální postup evaluace
Kvalitativní přípravná studie s cílem porozumět
zkoumané intervenci (klíčové je přesné zmapování
procesu výběru účastníků/participants).
2. Kvantitativní evaluace - konstrukce kontrafaktálu
(získáme odpověď na otázku FUNGUJE TO?) (CIE)
3. Pokud to statistické parametry (velikost vzorku apod.)
dovolí, lze zkoumat otázku PRO KOHO TO FUNGUJE
LÉPE? (CIE)
(Ryzí kvantitativci mohou skončit zde.)
4. Kvalitativní studie (např. případové studie) s cílem
vysvětlit PROČ TO (NE)FUNGUJE? (Theory based
evaluation, case studies)
1.
Jak účinkuje intervence
Zjednodušený příklad
• Předpokládejme, že náš program (treatment)
spočívá v možnosti získat grant v jednotné výši
50.000 Kč na vytvoření jednoho pracovního
místa. Jde o binární proměnou, buď T=1
(existuje možnost grantu) nebo T=0 (neexistuje
možnost grantu). Pro zjednodušení: každý, kdo
grant dostane, pracovní místo i vytvoří.
• Výsledek je také binární, buď se vytvoří místo
(Y=1) nebo nevytvoří (Y=0).
Co může v tomto jednoduchém světě nastat?
Počet vytvořených míst
S intervencí Bez intervence
(Y|T=1)
(Y|T=0)
Dopad
(Y|T=1) - (Y|T=0)
1
0
= 1
Always takers/pilní:
1
1
= 0
Never takers/líní:
0
0
= 0
1
= -1
Compliers/ovlivnitelní:
Defiers (kverulanti):
(také se jim říká puberťáci)
0
Možné výsledky
T=1
Pozitivní dopad je jen mezi ovlivnitelnými,
je však obtížné je identifikovat
COMPLIERS
1
ALWAYS-TAKERS
=1
=0
=0
0 NEVER TAKERS
 = -1
1
DEFIERS
T=0
T=1
COMPLIERS
1
=1
ALWAYS-TAKERS
=0
Řekněme, že neexistují (nebo jich je
zanedbatelný počet – jsou fakt divní).
=0
0
 = -1
NEVER TAKERS
DEFIERS (Pokud existují)
1
T=0
T=1
COMPLIERS
1
=1
=0
ALWAYS-TAKERS
=0
0
Jsou pozorovatelní:
NEVER TAKERS Ti, kteří si grant mohli vzít, ale nevzali. T=0
T=1
Vzali si grant a změnili své
chování
COMPLIERS
1
0
=1
ALWAYS-TAKERS
Vzali si grant, ale nové místo by
vytvořil i bez něj
=0
1
T=0
T=1
Neexistuje zjevný způsob jak je odlišit
COMPLIERS
1
0
=1
ALWAYS-TAKERS
=0
1
T=0
Co může v tomto jednoduchém světě nastat?
S intervencí Bez intervence
Impact
(Y|T=1)
(Y|T=1) - (Y|T=0)
(Y|T=0)
Compliers (ovlivnitelní):
1
0
= 1
Always takers (pilní):
1
1
= 0
Never takers (líní):
0
0
= 0
Defiers (kverulanti):
0
1
= -1
(také se jim říká puberťáci)
Compliers: Y = 1
Always takers : Y = 1
Never takers : Y = 0
To je vše
co lze
pozorovat!
Se všemi daty (a se všemi myslitelnými
indikátory) nemůžeme určit, které z 1000
podpořených firem by vytvořily pracovní místo
i bez obdrženého grantu.
Takže zatím nevíme, jaký byl dopad
naší politiky
A také zde narážíme na jeden
další pojem – Mrtvá váha
• DEADWEIGHT není nic jiného než maskovaný
counterfactual;
• DEADWEIGHT je výsledek always-takerů;
• DEADWEIGHT není efekt, který by se měl odečíst,
spíše ukazuje na absenci zamýšleného efektu
zkoumané politiky;
• DEADWEIGHT je zpravidla uvažován, jen pokud stojí
peníze, jinak nikoho nezajímá (přitom čistě logicky mrtvá
váha politiky nařizující snížení rychlosti na silnici jsou ti,
kteří jezdí pomalu sami od sebe);
• DEADWEIGHT pohřbíme na Hřbitov Zbytečných Pojmů,
protože
– Je nepozorovatelný, a proto nepoužitelný v monitoringu
– Je redundantní v konceptu CIE
Occamova břitva
“entia non sunt multiplicanda
praeter necessitatem”
„pojem nemá být vytvořen pokud to není
nezbytně nutné“.
† Deadweight
Hřbitov zbytečných pojmů
† Hrubý dopad
† Čistý dopad
† Indikátory dopadu
† Účelnost / Effectiveness
† (Účinnost / Efficiency)
Odlišit compliers a always takers je stejný
problém jako odlišit impact a
counterfactual (nebo †deadweight)
Potřebujeme další data a (netestovatelné) předpoklady,
abychom mohli impact odhadnout.
Potřebujeme identifikační strategii
(identification strategy)
Přehled identifikačních strategií
(designů CIE)
Existuje několik základních přístupů, které
vyžadují různě silné předpoklady.
Neexistuje univerzálně nejlepší přístup.
Některé ale vyžadují tak silné předpoklady,
že jsou v praxi neužívané (ale svojí
jednoduchostí se hodí k pochopení těch
složitějších).
Zpravidla mají velmi silnou interní validitu,
avšak často slabší externí validitu.
Intermezzo III
Terminologická vsuvka
• Vnitřní platnost
• Internal validity
• Vnější platnost
• External validity
• Vnitřní čistota vědeckého
postupu, kdy ze samotné
jeho konstrukce vyplývá
platnost závěrů pro
konkrétní zkoumaný jev.
• Souvisí se zobecnitelností
závěrů.
• Např.: pokud prokáži s velkou
interní validitou, že impact OP
LZZ na zaměstnanost
podpořených žen v jihočeském
kraji ve srování s nepodpořenými
byl velký, mohu usuzovat, že OP
LZZ bude fungovat i na muže v
moravskoslezském kraji?
Interní a externí validita
Slabou interní validitu má např. fokusní skupina
vybraná metodou sněhové koule.
Slabiny CIE metod v externí validitě lze odstranit
opakováním velkého množství evaluací
obdobných intervencí nebo kombinací s
kvalitativními metodami (mixed methods), kdy
poté, co díky CIE zjistím, jak moc intervence
funguje, mi např. Theory based impact
evaluation může osvětlit, proč to funguje.
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
PRE & POST
• Měříme pouze situaci účastníků před intervencí
a po intervenci.
• Tzv. one group pretest posttest design (Před a
po bez kontrolní skupiny)
• Základní předpoklad: neexistuje přirozená
dynamika, tj. bez politiky by zůstal původní stav
• Takto lze např. zjišťovat „Dopad stavebních
aktivit ŘSD v roce 2010 na délku dálniční sítě v
ČR“
80,000
PRE-POST ( I.A.: LACK OF NATURAL DYNAMICS)
75,000
R&D expenditure
75,000
T=1
70,000
Impact =
10.000?
65,000
65,000
60,000
55,000
50,000
PRE
POST
PRE & POST
• Problém je v akceptovatelnosti předpokladu, že
neexistuje přirozená dynamiky, protože věci se,
jak známo, mění samy od sebe.
• Pokud přirozená dynamika je nulová, pak je
dopad skutečně roven rozdílu mezi konečnou a
výchozí situací.
• Pokud však je přirozená dynamika pozitivní (věci
se samovolně zlepšuji), pak by byl dopad
nadhodnocen.
• Pokud je přirozená dynamika negativní (věci se
zhoršují), pak by byl dopad podhodnocen.
PRE & POST
• Možností rozvinutí tohoto přístupu je
získání dalších pozorování – časové řady
• One group interupted time-series design
Výdaje na vzdělávání zaměstnanců (mil. Kč)
30
25
Impact?
Výdaje
20
15
10
Začátek intervence
5
0
PRE (t-3)
PRE (t-2)
PRE (t-1)
Čas
PRE (t)
POST (t+1)
PRE & POST
• Předpoklad absence přirozené dynamiky
se mění na předpoklad neměnnosti
trendu.
• Stále velmi silný předpoklad
• (Můžete se třeba pokusit vyloučit všechna
alternativní vysvětlení, proč by se trend
mohl změnit.)
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
Intuitivní příklad?
• Ve třídě nabídneme doučování z matematiky.
• Část žáků se přihlásí, část nikoliv.
• Na konci roku je průměrná známka z
matematiky ve skupině doučovaných 3,2 a ve
skupině nedoučovaných 2,7.
• Bylo doučování prospěšné?
• Jaký je impact/dopad doučování?
• Jak probíhal proces výběru (selection process)?
WITH & WITHOUT
• Měříme situaci účastníků po intervenci a
situaci neúčastníků po intervenci, rozdíl
považujeme za dopad.
• Základní předpoklad: neexistují
předintervenční rozdíly mezi skupinami
způsobené procesem výběru účastníků
• Nebo jinak: pokud by ani jedna skupina
nebyla podpořena, jejich výsledky by byly
stejné.
Diskuse
• Navrhněte způsob, jak změřit účinek
(impact) doučování žáků z matematiky.
Jak zajistit totožnost (tedy porovnatelnost) skupiny
účastníků a neúčastníků, tj. nulový selection bias
– nulové zkreslení výběrem účastníků?
Tady aby výsledek účastníků a neúčastníků
v situaci bez intervence byl totožný?
NEJLEPŠÍ ZNÁMÝ ZPŮSOB JE
PROVÉST
NÁHODNÉ PŘIŘAZENÍ
(RANDOM ASSIGNMENT)
48
Experimentální metody
Randomized control trials
• Experimentální design používá náhodně
vybranou skupinu účastníků (treated group) a
kontrolní skupinu (control group).
• Při použití náhodného přiřazení centrální limitní
věta (a dostatečná velikost obou skupin) zajistí,
že obě skupiny jsou ekvivalentní ve svých
pozorovatelných i nepozorovatelných
charakteristikách.
• Tento přístup má silnou interní validitu (byť
existují problémy, zvláště pokud se ví, kdo je v
jaké skupině – viz tzv. Hawthrone effect), ale
omezenou možnost zobecnění.
Výběr ve skutečném světě
strukturálních fondů
• 1. Oprávněnost
Oprávněnost je dána na základě pozorovatelných,
zpravidla objektivních veličin (působí to selecion bias?).
• 2. Rozhodnutí o účasti
Ne všichni oprávnění podají žádost, rozhodují o tom
nepozorovatelné jevy (působí to selection bias?).
• 3. Výběr
Rozhodování o tom, koho podpořit, probíhá na základě
pozorovatelných objektivních i subjektivních veličin, s
určitou dávkou náhodnosti (působí to selection bias?).
Výběr ve skutečném světě
strukturálních fondů
• Složitý proces výběru také přináší otázku,
jaký impact sledovat:
– Podpořené projekty ve srovnání s
nepodpořenými?
– Podpořené projekty ve srovnání s těmi, co se
nepřihlásili?
– Podpořené projekty ve srovnání s
neoprávněnými?
• Vše přináší určitou informaci, ne všechno
je v praxi stejně snadné.
Zpět k experimentům
• Přestože je možnost experimentálního
designu pro evaluaci strukturálních fondů
velmi nepravděpodobná, není to tak
nesmyslné, jak se na první pohled zdá.
Zpět k experimentům
• Etická námitka: Nemůžete přeci losovat, kdo
dostane podporu a kdo ne, jak k tomu ti
nepodpoření přijdou?
• Pokud jsme si jistí, že to funguje a nepodpoření
mají újmu, tak proč evaluovat?
• Pokud si nejsme jistí, že to funguje, jaká újma?
• Podívejte na lékaře, ti v experimentech zabíjejí
lidi (určitě mnoho lidí zemřelo jen proto, že byly v
kontrolní skupině), kvůli nám nikdo neumře.
Co by mohlo být možné
(pokud vůbec něco)
• Pipeline approach – pokud je poptávka větší než
kapacita poskytovatele dotací a nelze všem dát hned,
nabízí se možnost losovat kdy na konkrétní projekt dojde
(teď nebo za dva roky?), což přináší možnost evaluovat
rozdíly ve vývoji po dobu dvou let (častý přístup v
rozvojové pomoci).
• Různá podpora – např. část projektů dostane úvěr, část
grant. CIE pak hodnotí, která z intervencí je lepší
(darwinovský přístup k vývoji politik).
• Random encouragement (více u Instrumental variable
design).
Regression discontinuity design
• Využití situace přirozeného experimentu
(natural experiment).
Regresní diskontinuita
Předpoklady
• Existuje nějaká spojitá proměnná, která
skokově ovlivňuje pravděpodobnost účasti
v podpoře.
Úsek, kde funkce p(T=1)
p(T=1)
1
nemá definovanou
derivaci
Cut off point
Funkce p(T=1)
„ostrá/sharp“
varianta
Funkce p(T=1)
„neostrá/fuzzy“
varianta
0
10 20 30 40 50 60 70 80 90 Proměnná X
Regression discontinuity design
Nějaký příklad?
Počet bodů z věcného hodnocení projektové
žádosti.
Pravděpodobnost
podpory projektu 1
0
10 20 30 40 50 60 70 80 90 Počet bodů
Regression discontinuity design
Na čem počet bodů závisí?
Na mnoha věcech, které neumíme operacionalizovat. To
ale nevadí.
Lze přijmout předpoklad, že projekty „těsně“ nad čarou,
jsou stejně dobré jako projekty „těsně“ pod čarou.
Pro projekty blízko hranice platí, že to, zda jsou nad čarou
nebo pod čarou je svým způsobem téměř náhodné.
Regression discontinuity design
U sledovaného indikátoru
pozorujeme v závislosti na
počtu bodů např. toto
rozložení (modře výsledky
nepodpořených projektů,
zeleně podpořených).
Vysvětlíme-li závislost
jednoduchou regresí zvlášť
pro obě části, dostaneme
toto:
Impact
Regression discontinuity design
Impact lze odhadnout jako rozdíl
mezi vnitřními krajními body obou
regresních funkcí.
Tento přístup má silnou interní
validitu a omezenou externí validitu
(omezenou vypovídací schopnost).
Ukazuje pouze na dopad
podpořených vs. nepodpořených
projektů v „blízkosti čáry“. Nevíme
nic o dopadu pro projekty s
maximem bodů nebo pro
nepodpořené projekty s málo body
(natož pro ty, co nejsou eligible…).
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
Pre & Post + With & Without
(Two group pretest posttest design)
Máme alespoň 4 pozorování: účastníci před
a po a neúčastníci před a po.
Základní předpoklad: externí faktory působí
na obě skupiny stejně.
Metoda: Difference in Difference (DD),
„rozdíl rozdílů, dvojitá diference“
80,000
R&D expenditure
75,000
T=0
T=1
75,000
70,000
65,000
65,000
60,000
60,000
55,000
55,000
50,000
PRE
POST
80,000
R&D expenditure
75,000
T=0
T=1
60,000
IMPACT
POST
70.000
DIFFERENCE
counterfactual
70,000
65,000
75,000
PRE
65,000
DIFFERENCE
60,000
55,000
55,000
50,000
PRE
POST difference (10.000)
- PRE difference (5.000)
= Impact = 5.000
POST
?
Nutné předpoklady
1. Kontrafaktuální trend je rovnoběžný s trendem
neúčastníků.
2. Všechny nepozorovatelné rozdíly mezi účastníky
a neúčastníky jsou konstantní v čase.
3. Selection bias spočívá pouze ve výchozí úrovni,
nikoliv v trendu.
Vzhledem k těmto předpokladům může být
odhad impactu pomocí DD přibližný, špatný
nebo naprosto zcestný.
Oprávněnost použití metody závisí na
kvalitativní znalosti kontextu zkoumané
intervence.
Část předpokladů (rovnoběžnost trendu)
můžeme testovat za předpokladu, že máme k
dispozici další data – časovou řadu pro obě
skupiny v PRE období.
80000
ADD TWO PRE-INTERVENTION DATA POINTS
75,000
R&D expenditure
75000
70000
65,000
65000
60000
58.000
60,000
55000
51.000
55,000
PRE-PRE
PRE
50000
POST
80000
ADJUSTING THE IMPACT ESTIMATE TO REFLECT PRE-INTERVENTION TRENDS
75,000
73,000
70,000
R&D expenditure
75000
70000
65,000
65000
60000
58000
62,000
60,000
55000
51000
55,000
PRE-PRE
PRE
50000
POST
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
Ošetření proměnných ovlivňujících
participaci
T (podpora)
Y (zaměstnanost)
X (vzdělání)
Ústřední problém: existuje mnoho jevů, které současně ovlivňují
pravděpodobnost, že se osoba bude účastnit naší podpory a sledovanou
výslednou proměnnou (např. osoby s nižším vzděláním budeme častěji
rekvalifikovat než vysokoškoláky a zároveň má osoba s nižším
vzděláním menší pravděpodobnost nalézt zaměstnání než
vysokoškolák).
Základním princip
• Základním principem je porovnávání
účastníka s co nejpodobnějším
neúčastníkem. (Vysokoškoláky s
vysokoškoláky, zdravotně postižené se
zdravotně postiženými).
• V praxi se používají statistické metody
odvozené od regresní analýzy.
„párování“
Účastníci
Neúčastníci
Předpoklady
• Mám informace o charakteristikách
účastníků i neúčastníků, které ovlivňují
účast i výsledky a mám důvod věřit, že
ostatní charakteristiky (k nimž nemám
data) jsou v obou skupinách shodně
rozvrstveny.
• Obě skupiny jsou dostatečně velké (ne o
mnoho méně než tisíc)
• Existují „podobní“ ve skupině účastníků i
neúčastníků
Propensity score matching
• Statistická metoda, která umí veškeré
charakteristiky (ne)účastníka interpretovat
jedním číslem (propensity score),
následně porovnává páry s nejbližším
propensity score.
• Jako by se zkoumané subjekty lišili jen
svojí výškou.
Propensity score matching –
možnost rozšíření modelu
Máme-li k dispozici daje z doby před intervencí i po intervenci
(panelová data), lze použít kombinaci metody Difference-inDifference a PSM.
Vysvětlovanou proměnnou zde pak není hodnota Y, nýbrž její první
derivace, což eliminuje všechny pozorovatelné i
nepozorovatelné veličiny ovlivňující výchozí úroveň Y a
selection bias může zbýt pouze v rozdílném trendu.
Máme-li panelová data i pro vysvětlující veličiny, můžeme eliminovat i
proměnlivé trend jednotlivých vysvětlujících proměnných.
Design či metoda
Předpoklad
1
Pre & Post
Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika
(natural dynamics)
2
With & Without
Podpořená a nepodpořená skupina
•Randomized control trial (pokus jsou ekvivalentní
s náhodný přiřazením účastníků)
•Regression discontinuity design
(regresní diskontinuita)
3
Pre & Post v kombinaci s With &
Without
•Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí
faktory stejně
4
Využití informací o proměnných
ovlivňující participaci
•Regresní analýza
•Propensity score matching
Všechny rozdíly mezi skupinami
jsou pozorovatelné
5
•Instrumental variable
(instrumentální proměnná)
Existuje něco, co ovlivňuje účast v
podpoře, avšak nikoliv výsledek
Instrumentální proměnná
Instrumental variable
T (podpora)
X (IV)
Y (výsledek)
Co když existuje proměnná, která ovlivňuje
participaci v intervenci, ale která (významně)
neovlivňuje výsledek?
Skupinová úloha 2
(jako průprava pro použití instrumentálních proměnných)
Cisterna se
studenou vodou
Cisterna, kterou jsme se
pokoušeli ohřát
Rozbitá baterie
(umožňuje míchat
vodu v poměru
25:75 až 75:25)
Nádoba s
teploměrem
Navrhněte metodu, jak zjistit
rozdíl teploty vody v cisternách.
Špatně fungující baterie
neumožňuje zcela uzavřít jeden
zdroj vody, ale umožňuje
namíchat směs v různých
známých poměrech.
Úloha z matematiky
(jako průprava pro použití instrumentálních proměnných)
Natočím si jednu směs (např. 0,25 teplé a 0,75
studené) a změřím teplotu (např. 30 °C).
Natočím si jinou směs (např. 0,65 teplé a 0,35
studené) a změřím teplotu (např. 40 °C).
Je rozdíl v měření (10 °C) rozdílem teplot v cisternách?
NE.
Jak spočítám rozdíl?
T-S = 10 °C / 0,4
T-S = 25 °C
Úloha z matematiky
(jako průprava pro použití instrumentálních proměnných)
0,25 T + 0,75 S = 30 °C
0,65 T + 0,35 S = 40 °C
10 °C = (0,65 T + 0,35 S) – (0,25 T + 0,75 S)
10 °C = 0,4 T – 0,4 S
10 °C = 0,4 (T – S)
10 °C / 0,4 = T – S
25 °C = T – S
Instrumentální proměnná
Instrumentální proměnná funguje podobně jako „částečně funkční
směšovací baterie“ v předchozím příkladu.
Potřebuji nějaký instrument, o kterém vím, že (i) ovlivňuje účast, (ii)
neovlivňuje výsledky. Kde ale něco takového najít?
První možností je mít štěstí a identifikovat přirozenou IV (např.
diskontinuitu v metodikách, administrativní hranice), u které lze
úspěšně argumentovat, že ovlivňuje participaci a zároveň
neovlivňuje výsledek intervence. U „našeho“ evaluačního projektu je
to kvalita hodnotitelů – to, zda projekt dostane přísného nebo
shovívavého hodnotitele je náhodné, tato náhoda ovlivňuje šanci,
zda bude realizovat projektu, ale neovlivňuje dispozice projektu mít
dobré nebo špatné výsledky.
Druhou možností je ji uměle vytvořit, často zmiňovaná je možnost, tzv.
randomized encouragement / náhodného oslovení.
Náhodné oslovení
Mějme pilotní projekt na zlepšení finanční gramotnost. Cílem je zjistit,
nakolik naše vzdělávání ve finanční gramotnosti funguje. Postup by
byl tento:
1. Uchazeči o zaměstnání na ÚP se mohou účastnit vzdělávání FG.
2. Na tuto možnost jsou však úředníkem aktivně upozorněni pouze
uchazeči, kteří se narodili v lichý den. (Umělá instrumentální
proměnná).
3. Pochopitelně, uchazeč může účast odmítnout a naopak, ÚP
nemůže odmítnout uchazeče narozeného v sudý den, který se o
FG vzdělávání doslechl od souseda nebo z médií.
4. Můžeme oprávněně předpokládat, že lidé narození v lichý den jsou
stejní jako ti, narození v sudý den. Kdy přišli na svět je náhoda.
5. Pokud naše náhodné oslovení mělo účinek, pak např. ze všech
„lichých“ uchazečů se vzdělávání zúčastní 55 % a ze všech
„sudých“ jen 15 %.
Náhodné oslovení
6. Po čase např. zjistíme, že z „lichých“ uchazečů 20 % skončilo v
registru dlužníků (směs 55% účastníků a 45% neúčastníků). Ze
sudých to je 35 % (směs 15% účastníků a 85% neúčastníků).
7. Snadno spočítáme, že účastí na vzdělávání se sníží
pravděpodobnost, že uchazeč skončí v registru dlužníků o 0,375.
(Průměrný účastník vzdělávání skončí v registru dlužníků s
pravděpodobností 3,1 %, totožný průměrný neúčastník s
pravděpodobností 40,6 %) => Náš kurs finanční gramotnosti musí
být naprosto geniální.
Instrumentální proměnné
Omezení designu:
• IV přístup má silnou vnitřní logiku, avšak za cenu malé
přesnosti (čím menší vliv má instrumentální proměnná
na participaci v intervenci, tím se výpočet kontrafaktuálu
limitně blíží výrazu 0/0 a nelze prokázat statistickou
významnost; je to „drahá“ metoda z hlediska potřebné
velikosti vzorku.
• IV přístup má omezenou externí validitu, protože
zachycuje (nevychýleně) impact pouze pro skupinu
compliers.(Tedy přesně měří efekty na tu skupinu, která
se nechala ovlivnit naší náhodně cílenou propagací
intervence).
Shrnutí – jak vybrat design podle povahy intervence
Jde o univerzální nebo neuniverzální intervenci?
Univerzální (např. povinná),
existují pouze účastníci.
Data jen o účastnících.
Neuniverzální,
existují účastníci
i neúčastníci.
Data mám i o neúčastnících.
One group design
Comparison group design
Analýza časových řad
(Interupted time
series analysis)
Mám panelová data nebo využitelný přirozený experiment?
NE.
Musím očistit vliv
pozorovatelných kontrolních
proměnných
ANO
Využitelný přirozený experiment?
Propensity score matching
ANO
Regresní diskontinuity
(RDD)
nebo
Geografický experiment
NE
Mám panelová data pro výsledek (Y)
nebo i pro kontrolní proměnné (X)?
Jen indikátor Y
Difference-in-difference
(DD)
nebo
DDD
I kontrolní proměnné (X)
Propensity score matching
v kombinaci s
Difference-in-difference
(tj. pomocí PSM
vysvětluji derivaci Y
nikoliv Y samotné)
Výběr metody
• Pokud je to možné, je vhodné použít více
metod současně jako nástroj testování
stability odhadu kontrafaktuálu / impactu.
• Výstup dobré CIE není jedno číslo se
čtyřmi desetinnými místy, ale spíše
interval vzniklý na základě testování
stability.
Zdroje dalších informací
K metodologii CIE pro intervence typu podpora podniků
• Bondonio, Daniele. Impact identification strategies for evaluating
business incentive programs. Dipartimento di Politiche Pubbliche e
Scelte Collettive – POLIS Working Paper n. 145, June 2009 [online].
URL:
<http://polis.unipmn.it/pubbl/RePEc/uca/ucapdv/bondonio145.pdf>.
Studie věnovaná determinantům účasti v programu (užitečná
v případě volby metody propensity score matching jako použité
identification strategy):
• Tanayama, Tanja. Eligibility, awareness and the application
decision: An empirical study of firm participation in an R&D subsidy
program. Discussion Paper No. 161, April 2007 [online]. University
of Helsinki and HECER. ISSN 1795-0562. URL:
<http://helda.helsinki.fi/handle/10138/16581>.
Zdroje dalších informací
Příklady zajímavých evaluací:
• Gadd, Håkan – Hansson, Gustav – Månsson, Jonas. Evaluating the impact
of firm subsidy using a multilevel propensity score approach. Working Paper
Series Nr 3, 2009 [on-line]. Centre for Labour Market Policy Research.
ISSN 1653-638X. URL:
<http://www.vxu.se/ehv/filer/forskning/cafo/wps/Nek_wp3_09.pdf>.
• Serrano-Velarde, Nicolas. The Financing Structure of Corporate R&D –
Evidence from Regression Discontinuity Design. European University
Institute [online]. URL: <http://www.fma.org/Prague/Papers/RnDSubsidiesRevisedDraft.pdf>.
• Einiö, Elias. The effect of government subsidies on private R&D: evidence
from geographic variation in support program funding. Discussion Paper No.
263, May 2009 [online]. University of Helsinki and HECER. ISSN 17950562. URL: <http://helda.helsinki.fi//handle/10138/16776>.
• Bondonio, Daniele – Greenbaum, Robert T. Counterfactual Impact
Evaluation of Enterprise Support Policies: An Empirical Application to EU,
Co-Sponsored, National and Regional Programs. John Glenn School of
Public Affairs Working Paper Series, July 2010 [online]. URL:
<https://kb.osu.edu/dspace/bitstream/1811/46842/1/gs_wps_Bondonio_Gre
enbaum_2010-001.pdf>.
Naše aktivity v oblasti CIE
• V běhu: Pilotní kontrafaktuální evaluace
dopadu na naší PO1-Adaptabilita (viz
navazující workshop) – mezi použitými
metodami je
– Regresní diskontinuita (u grantových projektů
s využitím hranice bodového hodnocení jako
diskontinuity)
– Instrumentální proměnná (u grantových
projektů náhodná míra „přísnosti“ hodnotitelů
– Propensity score matching (u podpor ze
Vzdělávejte se!)
Naše aktivity v oblasti CIE
• Ve stádiu „studie proveditelnosti“
kontrafaktuální evaluace aktivní politiky
zaměstnanosti (po technické stránce
realizovatelná, nyní řešíme právní
problémy z oblasti ochrany osobních
údajů).
• Hledáme další příležitosti (např.
individuální pilotní projekt na finanční
gramotnost?).
Zdroje dalších informací
Obecně k metodologii Counterfactual Impact Evaluation
• DG REGIO. Evalsed: counterfactual impact evaluation [online]. URL:
<http://ec.europa.eu/regional_policy/sources/docgener/evaluation/evalsed/s
ourcebooks/method_techniques/counterfactual_impact_evaluation/index_en
.htm>.
• Shahidur R. Khandker, Gayatri B. Koolwal, Hussain A. Samad (2010).
Handbook on impact evaluation : quantitative methods and practices. The
International Bank for Reconstruction and Development / The World Bank.
ISBN 978-0-8213-8028-4. URL: <http://wwwwds.worldbank.org/external/default/WDSContentServer/IW3P/IB/2009/12/1
0/000333037_20091210014322/Rendered/PDF/520990PUB0EPI1101Offici
al0Use0Only1.pdf>.
• Konference DG REGIO ve Varšavě 2009: „New Methods for Cohesion
Policy Evaluation : Promoting Accountability and Learning“ Workshop 1:
Rigorous impact evaluation using counterfactuals
URL:
<http://ec.europa.eu/regional_policy/conferences/evaluation2009/index_en.
htm>.
• White, Howard (2010). A Contribution to Current Debates in Impact
Evaluation. Evaluation, April 2010, pp.153-164.
Děkuji za pozornost.
[email protected]
web projektu: http://cie.ireas.cz