Einkommensanalysen mit Paneldaten Vortrag zum STATA User-Meeting August 2003 Berlin Johannes Giesecke Humboldt Universität zu Berlin Institut für Sozialwissenschaften.

Download Report

Transcript Einkommensanalysen mit Paneldaten Vortrag zum STATA User-Meeting August 2003 Berlin Johannes Giesecke Humboldt Universität zu Berlin Institut für Sozialwissenschaften.

Einkommensanalysen mit
Paneldaten
Vortrag zum STATA User-Meeting
August 2003 Berlin
Johannes Giesecke
Humboldt Universität zu Berlin
Institut für Sozialwissenschaften
Gliederung
1.
2.
3.
4.
5.
Theoretische Vorüberlegungen zum Thema
Methodische Aspekte
Beschreibung der Daten
Ergebnisse/Umsetzung mit STATA
Fazit
Theorie
• Einkommensmodelle:
– klassische Humankapitalmodelle (z.B. Mincer,
Becker): Bildung und Berufserfahrung
– erweiterte Modelle: angebotsseitige Charakteristika
(z.B. sozio-strukturelle Merkmale der Individuen)
sowie nachfrageseitige Faktoren (z.B. Branche,
Betriebsgröße)
• bisher weniger untersucht: Effekte „flexibler“
Beschäftigungsformen (z.B. Befristung, Teilzeit)
Theorie
• hier von Interesse: Teilzeit
• Einkommenseffekte von Teilzeit:
– Arbeitseinkommen pro Stunde (hier: Bruttoeinkommen)
• Hypothesen zu Einkommenseffekten von
Teilzeit: sowohl positive als auch negative
Effekte zu erwarten
Theorie
• positive Einkommenseffekte zu erwarten
aufgrund von:
– Produktivitätssteigerung
– weniger unbezahlten Überstunden, damit höherer
Stundenlohn
– Anreizsetzung von Seiten der Unternehmen mit Ziel
der Erhöhung der Flexibilität
Theorie
• negative Einkommenseffekte zu erwarten
aufgrund von:
– geringerer Produktivität wegen geringerem
Humankapital
– karrierehemmender Wirkung von TZ
– Brutto-/Nettoeffekt der progressiven Besteuerung
Theorie
• weitere Überlegungen:
– Teilzeit homogenes Phänomen?
• reguläre Teilzeit (16-34 Stunden/Woche)
• marginale Teilzeit (bis zu 15 Stunden/Woche)
– Effekte abhängig von Stellung im Arbeitsmarkt?
• z.B. Interaktion von Teilzeit mit Bildung
– Selektionseffekte
• bestimmter Typus von ArbeitnehmerInnen in Teilzeit?
Methodische Aspekte
• Schätzungen von Einkommensgleichungen mit
Querschnittsdaten (einmalig erhobene Daten)
yi  0  1 xi1  ...   K xiK  ui
• typische Probleme für OLS-Schätzung:
– heteroskedastische Fehler ui
– endogene unabhängige Variablen
Methodische Aspekte
• Heteroskedastizität:
– inkorrekte Berechnung der Standardfehler
– kann mit robuster Varianzschätzung oder GLS-Schätzung
korrigiert werden
• Endogene UV:
– verzerrte Schätzung der Koeffizienten
– mögliche Lösung: IV-Schätzung (z.B. 2SLS) mit
Instrumenten für diejenigen x, die mit Fehler
korrelieren
– Beispiel: Teilzeit korreliert mit (unbeobachteter)
Motivation/Erwerbsneigung
Methodische Aspekte
• Paneldaten erlauben Schätzung des Modells:
yit  0  1xi1t  ...   K xiKt  ci  uit
• hier neu: unbeobachteter Individueneffekt ci (als
zeitkonstant angenommen)
• damit Problem der Endogenität abgeschwächt, jedoch
noch nicht vollständig beseitigt
• Wahl des Schätzverfahrens hängt zunächst von nur
einer Frage ab:
Korrelieren einige/alle der UV mit dem
unbeobachteten Individueneffekt ci ?
Methodische Aspekte
Korrelieren einige/alle der UV mit dem
unbeobachteten Individueneffekt ci ?
nein
ja
• OLS-Schätzung: konsistente
Schätzer für Koeffizienten,
jedoch keine effiziente
Schätzung
• fixed-effects-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
• random-effects-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
• first-difference-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
Methodische Aspekte
• größter Nachteil der fe- bzw. fd-Modelle: Effekte
zeitkonstanter UV können nicht geschätzt
werden
• größter Nachteil des re-Modells: liefert verzerrte
Schätzungen für Koeffizienten, wenn UV doch
mit Individueneffekt korrelieren
Daten
•
•
•
•
•
•
Sozio-ökonomisches Panel (SOEP) 1985-2001
nur Frauen, da TZ hauptsächlich weibliches Phänomen
Arbeiterinnen, Angestellte und Beamtinnen
nur Westdeutsche
abhängige Variable: ln(Bruttostundenlohn)
unabhängige Variablen:
– Humankapital: Alter und Alter² als Proxy für Berufserfahrung,
Bildung, Anzahl vorheriger Arbeitslosigkeitsphasen
– weitere individuelle Variablen: Familienstand, Anzahl Kinder
im HH
– Arbeitsplatzmerkmale: Teilzeit (regulär und marginal), Branche,
Betriebsgröße, Befristung
Daten
• Bildung:
– nahezu zeitkonstant für Erwerbstätige
– Interaktionen mit anderen UV
Modelle nach Bildungskategorien getrennt
berechnen (Kategorien angelehnt an CASMIN)
• niedriges Ausbildungslevel
• mittleres berufliches Ausbildungslevel
• mittleres allgemeines Ausbildungslevel
• hohes Ausbildungslevel
• hier nur betrachtet: mittleres berufliches
Ausbildungslevel
Ergebnisse
Tabelle I: OLS-, re- und fe-Schätzung; Frauen mit beruflichem Ausbildungslevel
OLS
Randomeffects
Fixedeffects
Differenz
fixed-random
effects
Teilzeit
regulär
-0.050**
(-8.38)
0.002
(0.30)
0.031**
(4.30)
0.029
Teilzeit
marginal
-0.248**
(-24.10)
-0.100**
(-9.86)
-0.024*
(-2.11)
0.079
N
Anzahl
Personen
18.210
18.210
4286
18.210
4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl
der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Hausman-Test: signifikante Abweichung der re- von der fe-Schätzung
Ergebnisse/STATA
• Signifikanztests im fe-Modell basieren auf Annahme
homoskedastischer und seriell unkorrelierter Fehler uit
• sinnvolle Annahme?
• robuste Varianzschätzungen erlauben „konservative“
Schätzung der Standardfehler
• mögliches Problem dann: sehr große Standardfehler
Ergebnisse
Tabelle II: robuste fe-Schätzungen; Frauen mit beruflichem Ausbildungslevel
Fixed-effects
Fixed-effects
robust 1
Fixed-effects
robust 2
Teilzeit
regulär
0.031**
(4.30)
0.031**
(3.51)
0.031**
(2.72)
Teilzeit
marginal
-0.024*
(-2.11)
-0.024
(-1.15)
-0.024
(-0.88)
N
Anzahl
Personen
18.210
4286
18.210
4286
18.210
4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl
der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
robust 1: robuste Varianzschätzung für heteroskedastische Fehler (robust-Option bei Regression auf
transformierte Daten)
robust 2: robuste Varianzschätzung für heteroskedastische und seriell korrelierte Fehler (in STATA
nicht implementiert)
Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Ergebnisse
• Konsistenz der FE-Schätzer basiert auf Annahme der
strikten Exogenität
Annahme: idiosynkratische Fehler uit korrelieren nicht mit:
• vergangenen Werten der UV
– nach Kontrolle der UV haben Lags der UV keinen Einfluss auf
die AV
– Lösungsmöglichkeit: Aufnahme der Lags in das Modell
• aktuellen Werten der UV
– nicht berücksichtigte Variablen, Simultanität, Messfehler
– Lösungsmöglichkeit: IV-Schätzung
• zukünftigen Werten der UV
– feed-back-Modelle: uit bzw. yit hat Einfluss auf xit+s
– Lösungsmöglichkeit: IV-Schätzung
Ergebnisse/STATA
• Erzeugen von Lags und Leads
– per Hand:
• verlangt Sorgfalt (Stichwort: Lücken im Panel)
• sicherster Weg: erzeugen eines „balanced panels“ (fillin)
– über tsset:
• sicher (interne Kontrolle von Lücken)
• sehr bequem
Ergebnisse
Tabelle III: fe-Schätzung mit lags und leads; Frauen mit beruflichem Ausbildungslevel
Fixed-effects I
Fixed-effects II
Fixed-effects III
0.031** (4.30)
0.060** (6.32)
0.095** (8.54)
Lag1
-0.040** (-4.04)
-0.041** (-3.78)
Lag2
-0.030** (-3.24)
-0.020** (-2.08)
Teilzeit regulär
Lead1
Teilzeit marginal
-0.060** (-5.99)
-0.024* (-2.11)
0.090** (5.07)
0.145** (6.85)
Lag1
-0.157** ( -9.01)
-0.104** (-5.33)
Lag2
-0.083** (-5.73)
-0.069** (-4.39)
Lead1
N (Anz. Personen)
-0.132** (-7.01)
18.210 (4286)
11.126 (2290)
8823 (1842)
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der
Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
Ergebnisse
• Aufnahme der Lags in das Modell: Interpretation als
distributed lag-Modell
Tabelle IV: Effekt regulärer und marginaler Teilzeit in distributed-lag-Modell; Frauen mit
beruflichem Ausbildungslevel
Teilzeit regulär
Teilzeit marginal
Differenz
Haupteffekt
0.060
0.090
n.s.
Lag1
-0.040
-0.157
sig.
Lag2
-0.030
-0.083
sig.
-0.010
-0.151
Ergebnisse
• weiterhin bestehende Probleme:
– feed-back: über- oder unterdurchschnittlicher Stundenlohn
beeinflusst zukünftigen Vollzeit-/Teilzeit-Status
– mögliche kontemporäre Korrelation von Teilzeit und uit, z.B.
aufgrund nicht beobachteter (zeitlich variabler) Effekte
• IV-Schätzungen als mögliche Lösung
• hier jedoch problematisch, da
– endogene UV aus zwei Dummyvariablen besteht
– auch die Lags instrumentiert werden müssen
– gute, möglichst exklusive Instrumente rar sind
Ergebnisse
• Probleme durch Selektion?
– nur dann problematisch, wenn für Selektion verantwortliche
Variablen mit uit bzw. yit korrelieren
– Panelmodelle kontrollieren bereits nach unbeobachteten
zeitkonstanten Individueneffekte
– dennoch ist Selektionsproblematik relevant
• Welche Selektion?
– Selektion in AV
– Missing data in AV und/oder UV
– Panelausfälle
Ergebnisse
• hier von Interesse: erzeugt das Hinzunehmen der Lags
ein Selektionsproblem?
• mögliche Tests:
– Unterschiede in Koeffizienten im restringierten und
unrestringierten Sample
– Indikatorvariable, ob vorangegangene Beobachtung mit im
Modell ist oder nicht (dabei Verlust einer Beobachtung pro
Individuum)
Ergebnisse
Tabelle V: Selektionseffekte durch Einführung der Lag-Variablen;
Frauen mit beruflichem Ausbildungslevel
“volles Sample”
selektives Sample
Differenz
Teilzeit
regulär
0.031**
(4.30)
-0.006
(-0.80)
-0.037
Teilzeit
marginal
-0.024*
(-2.11)
-0.099**
(-6.96)
-0.074
N
Anzahl
Personen
18.210
4286
11.126
2290

ohne Lag-Variablen
Hausman-Test: signifikante Abweichungen
Ergebnisse
Tabelle VI: Selektionseffekte durch Einführung der
Lag-Variablen II; Frauen mit beruflichem Ausbildungslevel
Indikator s-1
0.019**
(3.82)
N
Anzahl Personen
10749
2209
Ergebnisse
• mögliche Korrektur der Selektionsverzerrung: Verfahren
nach Wooldridge
• ähnelt der Heckman-Korrektur, Schätzung eines ProbitModells für Inklusionswahrscheinlichkeit
• deshalb auch hier: zusätzliche Variablen für ProbitModell benötigt, die nicht in Einkommensgleichung sind
• Kandidaten hier: Familienstand und Anzahl der Kinder im
HH (beide Effekte nicht signifikant)
Ergebnisse
TabelleVII: fe-Schätzung mit mit Selektionskorrektur; Frauen mit beruflichem Ausbildungslevel
ohne Korrektur
Teilzeit regulär
mit Selektionskorrektur
0.060** (6.32)
0.041** (2.91)
Lag1
-0.040** (-4.04)
-0.071** (-4.29)
Lag2
-0.030** (-3.24)
-0.055** (-4.06)
0.090** (5.07)
-0.001 (-0.36)
Lag1
-0.157** ( -9.01)
-0.228** (-8.35)
Lag2
-0.083** (-5.73)
-0.169** (-7.78)
N (Anz. Personen)
11.126 (2290)
11.126 (2290)
Teilzeit marginal
Fazit
• inhaltlich:
– Beschäftigungsform der Teilzeit hat Effekt auf Arbeitseinkommen
– positiver Anfangseffekt wird durch negative Karriereeffekte
konterkariert
– deutliche Unterschiede zwischen regulärer und marginaler Teilzeit
– Prozesse der Selbstselektion in Teilzeit zu erkennen, am
deutlichsten für marginale Teilzeit
Fazit
• methodisch:
– Panelmodelle mit deutlichen Vorteilen gegenüber
Analyseverfahren für Querschnittsdaten
• Kontrolle von unbeobachteter Heterogenität (wichtig für konsistente
Schätzung der Parameter)
• flexiblere Modellgestaltung (z.B. Testen des Einflusses von Lags)
– jedoch: sorgfältige Überprüfung der Annahme unbedingt
notwendig
– Selektionseffekte können wichtig werden (hier z.B. nicht
behandelt: Selektion aufgrund von Panelausfällen)
Fazit
• STATA:
– Grundlagenbefehle vorhanden, werden erkennbar ausgebaut
(siehe STATA 8)
– für weitergehende Modelle: eigenes Programmieren notwendig
– Tests auf Annahmeverletzungen sollten verstärkt implementiert
werden (wie etwa Diagnosemöglichkeiten für OLS)