Modele panelowe - Wydział Zarządzania

Download Report

Transcript Modele panelowe - Wydział Zarządzania

Ekonometryczne modele panelowe
dr Dorota Ciołek
Katedra Ekonometrii
Wydział Zarządzania UG
Copyright by Dorota Ciołek
1
D. Ciołek
Definicja danych panelowych
dane przekrojowe yi
szeregi czasowe yt
dane przekrojowo-czasowe - yit

dane panelowe

longitudinal data
Copyright by Dorota Ciołek
i=1,...,N
t=1,...,T
i=1,...,N, t=1,...,T
D. Ciołek
Przykłady danych panelowych

Dane miesięczne o wydatkach konsumpcyjnych dla 1000
gospodarstw domowych obserwowanych przez 5 lat –
analiza preferencji konsumentów, badania skuteczności
kampanii reklamowej.

Makroekonomiczne wskaźniki dla 25 krajów UE w ostatnich
10 lat publikowane przez Eurostat – badanie skuteczności
europejskich funduszy strukturalnych.

Penn World Tables skonstruowana przez Summersa i
Hestona baza porównywalnych danych
makroekonomicznych zawierająca informacje dla ponad
200 krajów dla lat 1960-2000 - analiza czynników wzrostu
gospodarczego, weryfikacja hipotezy konwergencji
gospodarczej.
Copyright by Dorota Ciołek
D. Ciołek
Przykłady danych panelowych

Wskaźniki zatrudnienia i wynagrodzeń w Polsce w podziale
na województwa za ostatnie 15 lat – badanie skuteczność
polityki makroekonomicznej, szukanie czynników
determinujących zmiany na rynku pracy.

Liczba inwestorów zagranicznych inwestujących w
poszczególnych województwach w latach 1993-2005 –
modelowanie częstotliwości występowania określonego
zdarzenia – badanie atrakcyjności inwestycyjnej
poszczególnych województw.

Dane firmy ubezpieczeniowej o ubezpieczeniach
komunikacyjnych dotyczące np. szkodowości klientów w
różnych latach – możliwość wykorzystania wyników do
budowy systemu Bonus-Malus.
Copyright by Dorota Ciołek
D. Ciołek
Przykłady danych panelowych

Informacje banków o kredytach konsumpcyjnych,
hipotecznych i ich spłacalności na przestrzeni kilkunastu
miesięcy lub lat – budowa modeli skoringowych – modeli
wstępnej oceny ryzyka kredytowego.

Informacje firmy odzieżowej o przychodach i kosztach
poszczególnych sklepów w sieci w różnych miastach lub
dzielnicach dla szeregu miesięcy – ocena skuteczności
poszczególnych kampanii reklamowych, szczegółowa
analiza indywidualnej specyfiki poszczególnych sklepów lub
miast.
Copyright by Dorota Ciołek
D. Ciołek
Problem dostępności danych

Zbilansowane panele

Niezbilansowane panele
Nie jest wskazane ograniczanie badania tylko do tych
jednostek, dla których znane są obserwacje we wszystkich
okresach – obciążenie wynikające z nieuwzględnienia
przeżywalności poszczególnych jednostek – survivorship
bias.
Copyright by Dorota Ciołek
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1020304050
1020304050
1020304050
1020304050
1
1990
22
23
1020304050
21
1990
1995
2000
1990
1995
2000
1990
1995
2000
Rok
INV
Graphs by ID
Copyright by Dorota Ciołek
SAV
1995
2000
1990
1995
2000
D. Ciołek
Dlaczego warto stosować dane panelowe

Dane panelowe pozwalają na analizę zjawiska równocześnie w
czasie jak i wymiarze przekrojowym lub przestrzennym.

Dane panelowe pozwalają na wyodrębnienie indywidualnej
specyfiki poszczególnych obiektów.

Zastosowanie paneli danych pozwala na większą
heterogeniczność (większe zróżnicowania) jednostek badania.

Zapewnia większą liczbę stopni swobody oraz zwiększa
efektywność oszacowania.

Wyodrębnienie efektów okresowych ułatwia badanie dynamiki
dostosowania.

Dane panelowe pozwalają na wyodrębnienie wpływu
nieobserwowalnych zmiennych lub efektów.
Copyright by Dorota Ciołek
D. Ciołek
Specyfika danych panelowych
Obserwacje dotyczące tej samej jednostki mogą
(najprawdopodobniej są ze sobą skorelowane).
Obserwacje dotyczące tego samego okresu mogą
(najprawdopodobniej są ze sobą skorelowane).
Czasami mamy do czynienia z przypadkami, gdzie nie
występuje ani jeden, ani drugi rodzaj korelacji.
Copyright by Dorota Ciołek
D. Ciołek
Ogólny zapis modelu panelowego
Model statyczny:
yit   0  β' x it   i  t  uit
i=1,...,N, t=1,...,T
gdzie:
β
- wektor parametrów;
x it - macierz obserwacji na zmiennych objaśniających;
i
t
- efekty indywidualne, część zmienności zmiennej y
charakterystyczna dla i-tej jednostki; (N efektów)
- efekty okresowe, część zmienności zmiennej y
charakterystyczna dla okresu t; (T efektów)
uit - czysto losowy składnik zakłócający.
Copyright by Dorota Ciołek
10
D. Ciołek
Rodzaje modeli panelowych
1a) Jeżeli efekty indywidualne  i i efekty okresowe 
t
są
nieistotne, oznacza to, że mamy do czynienia z tzw.
homogenicznym panelem – analizowana przez nas relacja
jest taka sama w każdym okresie i dla każdej badanej
jednostki – Model Łącznej Regresji (ang. pooled model).
2a) Jeżeli zarówno efekty indywidualne jak i efekty okresowe
są istotne, mamy do czynienia z heterogenicznym
panelem – Dwukierunkowy Model Panelowy (ang. twoway model).
3a) Jeżeli tylko jedna grupa efektów jest istotna –
Jednokierunkowy Model Panelowy (ang. one-way
model).
Copyright by Dorota Ciołek
D. Ciołek
Rodzaje modeli panelowych
1b) Efekty indywidualne i (lub) okresowe mogą być efektami
ustalonymi, czyli stałymi w czasie lub dla danej jednostki, nie
zależą od czynników losowych – Model z Efektami
Ustalonymi – (ang. Fixed Effects Model ) - FE .
2b) Efekty indywidualne i (lub) okresowe mogą być efektami
losowymi, czyli zależą od czynników losowych i mogą się
zmieniać, są zmiennymi losowymi o określonych rozkładach –
Model z Efektami Losowymi – (ang. Random Effects
Model) – RE.
Copyright by Dorota Ciołek
D. Ciołek
Pozornie Niezależne Regresje
Czasem dysponując danymi panelowymi nie jesteśmy
zainteresowani budową jednego modelu ekonometrycznego
dla wszystkich posiadanych informacji.
Szacowane są wówczas oddzielne regresje dla każdej jednostki
badania, ale dla podniesienia dokładności (efektywności)
oszacowania, wykorzystywana jest dodatkowa informacja
wynikająca faktu, że dla wszystkich jednostek badania
można określić pewną strukturę stochastyczną,
- stosujemy Model Pozornie Niezależnych Regresji (ang.
Seemingly Unrelated Regressions Model) – SUR,
zaproponowany przez Zellnera [1962].
Copyright by Dorota Ciołek
D. Ciołek
Model Regresji Łącznej (pooled model)
Założenia:
1) Mamy do czynienia z homogeniczną próbą – wszystkie
jednostki badania są do siebie podobne. - Oznacza to, że
parametry szacowanego modelu są jednakowe dla
wszystkich jednostek oraz we wszystkich okresach badania.
2) Różnice między empirycznymi wartościami zmiennej
endogenicznej, a wartościami teoretycznymi są jedynie
efektem działania zakłóceń losowych o tym samym
rozkładzie dla każdej i-tej jednostki i dla każdego okresu t.
Wybór takiego modelu może być poprzedzony odpowiednim
testowaniem (testing poolability of the data).
Copyright by Dorota Ciołek
D. Ciołek
Model Regresji Łącznej (pooled model)
Model możemy zapisać jako:
k
yit   0   βsit xsit  uit
s 1
i  1, ...,N ; t  1, ...,T
gdzie: N- liczba jednostek w próbie,
T – liczba okresów,
k – liczba zmiennych objaśniających w modelu.
Metody estymacji:
MNK lub UMNK w przypadku niesferycznego składnika
losowego.
Copyright by Dorota Ciołek
15
D. Ciołek
Model z Efektami Ustalonymi (FE)
Jednokierunkowy (one-way)
Model możemy zapisać:
yit  i  β' xit  uit
i  1, ...,N ; t  1, ...,T
β jest wektorem parametrów.
Zapis macierzowy:
y i  αie  Xiβ  ui
i  1, ..., N
Copyright by Dorota Ciołek
16
D. Ciołek
Model z Efektami Ustalonymi (FE)
Założenia (do estymacji):
1) u i oraz X i są niezależne dla i=1,...,N - zmienne
tworzące macierz X są ściśle egzogeniczne, czyli
i1,...,N E{xit , uis}  0
2) E u i   0


3) E u i u j '   2 I , i=1,...,N,
j=1,...,N, gdzie I jest
macierzą jednostkową,
4) rz(X) = N + K ≤ NT.
Copyright by Dorota Ciołek
17
D. Ciołek
Model z Efektami Ustalonymi (FE)
Wprowadzamy N zmiennych zerojedynkowych - każda
zmienna przyjmuje wartość 1 dla danej jednostki i 0 dla
pozostałych jednostek.
Szacowanie:

MNK (LSDV – LS with dummy variables)

Estymator Wewnątrzgrupowy (Within)
Copyright by Dorota Ciołek
18
D. Ciołek
Model z Efektami Losowymi (RE)
Jednokierunkowy (one-way)
Ogólna postać modelu:
yit  0  β' xit  vit
gdzie: vit  uit
losowym.
 i
i  1,..., N
t  1, ...,T
jest dwuczęściowym składnikiem
Dodatkowe założenia:
1) E(αi)=0, i=1,...,N
2) Efekty indywidualne αi są niezależne od ui oraz Xi dla i=1,...,N
3) Efekty indywidualne dla różnych jednostek są nieskorelowane
ale występuje korelacja miedzy efektami z różnych okresów
dla tej samej jednostki:
0 i  j
E(α i α j )   2
σ i  j

Copyright by Dorota Ciołek
i, j  1, ...,N
19
D. Ciołek
Model z Efektami Losowymi (RE)
Wariancja składnika losowego w modelu RE składa się z dwóch
części:
2
2
2


v
u


gdzie:



2
u - wariancja składnika czysto losowego,
 2
- wariancja efektów indywidualnych.
Uwaga:
Składniki losowe w modelu RE są ze sobą skorelowane, czyli
MNK przestaje być efektywny dlatego do oszacowania tego
modelu musimy zastosować estymator Uogólnionej Metody
Najmniejszych Kwadratów.
Copyright by Dorota Ciołek
20
D. Ciołek
Model z Efektami Ustalonymi (FE)
Dwukierunkowy (two-way)
Jeżeli efekty okresowe maja być efektami ustalonymi to,
wyraz wolny modelu dzielony jest na dwie części. Możemy
zatem zapisać:
yit  α i   t  β' x it  ε it
i  1,..., N, t  1,..., T,
gdzie:
αi- ustalony efekt indywidualny stały w każdym okresie czasu,
ale inny (może być inny) dla każdego obiektu w panelu.
λt- ustalony efekt okresowy, który ma tę samą wartość dla
wszystkich jednostek w panelu w tym samym okresie, ale
jest różny (może być różny) w każdym okresie czasu.
Należy pamiętać, że nie możemy wprowadzić równocześnie N
efektów indywidualnych oraz T efektów okresowych jeżeli
chcemy oszacować model - dokładna współliniowość.
Copyright by Dorota Ciołek
21
D. Ciołek
Porównanie
Można wykazać następujące zależności:
Jeżeli T jest duże, lub   jest duża w stosunku do  u , estymator
UMNK dla modelu RE jest bardzo zbliżony do wyników estymacji FE.
2
2
Jeżeli wariancja efektów indywidualnych jest stosunkowo mała wówczas
wyniki oszacowania RE są zbliżone do wyników estymacji modelu
regresji łącznej.
Zalety i wady modeli FE i RE:
Własność
Model FE
Model RE
Efekt indywidualny - możliwości
estymacji
Może być oszacowany dla
poszczególnych jednostek
Mogą być oszacowane parametry
jego rozkładu w próbie
Efekt indywidualny - założenia
Niezależny od składnika losowego
Niezależny od składnika losowego i
zmiennych objaśniających
Precyzja oszacowań (przy
spełnionych założeniach)
Inne ograniczenia
Niższa
Wyższa
Niemożliwość wprowadzenia
zmiennych stałych w czasie
Copyright by Dorota Ciołek
22
D. Ciołek
1) Istotności efektów w modelu FE
Czy wprowadzenie różnych dla poszczególnych jednostek
wyrazów wolnych prowadzi do uzyskania dokładniejszych
oszacowań?
Test Walda (test F)
H0 : αit  α  const,
H1 :  α i  α j
i  1,...,N, t  1,...,T
ale α it  α is  α i
i  1,...,N,
t,s  1,...,T
i, j
Według hipotezy zerowej wszystkie wyrazy wolne (dla
wszystkich jednostek i okresów) mają tę samą wartość.
Według hipotezy alternatywnej wyrazy wolne są stałe w czasie
lecz mogą różnić się dla poszczególnych jednostek.
Copyright by Dorota Ciołek
23
D. Ciołek
1) Istotności efektów w modelu FE cd.
Statystyka z próby:
F
(R 12  R 02 )/(N  1)
(1  R 12 )/(NT  N  k)
2
gdzie R 0 oznacza wartość współczynnika determinacji dla
modelu prawidłowego według hipotezy zerowej, czyli:
yit  α  β' x it  ε it
i  1,...,N,
t  1,...,T,
R12 wartość współczynnika determinacji dla modelu
prawidłowego według hipotezy alternatywnej, czyli:
y it  α i  β' x it  ε it
i  1,...,N, t  1,...,T,
Copyright by Dorota Ciołek
24
D. Ciołek
1) Istotności efektów w modelu FE cd.
Można również skorzystać z następującej statystyki:
F
(S 02  S12 )/(N  1)
S12 /(NT  N  k)
S02
gdzie
oznacza sumę kwadratów reszt dla modelu
2
prawidłowego według hipotezy zerowej, zaś S1 - dla
modelu prawidłowego według hipotezy alternatywnej.
W obu przypadkach obszar krytyczny testu jest prawostronny
określony przez wartość krytyczną:
F ( N  1, NT  N  k )
Copyright by Dorota Ciołek
25
D. Ciołek
2) Istotności efektów okresowych
Czy właściwy jest model jednokierunkowy, czy dwukierunkowy?
H0 : γ it  γ is  γ i , i  1,...,N, t,s  1,...,T
H1 :
gdzie
 γ it  γ is
i ,t , s
i  1,...,N, t, s  1,...,T
 it  i  t
Według hipotezy zerowej właściwy jest model jednokierunkowy,
a według hipotezy alternatywnej model dwukierunkowy.
Statystyka z próby:
F
(S 02  S12 )/(T - 1)
S12 /[NT - (N - 1) - (T - 1) - k]
Copyright by Dorota Ciołek
26
D. Ciołek
3) Istotności efektów w modelu RE
W modelu z efektami losowymi zakładamy, że składnik losowy
zawiera w sobie zarówno efekty indywidualne jak i okresowe.
Należy zbadać, czy wariancja składników losowych dla
wszystkich obserwacji jest stała. Jeżeli jest stała tzn. że brak
istotnego zróżnicowania efektów i należy zastosować model
regresji łącznej.
Test Breuscha-Pagana (z testu mnożnika Lagrange'a):
H 0 : δ α2  0
H1 : δ α2  0
Copyright by Dorota Ciołek
27
D. Ciołek
3) Istotności efektów w modelu RE cd.
Statystka z próby:
NT


    e it 

NT  i 1  t 1 

LM 

1

2(T  1)  N T 2
  e it

 i 1 t 1

2
2
gdzie wartości reszt eit to reszty z modelu regresji łącznej.
Przy prawdziwości hipotezy zerowej powyższa statystyka ma
2

rozkład
z jednym stopniem swobody.
Copyright by Dorota Ciołek
28
D. Ciołek
4) Model FE czy model RE
I) Jakie założenia można przyjąć co do efektów indywidualnych?
Czy można je ocenić jako nieprzypadkowo związane z
poszczególnymi jednostkami?
II) Testowanie statystyczne – czy są spełnione przyjęte
założenia?

Kluczowym założeniem dla modelu RE jest założenie o
niezależności efektów indywidualnych i zmiennych
objaśniających.

Jeżeli założenie to nie jest spełnione wówczas estymator
UMNK staje się estymatorem obciążonym.

W przypadku spełnienia tego założenia zarówno estymator
UMNK jak i estymator Within dla modelu FE są zgodne i
nieobciążone, jednak estymator UMNK jest bardziej lub
przynajmniej tak samo efektywny.
Copyright by Dorota Ciołek
29
D. Ciołek
4) Model FE czy model RE cd.
Test Hausmana
Polega na porównaniu wartości ocen parametrów uzyskanych
przy pomocy obu estymatorów.
H 0 : E ( it | X )  0
H1 : E ( it | X )  0
gdzie  it  i  uit .
H0 – oba estymatory są zgodne i nieobciążone, ale UMNK dla
modelu RE jest bardziej efektywny.
H1 – estymator UMNK jest obciążony, zatem należy stosować
model FE, którego estymator jest nieobciążony.
Copyright by Dorota Ciołek
30
D. Ciołek
4) Model FE czy model RE cd.
Statystyka z próby:


'
ˆ
ˆ
m1   RE   FE var( ˆ FE )  var( ˆ RE )
 ˆ
1
RE
 ˆ FE

gdzie ˆ RE - wektor ocen parametrów z modelu RE
ˆ FE - wektor ocen parametrów z modelu FE.
var(ˆ RE ) var(ˆ FE ) - macierze wariancji i kowariancji obu
estymatorów.
Jeżeli hipoteza H0 jest prawdziwa to statystyka m1 ma rozkład
 2 z k stopniami swobody.
Copyright by Dorota Ciołek
31
D. Ciołek
5) Współczynnik determinacji
Dla modeli panelowych definiujemy różne współczynniki
determinacji

Ogólny współczynnik determinacji:
R 2  r 2 { yˆ it , yit }, i  1,...,N, t  1,...,T,

Wewnątrzgrupowy współczynnik determinacji:
2
RWG
 r 2 {yˆ it  yˆ it , yit  yit }, i  1,...,N, t  1,...,T,
gdzie
1
yˆ it 
T
T
 yˆ it ,
t 1
1
y it 
T
T
 y it ,
i  1,...N,
t 1
Copyright by Dorota Ciołek
32
D. Ciołek
5) Współczynnik determinacji cd.

Międzygrupowy współczynnik determinacji:
R
2
BG
 r {yˆ it , yit}
2
Wszystkie współczynniki wyznaczane są jako kwadraty
współczynnika korelacji liniowej Pearsona i przyjmują
wartości z przedziału <0, 1>.
Wartości przedstawionych współczynników mogą istotnie się
różnić w zależności od postaci wybranego estymatora.

Ogólny współczynnik determinacji przyjmuje z reguły największe
wartości dla modelu regresji łącznej.

Zastosowanie modelu FE pozwala na maksymalizację R2
wewnątrzgrupowego.

W regresji międzygrupowej uzyskamy najwyższą wartości
współczynnika determinacji międzygrupowego.
Copyright by Dorota Ciołek
33