Analiza szeregów czasowych

Download Report

Transcript Analiza szeregów czasowych

Analiza szeregów czasowych
dr Małgorzata Radziukiewicz
Szereg czasowy

Szereg czasowy (chronologiczny)
zbiór wartości badanej cechy lub
wartości określonego zjawiska
zaobserwowanych w różnych
momentach (przedziałach) czasu
uporządkowany chronologicznie
Przykłady szeregów czasowych






Szeregi czasowe dotyczące zjawisk
społeczno-ekonomicznych
- nakład książek i broszur w latach 1990-1997 (w mln egz.);
- wartość produkcji w pewnym przedsiębiorstwie w latach
1993 – 2002 (w mld zł.);
- produkcja energii elektrycznej w latach (w mln kWh);
- skup mleka w woj. poznańskim w latach 1989 -1995(w mln
litrów);
- liczba zawartych małżeństw w Polsce w latach 1989 – 1993 (w
tys.) itp..
Szeregi czasowe
Szeregi czasowe
Dłuośc linii kolejowych w Polsce w latach 1990-2004
9
8
7
6
5
4
lata
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
3
1990
dotyczące zjawisk
społeczno-ekonomicznych
można przedstawić w
formie graficznej –
elementy szeregu
prezentowane są przez
punkty płaszczyzny o
współrzędnych (t,y), które
łączy się odcinkami linii
prostej
tys. km

nakład książek i broszur w latach 1990-1997 (w mln egz.)

W badanym 8-elementowym
szeregu czasowym występuje
składowa systematyczna w
postaci trendu oraz wahania
przypadkowe.
Ocena wzrokowa wykresu
wskazuje, ze do opisu
przebiegu zmiennej można
wykorzystać funkcję liniową
Nakład książek i broszur w latach 1990-1997
200
wartości rzeczywiste
180
w mln egzemplarzy

160
140
120
100
80
60
1990
1991
1992
1993
1994
1995
1996
1997
nakład książek i broszur w latach 1990-1997 (w mln egz.)

Parametry modelu liniowego
oszacowano MNK. Obliczenia
związane z szacowaniem
parametrów linii trendu,
wyznaczeniem miar
„dobroci”dopasowania,
prognozy punktowej i
prognozy przedziałowej,
błędów prognoz zawarte są w
prezentacji pt. ”Szeregi
czasowe”.
Wartości rzeczywiste i
teoretyczne zmiennej
przedstawia rysunek obok.
Nakład książek i broszur w latach 1990-1997
wartości rzeczywiste
200
wartości teoretyczne
180
w mln egzemplarzy

160
140
120
100
80
60
1990
1991
1992
1993
1994
1995
1996
1997
wartość produkcji w pewnym przedsiębiorstwie w latach 1993 – 2002 (w mld zł.)



wartość produkcji w latach 1993-2002 (w mld zł)
30
26,4
25
21
20
mld zł
Ocena wzrokowa wykresu
wskazuje, ze w badanym szeregu
czasowym występuje składowa
systematyczna w postaci trendu
rosnącego oraz wahania
przypadkowe.
Wzrost wartości zmiennej jest
jednak coraz szybszy. W takim
przypadku możemy zastosować
funkcję o rosnącym tempie
wzrostu, np. funkcję wykładniczą.
Wykładniczą funkcję trendu
sprowadza się do postaci liniowej
przez logarytmowanie, a
następnie szacuje się jej
parametry za pomocą MNK – zob.
prezentację pt. ”Wykładniczy
model trendu”.
Wykresy przedstawiają wartości
rzeczywiste, teoretyczne i
prognozy zmiennej
16,1 15,5
15
11
10
7,6
5
4,5
3,5
5
4,1
0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
60
produkcja
50
prognoza
53,3
42,1
40
mld zł

33,2
30
26,2
20,7
20
10
0
3,1
4,0
5,0
6,4
8,1
10,2
12,9
16,4
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)


Analiza wzrokowa wykresu
wartości zmiennej
prognozowanej wskazuje, że
zużycie energii w firmie
cechuje się liniową tendencją
rozwojową oraz wahaniami
sezonowymi.
Zadanie:
wyznaczyć prognozy zużycia
energii na następne dwa
kwartały 2008 roku.
rok
Kwartalne zużycie energii elektrycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
4
2005
2005
5
6
7
8
9
10
2006
11
12
2007
2006
2007
kw.
I
II
II
IV
I
II
II
IV
I
II
III
IV
Y
2,8
3,7
3,0
4,6
3,0
4,2
3,5
5,0
3,5
4,7
4,0
5,3
Analiza szeregów czasowych





Poziom zjawiska gospodarczego, które
odzwierciedla szereg czasowy,
wykazuje różnego rodzaju zmiany:
zmiany określające pewien ogólny
kierunek (tendencję rozwojową) czyli
tzw. trend;
wahania cykliczne, czyli
koniunkturalne (wahania o kresie
dłuższym niż rok, które z grubsza
odpowiadają cyklom
koniunkturalnym);
wahania sezonowe powtarzające się
periodycznie w pewnych określonych
porach każdego roku lub miesiąca;
wahania nieregularne (które trudno
zanalizować i ująć w pewien określony
schemat):

wahania katastrofalne
spowodowane przez zdarzenia
historyczne (wojna, katastrofy
żywiołowe, epidemie);

wahania przypadkowe będące
wynikiem działania wielkiej liczby
przyczyn ubocznych.
Produkcja energii elektrycznej w Polsce w latach 1991-1994 (w mln kWh)
15000
14000
13000
12000
11000
10000
9000
8000
1
4
7
10
13
16
19
22
25
miesiące
28
31
34
37
40
43
46
Analiza szeregów czasowych

Rys.1. Składowe szeregu czasowego
Yt
wahania cykliczne
wahania sezonowe
trend
wahania przypadkowe
czas
Analiza szeregów czasowych

Każdą obserwację szeregu czasowego możemy więc
rozłożyć na trzy składniki lub czynniki:
- trend (T);
- sezonowość (S);
- składnik przypadkowy (U).









Charakter powiązań między trendem, sezonowością i
zmiennością losową w szeregach:
- powiązania addytywne:
- i multiplikatywne:
gdzie:
yt = Tt + S t + U t
yt = Tt  S t  U t
(1)
(2)
yt - obserwacje szeregu czasowego
Tt - trend i wahania cykliczne
St - sezonowość
Ut - zmienność o charakterze losowym (czynnik przypadkowy).
Subskrypt t oznacza, że analizujemy zachowanie się zjawiska w czasie.
Analiza szeregów czasowych








Analiza statystyczna może dotyczyć wszystkich składników szeregu
czasowego.
Zwykle dąży się do wyodrębnienia poszczególnych składników
szeregu czasowego i pomiaru ich wielkości – dlatego analizę
szeregu czasowego określa się jako jego „dekompozycję”.
W celu „dekompozycji” szeregu stosuje się wiele różnych metod
statystycznych.
Wyznaczenie z szeregu trendu jest najprostsze.
Zadanie wyznaczenia trendu – funkcji f(t) – jest nazywane
wygładzaniem (wyrównywaniem) szeregu czasowego.
Możemy tego dokonać stosując jedną z dwóch metod:
- metodę analityczną (modelowanie rozwoju zjawiska z
uwzględnieniem analizy regresji – określamy postać funkcji
charakteryzującą tendencję rozwojową szeregu i wyznaczamy jej
parametry);
- metodę mechaniczną.
Analiza szeregów czasowych


Metoda analitycznego wyrównywania szeregów polega na
założeniu, że jego tendencję rozwojową (trend) da się przedstawić
na wykresie za pomocą pewnej linii matematycznej np. prostej,
krzywej wykładniczej itp. o określonym wzorze analitycznym.
Metoda analitycznego wyrównania opiera się na dwóch rodzajach
dowolnie przyjętych założeń:





krzywa, którą uważa się za najlepsze wyrównanie szeregu ma określony z
góry charakter analityczny;
mogą istnieć różne kryteria, na podstawie których ocenia się "najlepsze
dopasowanie krzywej" do wykresu danego szeregu.
Jeżeli oba założenia zostaną ustalone, poszukiwana krzywa jest
określona jednoznacznie i wyznaczenie jej analitycznego wzoru jest
tylko sprawą rachunkową.
Po wyborze postaci funkcji trendu i oszacowaniu jej parametrów,
dokonuje się oceny jakości otrzymanego modelu.
Model wykorzystujemy do sporządzania prognoz.
Analiza szeregów czasowych

Przyszłą wartość zmiennej Y uzyskuje się przez ekstrapolację
funkcji trendu tj. przez podstawienie do modelu w miejsce
zmiennej czasowej numeru momentu lub okresu T, na który
wyznaczamy prognozę:
YTP  f (T )
dla T  n
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)



Rozważamy przypadek, gdy w
szeregu czasowym występują
wahania sezonowe.
Odpowiedni model musi więc
zawierać parametry i zmienne
charakteryzujące te wahania
w poszczególnych fazach
tego cyklu.
Dla uproszczenia rozważań i
zapisu rozpatrujemy zjawisko o
rocznym cyklu wahań z
kwartałami jako fazami tego
cyklu.
Kwartalne zużycie energii elektrycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
2005
4
5
6
7
2006
8
9
10
11
2007
12
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Kwartalne zużycie energii elek trycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
2005

4
5
6
7
2006
8
9
10
11
12
2007
Zakładając, że funkcja trendu jest liniowa a wahania
okresowe (kwartalne) nakładają się na tendencję rozwojową
w sposób addytywny sformułujemy model następująco:
Y t =  +   t   1 X t ,1   2 X t , 2   3 X t ,3   4 X t , 4  t

(1)
gdzie:
Xt,i (i=1,2,3,4; t=1,2,3…,n) są zmiennymi zero-jedynkowymi reprezentującymi
poszczególne fazy cyklu
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

Zmienne zero-jedynkowe:
X t ,i  {


1 dla obserwacji i  tego kw.
0 dla obserwacji poz. kw.
(2)
Parametry stojące przy zmiennych zero-jedynkowych (λi)
charakteryzują absolutną wielkość wahań okresowych w
poszczególnych kwartałach.
Założenia dotyczące składnika losowego εt są takie same jak
w modelu nie uwzględniającym wahań okresowych.
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

Kolumny macierzy X są
liniowo zależne
1
1

1

1
1

1
X  
1

1
1

1
1


1
1
2
3
4
5
6
1
0
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
0
7
8
9
10
11
12
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0

0

1
0

0
0

1
0

0
0

1

(3)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)


W modelu należy jedną spośród zmiennych przedstawić jako
kombinację pozostałych (oznacza to eliminację tej
zmiennej).
Zastąpimy zmienną Xt,1 przez kombinację liniową otrzymaną z
zależności:
X
t ,i
1
(4)
X t ,1  1  X t , 2  X t ,3  X t , 4
czyli
(5)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

W wyniku podstawienia model (1) przyjmie następującą
postać:
Y t =  +   t   1[1  X t ,2  X t ,3  X t ,4 ]   2 X t ,2   3 X t ,3   4 X t ,4  t
(6)
Y t = ( + 1 )    t  ( 2  1 ) X t ,2  ( 3   1 ) X t ,3  ( 4   1 ) X t ,4  t
(7)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

Model tendencji rozwojowej z liniową funkcją
trendu oraz wahaniami sezonowymi przyjmie
zatem postać:
Y t = ( + 1 )    t  ( 2   1 ) X t ,2  ( 3   1 ) X t ,3  ( 4   1 ) X t ,4  t

gdzie : yt – poziom zjawiska w okresie t,
- stała,
( +  1 )
- parametr przy zmiennej czasowej,

- parametr przy zmiennej Xt,i
( i   1 )
εt – składnik losowy dla okresu t
(7)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)


Przyjmując odnośnie do rozkładu εt takie same założenia jak w
klasycznym modelu regresji, uzyskujemy podstawę do szacowania
parametrów funkcji trendu za pomocą MNK.
dane niezbędne do obliczeń:
X – macierz wartości zmiennych objaśniających (kolumny są liniowo
niezależne)
Y- wektor zaobserwowanych wartości zmiennej Y
1
1

1

1
1

1
X  
1

1
1

1
1


1
1
2
3
4
5
6
0
1
0
0
0
1
0
0
1
0
0
0
7
8
9
10
11
12
0
0
0
1
0
0
1
0
0
0
1
0
0
0

0

1
0

0
0

1
0

0
0

1

 2,8 
 3,7 
 
 3,0 
 
 4,6 
 3,0 
 
4,2
Y  
 3,5 
 
 5,0 
 3,5 
 
 4,7 
 4,0 
 
 5,3 
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

wektor ocen parametrów modelu trendu z wahaniami sezonowymi
   1  2,569 
    0,106 

 

~
a   2   1   0,994 

 




0
,
187
 3 1 

 4   1  1,548 

(8)
obliczamy ze wzoru:
~  ( X T X )1 X T y
a
(9)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

Wybrane wyniki (obliczenia w Excel) wskazują, iż model jest dobrze
dopasowany do danych empirycznych (parametry strukturalne są
statystycznie istotne, współczynniki φ2 i V przyjmują wartości bardzo
małe):
PODSUMOWANIE - WYJŚCIE
Statystyki regresji
0,995918125
Wielokrotność R
0,991852912
R kwadrat
0,987197433
Dopasowany R kwadrat
0,093859064
Błąd standardowy
12
Obserwacje
ANALIZA WARIANCJI
SS
df
Regresja
Resztkowy
Razem
Przecięcie
t
z2
z3
z4
4
7
11
7,5075
0,061666667
7,569166667
Współczynniki
2,56875
0,10625
0,99375
0,1875
1,547916667
Błąd standardowy
0,068243081
0,008296048
0,077083333
0,078411182
0,080575651
MS
1,876875
0,008809524
t Stat
37,6411788
12,80730366
12,89189189
2,39124057
19,21072495
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)

Model zużycia energii elektrycznej w firmie jest postaci:
Yˆ t = 2,569  0,106 t  0,994 X t , 2  0,187 X t ,3  1,548 X t , 4
( 0, 068 )





( 0, 008 )
( 0, 077 )
( 0, 078 )
( R 2  0,992)
( 0, 080 )
interpretacja:
2,569 – jest oceną wyrazu wolnego modelu (7) na który składa się wyraz wolny
i odchylenie okresowe dla I kwartału z modelu w postaci wyjściowej (5);
0,106 – ocena współczynnika trendu, wyraża tendencję rozwojową zużycia
energii elektrycznej i jest interpretowany jako średni kwartalny wzrost zużycia
energii w firmie (w mln kWh) w latach 2005-2007;
0,994- ocena parametru stojącego przy zmiennej Xt,2 reprezentuje odchylenie
sezonowe zużycia energii dla II kwartału w porównaniu z I kwartałem.
Oznacza, że z tytułu wahań sezonowych zużycie energii w firmie w II kwartale
każdego roku jest wyższe o 0,994 mln kWh od zużycia w I kwartale;
Podobnie (jak ocenę parametru stojącego przy zmiennej Xt,2 ) interpretuje się
oceny 0,187 i 1,548 parametrów przy Xt,3 oraz Xt,4 .
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)


Prognoza zużycia energii w firmie:
w I kwartale 2008 roku
Y13P = 2,569  0,106  13  0,994  0  0,187  0  1,548  0
Y13P  3,947

w II kwartale 2008 roku
Y14P = 2,569  0,106 14  0,994 1  0,187  0  1,548  0
Y14P  5,047
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Kwartalne zużycie energii elektrycznej w firmie w latach 2005-2007
(w mln kWh) i prognoza na I i II kwartał 2008 roku
6,00
5,50
5,00
4,50
4,00
3,50
3,00
prognoza
2,50
zużycie energii
2,00
1
2
3
2005
4
1
2
3
2006
4
1
2
3
2007
4
1
2
2008