Analiza szeregów czasowych
Download
Report
Transcript Analiza szeregów czasowych
Analiza szeregów czasowych
dr Małgorzata Radziukiewicz
Szereg czasowy
Szereg czasowy (chronologiczny)
zbiór wartości badanej cechy lub
wartości określonego zjawiska
zaobserwowanych w różnych
momentach (przedziałach) czasu
uporządkowany chronologicznie
Przykłady szeregów czasowych
Szeregi czasowe dotyczące zjawisk
społeczno-ekonomicznych
- nakład książek i broszur w latach 1990-1997 (w mln egz.);
- wartość produkcji w pewnym przedsiębiorstwie w latach
1993 – 2002 (w mld zł.);
- produkcja energii elektrycznej w latach (w mln kWh);
- skup mleka w woj. poznańskim w latach 1989 -1995(w mln
litrów);
- liczba zawartych małżeństw w Polsce w latach 1989 – 1993 (w
tys.) itp..
Szeregi czasowe
Szeregi czasowe
Dłuośc linii kolejowych w Polsce w latach 1990-2004
9
8
7
6
5
4
lata
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
3
1990
dotyczące zjawisk
społeczno-ekonomicznych
można przedstawić w
formie graficznej –
elementy szeregu
prezentowane są przez
punkty płaszczyzny o
współrzędnych (t,y), które
łączy się odcinkami linii
prostej
tys. km
nakład książek i broszur w latach 1990-1997 (w mln egz.)
W badanym 8-elementowym
szeregu czasowym występuje
składowa systematyczna w
postaci trendu oraz wahania
przypadkowe.
Ocena wzrokowa wykresu
wskazuje, ze do opisu
przebiegu zmiennej można
wykorzystać funkcję liniową
Nakład książek i broszur w latach 1990-1997
200
wartości rzeczywiste
180
w mln egzemplarzy
160
140
120
100
80
60
1990
1991
1992
1993
1994
1995
1996
1997
nakład książek i broszur w latach 1990-1997 (w mln egz.)
Parametry modelu liniowego
oszacowano MNK. Obliczenia
związane z szacowaniem
parametrów linii trendu,
wyznaczeniem miar
„dobroci”dopasowania,
prognozy punktowej i
prognozy przedziałowej,
błędów prognoz zawarte są w
prezentacji pt. ”Szeregi
czasowe”.
Wartości rzeczywiste i
teoretyczne zmiennej
przedstawia rysunek obok.
Nakład książek i broszur w latach 1990-1997
wartości rzeczywiste
200
wartości teoretyczne
180
w mln egzemplarzy
160
140
120
100
80
60
1990
1991
1992
1993
1994
1995
1996
1997
wartość produkcji w pewnym przedsiębiorstwie w latach 1993 – 2002 (w mld zł.)
wartość produkcji w latach 1993-2002 (w mld zł)
30
26,4
25
21
20
mld zł
Ocena wzrokowa wykresu
wskazuje, ze w badanym szeregu
czasowym występuje składowa
systematyczna w postaci trendu
rosnącego oraz wahania
przypadkowe.
Wzrost wartości zmiennej jest
jednak coraz szybszy. W takim
przypadku możemy zastosować
funkcję o rosnącym tempie
wzrostu, np. funkcję wykładniczą.
Wykładniczą funkcję trendu
sprowadza się do postaci liniowej
przez logarytmowanie, a
następnie szacuje się jej
parametry za pomocą MNK – zob.
prezentację pt. ”Wykładniczy
model trendu”.
Wykresy przedstawiają wartości
rzeczywiste, teoretyczne i
prognozy zmiennej
16,1 15,5
15
11
10
7,6
5
4,5
3,5
5
4,1
0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
60
produkcja
50
prognoza
53,3
42,1
40
mld zł
33,2
30
26,2
20,7
20
10
0
3,1
4,0
5,0
6,4
8,1
10,2
12,9
16,4
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Analiza wzrokowa wykresu
wartości zmiennej
prognozowanej wskazuje, że
zużycie energii w firmie
cechuje się liniową tendencją
rozwojową oraz wahaniami
sezonowymi.
Zadanie:
wyznaczyć prognozy zużycia
energii na następne dwa
kwartały 2008 roku.
rok
Kwartalne zużycie energii elektrycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
4
2005
2005
5
6
7
8
9
10
2006
11
12
2007
2006
2007
kw.
I
II
II
IV
I
II
II
IV
I
II
III
IV
Y
2,8
3,7
3,0
4,6
3,0
4,2
3,5
5,0
3,5
4,7
4,0
5,3
Analiza szeregów czasowych
Poziom zjawiska gospodarczego, które
odzwierciedla szereg czasowy,
wykazuje różnego rodzaju zmiany:
zmiany określające pewien ogólny
kierunek (tendencję rozwojową) czyli
tzw. trend;
wahania cykliczne, czyli
koniunkturalne (wahania o kresie
dłuższym niż rok, które z grubsza
odpowiadają cyklom
koniunkturalnym);
wahania sezonowe powtarzające się
periodycznie w pewnych określonych
porach każdego roku lub miesiąca;
wahania nieregularne (które trudno
zanalizować i ująć w pewien określony
schemat):
wahania katastrofalne
spowodowane przez zdarzenia
historyczne (wojna, katastrofy
żywiołowe, epidemie);
wahania przypadkowe będące
wynikiem działania wielkiej liczby
przyczyn ubocznych.
Produkcja energii elektrycznej w Polsce w latach 1991-1994 (w mln kWh)
15000
14000
13000
12000
11000
10000
9000
8000
1
4
7
10
13
16
19
22
25
miesiące
28
31
34
37
40
43
46
Analiza szeregów czasowych
Rys.1. Składowe szeregu czasowego
Yt
wahania cykliczne
wahania sezonowe
trend
wahania przypadkowe
czas
Analiza szeregów czasowych
Każdą obserwację szeregu czasowego możemy więc
rozłożyć na trzy składniki lub czynniki:
- trend (T);
- sezonowość (S);
- składnik przypadkowy (U).
Charakter powiązań między trendem, sezonowością i
zmiennością losową w szeregach:
- powiązania addytywne:
- i multiplikatywne:
gdzie:
yt = Tt + S t + U t
yt = Tt S t U t
(1)
(2)
yt - obserwacje szeregu czasowego
Tt - trend i wahania cykliczne
St - sezonowość
Ut - zmienność o charakterze losowym (czynnik przypadkowy).
Subskrypt t oznacza, że analizujemy zachowanie się zjawiska w czasie.
Analiza szeregów czasowych
Analiza statystyczna może dotyczyć wszystkich składników szeregu
czasowego.
Zwykle dąży się do wyodrębnienia poszczególnych składników
szeregu czasowego i pomiaru ich wielkości – dlatego analizę
szeregu czasowego określa się jako jego „dekompozycję”.
W celu „dekompozycji” szeregu stosuje się wiele różnych metod
statystycznych.
Wyznaczenie z szeregu trendu jest najprostsze.
Zadanie wyznaczenia trendu – funkcji f(t) – jest nazywane
wygładzaniem (wyrównywaniem) szeregu czasowego.
Możemy tego dokonać stosując jedną z dwóch metod:
- metodę analityczną (modelowanie rozwoju zjawiska z
uwzględnieniem analizy regresji – określamy postać funkcji
charakteryzującą tendencję rozwojową szeregu i wyznaczamy jej
parametry);
- metodę mechaniczną.
Analiza szeregów czasowych
Metoda analitycznego wyrównywania szeregów polega na
założeniu, że jego tendencję rozwojową (trend) da się przedstawić
na wykresie za pomocą pewnej linii matematycznej np. prostej,
krzywej wykładniczej itp. o określonym wzorze analitycznym.
Metoda analitycznego wyrównania opiera się na dwóch rodzajach
dowolnie przyjętych założeń:
krzywa, którą uważa się za najlepsze wyrównanie szeregu ma określony z
góry charakter analityczny;
mogą istnieć różne kryteria, na podstawie których ocenia się "najlepsze
dopasowanie krzywej" do wykresu danego szeregu.
Jeżeli oba założenia zostaną ustalone, poszukiwana krzywa jest
określona jednoznacznie i wyznaczenie jej analitycznego wzoru jest
tylko sprawą rachunkową.
Po wyborze postaci funkcji trendu i oszacowaniu jej parametrów,
dokonuje się oceny jakości otrzymanego modelu.
Model wykorzystujemy do sporządzania prognoz.
Analiza szeregów czasowych
Przyszłą wartość zmiennej Y uzyskuje się przez ekstrapolację
funkcji trendu tj. przez podstawienie do modelu w miejsce
zmiennej czasowej numeru momentu lub okresu T, na który
wyznaczamy prognozę:
YTP f (T )
dla T n
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Rozważamy przypadek, gdy w
szeregu czasowym występują
wahania sezonowe.
Odpowiedni model musi więc
zawierać parametry i zmienne
charakteryzujące te wahania
w poszczególnych fazach
tego cyklu.
Dla uproszczenia rozważań i
zapisu rozpatrujemy zjawisko o
rocznym cyklu wahań z
kwartałami jako fazami tego
cyklu.
Kwartalne zużycie energii elektrycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
2005
4
5
6
7
2006
8
9
10
11
2007
12
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Kwartalne zużycie energii elek trycznej w latach 2005-2007
5,5
5
4,5
4
3,5
3
2,5
2
1
2
3
2005
4
5
6
7
2006
8
9
10
11
12
2007
Zakładając, że funkcja trendu jest liniowa a wahania
okresowe (kwartalne) nakładają się na tendencję rozwojową
w sposób addytywny sformułujemy model następująco:
Y t = + t 1 X t ,1 2 X t , 2 3 X t ,3 4 X t , 4 t
(1)
gdzie:
Xt,i (i=1,2,3,4; t=1,2,3…,n) są zmiennymi zero-jedynkowymi reprezentującymi
poszczególne fazy cyklu
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Zmienne zero-jedynkowe:
X t ,i {
1 dla obserwacji i tego kw.
0 dla obserwacji poz. kw.
(2)
Parametry stojące przy zmiennych zero-jedynkowych (λi)
charakteryzują absolutną wielkość wahań okresowych w
poszczególnych kwartałach.
Założenia dotyczące składnika losowego εt są takie same jak
w modelu nie uwzględniającym wahań okresowych.
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Kolumny macierzy X są
liniowo zależne
1
1
1
1
1
1
X
1
1
1
1
1
1
1
2
3
4
5
6
1
0
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
0
7
8
9
10
11
12
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
(3)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
W modelu należy jedną spośród zmiennych przedstawić jako
kombinację pozostałych (oznacza to eliminację tej
zmiennej).
Zastąpimy zmienną Xt,1 przez kombinację liniową otrzymaną z
zależności:
X
t ,i
1
(4)
X t ,1 1 X t , 2 X t ,3 X t , 4
czyli
(5)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
W wyniku podstawienia model (1) przyjmie następującą
postać:
Y t = + t 1[1 X t ,2 X t ,3 X t ,4 ] 2 X t ,2 3 X t ,3 4 X t ,4 t
(6)
Y t = ( + 1 ) t ( 2 1 ) X t ,2 ( 3 1 ) X t ,3 ( 4 1 ) X t ,4 t
(7)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Model tendencji rozwojowej z liniową funkcją
trendu oraz wahaniami sezonowymi przyjmie
zatem postać:
Y t = ( + 1 ) t ( 2 1 ) X t ,2 ( 3 1 ) X t ,3 ( 4 1 ) X t ,4 t
gdzie : yt – poziom zjawiska w okresie t,
- stała,
( + 1 )
- parametr przy zmiennej czasowej,
- parametr przy zmiennej Xt,i
( i 1 )
εt – składnik losowy dla okresu t
(7)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Przyjmując odnośnie do rozkładu εt takie same założenia jak w
klasycznym modelu regresji, uzyskujemy podstawę do szacowania
parametrów funkcji trendu za pomocą MNK.
dane niezbędne do obliczeń:
X – macierz wartości zmiennych objaśniających (kolumny są liniowo
niezależne)
Y- wektor zaobserwowanych wartości zmiennej Y
1
1
1
1
1
1
X
1
1
1
1
1
1
1
2
3
4
5
6
0
1
0
0
0
1
0
0
1
0
0
0
7
8
9
10
11
12
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
2,8
3,7
3,0
4,6
3,0
4,2
Y
3,5
5,0
3,5
4,7
4,0
5,3
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
wektor ocen parametrów modelu trendu z wahaniami sezonowymi
1 2,569
0,106
~
a 2 1 0,994
0
,
187
3 1
4 1 1,548
(8)
obliczamy ze wzoru:
~ ( X T X )1 X T y
a
(9)
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Wybrane wyniki (obliczenia w Excel) wskazują, iż model jest dobrze
dopasowany do danych empirycznych (parametry strukturalne są
statystycznie istotne, współczynniki φ2 i V przyjmują wartości bardzo
małe):
PODSUMOWANIE - WYJŚCIE
Statystyki regresji
0,995918125
Wielokrotność R
0,991852912
R kwadrat
0,987197433
Dopasowany R kwadrat
0,093859064
Błąd standardowy
12
Obserwacje
ANALIZA WARIANCJI
SS
df
Regresja
Resztkowy
Razem
Przecięcie
t
z2
z3
z4
4
7
11
7,5075
0,061666667
7,569166667
Współczynniki
2,56875
0,10625
0,99375
0,1875
1,547916667
Błąd standardowy
0,068243081
0,008296048
0,077083333
0,078411182
0,080575651
MS
1,876875
0,008809524
t Stat
37,6411788
12,80730366
12,89189189
2,39124057
19,21072495
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Model zużycia energii elektrycznej w firmie jest postaci:
Yˆ t = 2,569 0,106 t 0,994 X t , 2 0,187 X t ,3 1,548 X t , 4
( 0, 068 )
( 0, 008 )
( 0, 077 )
( 0, 078 )
( R 2 0,992)
( 0, 080 )
interpretacja:
2,569 – jest oceną wyrazu wolnego modelu (7) na który składa się wyraz wolny
i odchylenie okresowe dla I kwartału z modelu w postaci wyjściowej (5);
0,106 – ocena współczynnika trendu, wyraża tendencję rozwojową zużycia
energii elektrycznej i jest interpretowany jako średni kwartalny wzrost zużycia
energii w firmie (w mln kWh) w latach 2005-2007;
0,994- ocena parametru stojącego przy zmiennej Xt,2 reprezentuje odchylenie
sezonowe zużycia energii dla II kwartału w porównaniu z I kwartałem.
Oznacza, że z tytułu wahań sezonowych zużycie energii w firmie w II kwartale
każdego roku jest wyższe o 0,994 mln kWh od zużycia w I kwartale;
Podobnie (jak ocenę parametru stojącego przy zmiennej Xt,2 ) interpretuje się
oceny 0,187 i 1,548 parametrów przy Xt,3 oraz Xt,4 .
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Prognoza zużycia energii w firmie:
w I kwartale 2008 roku
Y13P = 2,569 0,106 13 0,994 0 0,187 0 1,548 0
Y13P 3,947
w II kwartale 2008 roku
Y14P = 2,569 0,106 14 0,994 1 0,187 0 1,548 0
Y14P 5,047
zużycie energii elektrycznej w firmie latach 2005 - 2007(w mln kWh)
Kwartalne zużycie energii elektrycznej w firmie w latach 2005-2007
(w mln kWh) i prognoza na I i II kwartał 2008 roku
6,00
5,50
5,00
4,50
4,00
3,50
3,00
prognoza
2,50
zużycie energii
2,00
1
2
3
2005
4
1
2
3
2006
4
1
2
3
2007
4
1
2
2008