Transcript Document


GVHD: PGS. TS. Dương Tuấn Anh
GVPB: TS. Võ Thị Ngọc Châu
SVTH1:
 Trần Thế Sĩ – 50801793
SVTH2: Đinh Kim Ngân - 50801336
12/2012






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A

Dữ liệu được thu nhập, lưu trữ và quan sát theo sự
tăng dần của thời gian

Xu hướng (trend): Chuỗi dữ liệu quan sát tăng hoặc giảm
trong suốt thời đoạn quan sát

Chu kì (cyclical): giá trị quan sát tăng lên, hoặc giảm
xuống trong những khoảng thời gian khác nhau

Tính mùa (seasonal): Những thay đổi lặp lại hằng năm

Bất qui tắc (irregular): thể hiện sự biến đổi ngẫu nhiên
không thể dự đoán được


Việc xác định một chuỗi thời gian có thành phần xu
hướng hay thành phần mùa rất quan trọng trong bài
toán dự báo chuỗi thời gian. Nó giúp ta lựa chọn
được mô hình dự báo phù hợp hay giúp cải tiến mô
hình đã có chính xác hơn
Có 2 cách phổ biến giúp nhận ra các thành phần
của chuỗi thời gian:
 Phương pháp đồ thị
 Phân tích hệ số tự tương quan


Hệ số tự tương quan rất lớn ở những độ trễ đầu tiên và giảm dần
theo sự tăng của độ trễ.
Có thể được xấp xỉ bằng 1 đường thẳng hoặc đường cong trơn



(1) 𝐸 𝑋𝑡 = 𝜇 ∀𝑡
(2) 𝐶𝑜𝑣 𝑋𝑡 , 𝑋𝑡+𝑘 = 𝛾𝑘 ∀𝑡
Hệ số tự tương quan của chuỗi thời gian tĩnh giảm
nhanh về 0, thông thường sau độ trễ thứ 2 hoặc thứ 3.


Những dao động dạng sóng quanh xu hướng luôn
thay đổi cả về biên độ và khoảng thời gian xuất hiện
Xem như là một phần của thành phần xu hướng


Thành phần thể hiện sự biến đổi lặp đi lặp lại tại từng
thời điểm cố định theo từng năm của chuỗi thời gian
Hệ số tự tương quan tại những thời điểm cố định theo
từng năm sẽ có sự tương quan lớn với nhau
Dự báo cảm tính
Dự báo đơn biến
Dự báo đa biến
Thứ tự các giai đoạn trong bài toán dự báo chuỗi
thời gian
Thành phần
Kĩ thuật dự báo
Trung bình đơn giản (Simple Average )
Chuỗi tĩnh
Áp dụng
Mô hình đơn giản có ít dữ liệu ban
Trung bình di động (Moving Average )
đầu: công ty mới thành lập.
Tự hồi quy kết hợp trung bình di động
Những chuỗi thời gian được sinh ra
(Autoregressive Moving Average )
trong những điều kiện, môi trường ổn
định.
Xu hướng
Trung bình di động (Moving Average )
Xuất hiện trong thời đoạn phát triển
Tự hồi qui tích hợp trung bình di động
của dòng đời 1 sản phẩm. Sự gia tăng
(Autoregressive Integrated Moving
dân số làm tăng lên nhu cầu về lương
Average )
thực, thực phẩm, dịch vụ.
Mô hình làm trơn theo hàm mũ của Những dữ liệu này thường gắn liền
Mùa
Winter (Winter’s exponential smoothing)
với chu kì thời tiết, hoặc là các mốc
Tự hồi qui tích hợp trung bình di động
thời gian đặc biệt của năm (khai giảng,
giáng sinh, Tết…)






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A





Mô hình trung bình di động bậc q, MA(q)
Mô hình tự hồi quy bậc p, AR(p)
Mô hình kết hợp tự hồi quy và trung bình di động
ARMA(p,q)
Mô hình tự hồi quy tích hợp với trung bình di động
ARIMA(p,d,q)
Mô hình ARIMA có tính mùa SARIMA(p,q,d)(P,Q,D)s

Mô hình

𝑦𝑡 = 𝜇 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − ⋯ −
𝜃𝑞 𝜀𝑡−𝑞

Dấu hiệu nhận biết
 Hệ số tự tương quan bằng
0 với độ trễ lớn hơn q
 Hệ số tự tương quan riêng
phần giảm dần về 0
Mô hình MA(2) yt = 40 +
εt + 0.7εt−1 − 0.28εt−2

Mô hình

𝑦𝑡 = 𝛿 + 𝜙1 𝑦𝑡−1 + ⋯ + 𝜙𝑝 𝑦𝑡−𝑝 +
𝜀𝑡

Dấu hiệu nhận biết:
 Hệ số tương quan giảm dần
về 0
 Hệ số tương quan riêng
phần bằng 0 với độ trễ lớn
hơn p
ACF và PACF của mô hình 𝑦𝑡 =
4 + 0.4𝑦𝑡−1 + 0.5𝑦𝑡−2 + 𝜀𝑡



Mô hình
𝑦𝑡 = 𝜙1 𝑦𝑡−1 + ⋯ +
𝜙𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1 +
⋯ + 𝜃𝑞 𝜀𝑡−𝑞
Dấu hiệu nhận biết
 Hệ số tương quan
bằng giảm dần về 0
sau độ trễ q
 Hệ số tương quan
riêng phần giảm dần
về 0 sau độ trễ p
ACF và PACF của mô hình 𝑦𝑡 =
4 + 0.4𝑦𝑡−1 + 0.5𝑦𝑡−2 + 𝜀𝑡




Mô hình
Φ 𝐵 (1 − 𝐵)𝑑 𝑦𝑡 = 𝛿 +
Θ(𝐵)𝜀𝑡
Dấu hiệu nhận biết
 Chuỗi thời gian không
tĩnh, có xu hướng
 Hệ số tương quan giảm rất
chậm
Làm tĩnh chuỗi thời gian bằng
cách lấy hiệu d lần 𝑤𝑡 = ∆𝑑 𝑋𝑡

Mô hình

Nhận biết: Hệ số ACF rất lớn tại các
cận mùa
Cách xác định chu kì mùa

Φ∗ 𝐵 𝑆 Φ 𝐵 (1 − 𝐵)𝑑 (1 − 𝐵 𝑆 )𝐷 𝑦𝑡 = 𝛿 +
Θ∗ 𝐵 𝑆 Θ(𝐵)𝜀𝑡
 Xác định các hệ số tương quan tối
ưu
 Tính khoảng cách giữa các hệ số
tương quan tối ưu
 Nhận dạng khoảng cách được lặp
lại nhiều nhất, nếu tần suất của
khoảng cách này lớn thì đó chính
là chu kì mùa.
Thành phần nhận dạng mô hình
Thành phần khử mùa và xu hướng
Thành phần ước lượng tham số
Thành phần dự báo


Xác định các hệ số mô hình
bằng cách phân tích ACF, PACF
Bao gồm 4 giai đoạn chính:
• Xác định bậc lấy hiệu d để loại
bỏ tính xu hướng
• Loại bỏ tính mùa: chuỗi dữ liệu
được lấy hiệu D lần với khoảng
lấy hiệu là s
• Xác định mô hình cho thành
phần thường
Tính chất ACF, PACF của các mô hình ARIMA
• Xác định mô hình cho thành
phần mùa

Xác định mô hình bằng cách phân tích tính chất ACF, PACF
Tỉ lệ thay đổi trung bình:
1
∆=
𝑀
𝑀
|𝑟𝑘 | − |𝑟𝑘+1 |
|𝑟𝑘 |
𝑘=0
Xác định tính chất ACF, PACF
Xác định mô hình ARIMA tương ứng
 Các chuỗi dữ liệu rất phức tạp và thường mang tính xu hướng
hoặc tính mùa
 Các chuỗi dữ liệu cần được biến đổi thành các quá trình tĩnh
trước khi đưa vào thành phần nhận dạng mô hình
 Lấy hiệu là kĩ thuật được sử dụng phổ biến nhất
 Khi dự báo, ta cần chuyển đổi lại dữ liệu như ban đầu

Tính toán n giai đoạn dự đoạn cho chuỗi dữ liệu đã
được chuyển đổi

Khôi phục lại chuỗi dữ liệu gốc: thực hiện ngược lại
quá trình lấy hiệu đã thực hiện khi khử đi tính
không tĩnh và tính mùa của chuỗi dữ liệu gốc.



Mô hình ARIMA là một mô hình tổng quát có thể sử
dụng cho nhiều loại chuỗi thời gian trong thực tế,
kể cả những chuỗi có thành phần xu hướng và
thành phần mùa.
Để xây dựng mô hình ARIMA cần phải có nhiều dữ
liệu.
Không dễ cập nhập mô hình khi có thêm dữ liệu
mới, thường là mô hình mới sẽ được xây dựng






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A
Sơ lược về mạng nơron
 Mạng nơron nhân tạo
 Giải thuật lan truyền ngược
 Giải thuật RPROP
 Xây dựng mô hình ANN
 Kết luận mô hình ANN





Tế bào hình cây có nhiệm vụ mang tín hiệu điện sinh học tới tế
bào thân
Tế bào thân sẽ thực hiện tính tổng và phân ngưỡng (thresholds)
các tín hiệu đến
Sợi trục thần kinh có nhiệm vụ đưa tín hiệu từ tế bào thân ra
ngoài
Khớp thần kinh (synapse) là điểm tiếp xúc giữa sợi trục thần kinh
này với tế bào hình cây của nơron kia

là một mạng gồm một tập các đơn vị (unit) được
kết nối với nhau bằng các cạnh có trọng số

Hàm đồng nhất:
𝑔 𝑥 =𝑥

Hàm ngưỡng:
1, 𝑥 ≥ 𝜃
𝑔 𝑥 =
0, 𝑥 < 𝜃

Hàm sigmoid:
𝑔 𝑥 =

Hàm sigmoid lưỡng cực
1
1+𝑒 −𝑥
1 − 𝑒 −𝑥
𝑔 𝑥 =
1 + 𝑒 −𝑥
Mạng truyền thẳng
Mạng hồi quy



Tìm tập các trọng số thích hợp cho một mạng
nơron truyền thẳng nhiều lớp
Áp dụng phương pháp giảm độ dốc để tối thiểu hóa
bình phương sai số
Giá trị lỗi sẽ được lan truyền ngược từ tầng xuất về
tầng nhập để tính 𝛻𝐸 𝑤

Ưu điểm:
 Đơn giản

Nhược điểm:
 Khó khăn trong việc lựa chọn tham số đầu vào
 Phụ thuộc vào độ lớn đạo hàm lỗi
 Quá trình học không ổn định




Resilient Propagation
Lan truyền đàn hồi là một phương pháp thích nghi cục bộ
Cập nhập các trọng số 𝑤𝑖𝑗 dựa vào thông tin về dấu của
các đạo hàm riêng phần
Thực hiện theo mô hình học theo epoch nghĩa là cập nhật
hệ số dựa vào thông tin của tổng độ dốc cho toàn bộ tập
dữ liệu
𝑡−1
𝑡
𝜕𝐸
𝜕𝐸
𝑡
+
𝜂 ∗ ∆𝑖𝑗 , 𝑖𝑓
∗
>0
𝜕𝑤𝑖𝑗
𝜕𝑤𝑖𝑗
(𝑡)
∆𝑖𝑗 =
𝑡−1
𝑡
𝜕𝐸
𝜕𝐸
𝑡
𝜂− ∗ ∆𝑖𝑗 , 𝑖𝑓
∗
<0
𝜕𝑤𝑖𝑗
𝜕𝑤𝑖𝑗
(𝑡−1)
∆𝑖𝑗 , 𝑒𝑙𝑠𝑒

Lưu ý: khi đạo hàm riêng phần đổi dấu, nghĩa là bước
cập nhập trước quá lớn làm cho điểm tối ưu bị nhảy
vượt qua. Thực hiện
(𝑡)
∆𝑤𝑖𝑗 =
(𝑡−1)
−∆𝑤𝑖𝑗
𝑣à
𝜕𝐸 𝑡
𝜕𝑤𝑖𝑗
= 0
 Việc khởi tạo giá trị ban đầu cho các tham số ít
ảnh hưởng đến tốc độ hội tụ
 Thông số đưa vào ít: ∆0 và ∆𝑚𝑎𝑥
 Việc cập nhật dựa vào dấu của đạo hàm riêng
phần nên việc cập nhật sẽ trải đều cho toàn
mạng chứ không thiên vị như mô hình lan
truyền ngược








Lựa chọn các biến
Thu thập dữ liệu
Tiền xử lý dữ liệu
Phân chia tập dữ liệu
Xây dựng cấu trúc mạng
Xác định tiêu chuẩn đánh giá
Huấn luyện mạng
Dự báo và cải tiến

Xác định được tổng quan vấn đề

Xác định yếu tố ảnh hưởng quan trọng, mấu chốt

Lựa chọn tần xuất ghi nhận thông tin phù hợp


Chuẩn hóa dữ liệu đầu vào
Chuyển đổi dữ liệu dùng:
 Phương pháp lấy hiệu
 Logarit
 Tỉ số giá trị đầu vào
 Trung bình di động


Tập huấn luyện, kiểm tra và kiểm định (ngoài các
mẫu)
 Tập huấn luyện thường có kích thước lớn nhất
 Tập kiểm tra chiếm khoảng 10% - 30% dữ liệu tập
huấn luyện
 Tập kiểm định phụ thuộc vào kích thước mẫu, bao
gồm các giá trị dự đoán mới nhất
Phương pháp walk-forward



Xác định sự liên kết giữa các nơron
Xác định số lớp ẩn: thông thường các mạng nơron
được khởi tạo với một hoặc hai lớp ẩn.
Xác định số nơron trong từng lớp:
 Tạo ra một số mô hình mẫu, huấn luyện và chọn
mô hình có lỗi tối ưu nhất
 Thay đổi cấu trúc ngay trong giai đoạn huấn luyện
(phức tạp)

Thường dùng tổng bình phương lỗi
𝑛
𝑆𝑆𝐸 =
𝑡𝑘 − 𝑜𝑘
2
𝑘=1

Trong đó:
 n là số điểm trong tập dữ liệu kiểm tra
 tk và ok lần lượt là giá trị mong muốn trong bộ dữ liệu và
giá trị xuất của mạng nơron


Mục tiêu của việc huấn luyện mạng đó là tìm ra tập các
trọng số cho ta giá trị nhỏ nhất toàn cục của chỉ số hiệu
năng hay hàm lỗi
Có ba cách thường dùng để dừng một quá trình huấn
luyện:
 điểm hội tụ
 số lần lặp tối đa
 sử dụng tập dữ liệu kiểm định (validation set)



Sử dụng mô hình xây dựng được dự báo cho bài toán
Các giá trị dự báo của mạng được lưu lại và so sánh với
các giá trị thực tế
Tiến hành cải tiến mạng hoặc học lại và xây dựng mạng
mới nếu cần thiết


Phụ thuộc nhiều vào cấu hình của mạng (số lớp, số
đơn vị mỗi lớp) và các tham số của giải thuật huấn
luyện
Đối với những chuỗi thời gian có xu hướng và tính
mùa chương trình sử dụng mạng nơron dự đoán với
độ chính xác chưa cao






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A




Mô hình ARIMA không giải quyết được chuỗi phi
tuyến
Mô hình ANN không giải quyết tốt chuỗi tuyến tính
Khó xác định được một chuỗi thời gian thuần phi
tuyến hay tuyến tính
Một chuỗi thời gian thường bao gồm cả 2 thành phần
phi tuyến, tuyến tính
Chuỗi
thời gian

Mô hình 𝑌𝑡 = 𝐿𝑡 + 𝑁𝑡
•
•

L: biểu diễn thành phần tuyến
tính của chuỗi thời gian được ước
lượng bởi mô hình SARIMA
N: biểu diễn thành phần phi tuyến
của chuỗi thời gian được ước
lượng bởi mô hình ANN
Dự đoán 𝑌𝑡 = 𝐿𝑡 + 𝑁𝑡
Mô
hình
SARIM
A
Mô
hình
ANN
Dự báo
dùng
ARIMA
Dự báo






Chuỗi thời gian và các thành phần của chuỗi
thời gian
Mô hình ARIMA
Mô hình ANN
Mô hình kết hợp ARIMA-ANN
Kết luận
Q&A



Đối với các chuỗi dữ liệu chỉ có tính mùa hoặc xu
hướng thì mô hình SARIMA có kết quả chính xác hơn
mô hình mạng nơron
Đối với các chuỗi dữ liệu có tính phi tuyến thì mô
hình mạng nơron cho kết quả chính xác hơn.
Mô hình kết hợp có thể dự báo với nhiều loại dữ liệu
hơn các mô hình thành phần và cho kết quả chính
xác hơn





Tìm hiểu về dữ liệu chuỗi thời gian và các tính chất của nó.
Tìm hiểu về cấu trúc và nguyên lý hoạt động của mạng
nơron nhân tạo và hai giải thuật huấn luyện phổ biến: lan
truyền ngược và RPROP.
Tìm hiểu về cấu trúc và nguyên lý hoạt động của mô hình
SARIMA, hiện thực được chương tự động xây dựng mô hình
SARIMA.
Tìm hiểu nguyên lý kết hợp hai mô hình mạng nơron và
ARIMA, từ đó xây dựng một mô hình kết hợp có khả năng
phù hợp với nhiều loại dữ liệu khác nhau.
Thực hiện chạy thử nghiệm chương trình trên các bộ dữ liệu
mẫu khác nhau, từ đó kiểm tra tính đúng đắn của cơ sở lý
thuyết.


Hạn chế
 Chỉ sử dụng các dữ liệu đã thu thập sẵn nên chưa
có bước tiền xử lý dữ liệu
Định hướng
 Kết hợp các phương pháp xử lý tính mùa và xu
hướng khác cho mô hình SARIMA thay vì chỉ dùng
phương pháp lấy hiệu như hiện nay
 Xây dựng mô hình ước lượng trực tuyến