Transcript Document
GVHD: PGS. TS. Dương Tuấn Anh GVPB: TS. Võ Thị Ngọc Châu SVTH1: Trần Thế Sĩ – 50801793 SVTH2: Đinh Kim Ngân - 50801336 12/2012 Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Dữ liệu được thu nhập, lưu trữ và quan sát theo sự tăng dần của thời gian Xu hướng (trend): Chuỗi dữ liệu quan sát tăng hoặc giảm trong suốt thời đoạn quan sát Chu kì (cyclical): giá trị quan sát tăng lên, hoặc giảm xuống trong những khoảng thời gian khác nhau Tính mùa (seasonal): Những thay đổi lặp lại hằng năm Bất qui tắc (irregular): thể hiện sự biến đổi ngẫu nhiên không thể dự đoán được Việc xác định một chuỗi thời gian có thành phần xu hướng hay thành phần mùa rất quan trọng trong bài toán dự báo chuỗi thời gian. Nó giúp ta lựa chọn được mô hình dự báo phù hợp hay giúp cải tiến mô hình đã có chính xác hơn Có 2 cách phổ biến giúp nhận ra các thành phần của chuỗi thời gian: Phương pháp đồ thị Phân tích hệ số tự tương quan Hệ số tự tương quan rất lớn ở những độ trễ đầu tiên và giảm dần theo sự tăng của độ trễ. Có thể được xấp xỉ bằng 1 đường thẳng hoặc đường cong trơn (1) 𝐸 𝑋𝑡 = 𝜇 ∀𝑡 (2) 𝐶𝑜𝑣 𝑋𝑡 , 𝑋𝑡+𝑘 = 𝛾𝑘 ∀𝑡 Hệ số tự tương quan của chuỗi thời gian tĩnh giảm nhanh về 0, thông thường sau độ trễ thứ 2 hoặc thứ 3. Những dao động dạng sóng quanh xu hướng luôn thay đổi cả về biên độ và khoảng thời gian xuất hiện Xem như là một phần của thành phần xu hướng Thành phần thể hiện sự biến đổi lặp đi lặp lại tại từng thời điểm cố định theo từng năm của chuỗi thời gian Hệ số tự tương quan tại những thời điểm cố định theo từng năm sẽ có sự tương quan lớn với nhau Dự báo cảm tính Dự báo đơn biến Dự báo đa biến Thứ tự các giai đoạn trong bài toán dự báo chuỗi thời gian Thành phần Kĩ thuật dự báo Trung bình đơn giản (Simple Average ) Chuỗi tĩnh Áp dụng Mô hình đơn giản có ít dữ liệu ban Trung bình di động (Moving Average ) đầu: công ty mới thành lập. Tự hồi quy kết hợp trung bình di động Những chuỗi thời gian được sinh ra (Autoregressive Moving Average ) trong những điều kiện, môi trường ổn định. Xu hướng Trung bình di động (Moving Average ) Xuất hiện trong thời đoạn phát triển Tự hồi qui tích hợp trung bình di động của dòng đời 1 sản phẩm. Sự gia tăng (Autoregressive Integrated Moving dân số làm tăng lên nhu cầu về lương Average ) thực, thực phẩm, dịch vụ. Mô hình làm trơn theo hàm mũ của Những dữ liệu này thường gắn liền Mùa Winter (Winter’s exponential smoothing) với chu kì thời tiết, hoặc là các mốc Tự hồi qui tích hợp trung bình di động thời gian đặc biệt của năm (khai giảng, giáng sinh, Tết…) Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Mô hình trung bình di động bậc q, MA(q) Mô hình tự hồi quy bậc p, AR(p) Mô hình kết hợp tự hồi quy và trung bình di động ARMA(p,q) Mô hình tự hồi quy tích hợp với trung bình di động ARIMA(p,d,q) Mô hình ARIMA có tính mùa SARIMA(p,q,d)(P,Q,D)s Mô hình 𝑦𝑡 = 𝜇 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞 Dấu hiệu nhận biết Hệ số tự tương quan bằng 0 với độ trễ lớn hơn q Hệ số tự tương quan riêng phần giảm dần về 0 Mô hình MA(2) yt = 40 + εt + 0.7εt−1 − 0.28εt−2 Mô hình 𝑦𝑡 = 𝛿 + 𝜙1 𝑦𝑡−1 + ⋯ + 𝜙𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 Dấu hiệu nhận biết: Hệ số tương quan giảm dần về 0 Hệ số tương quan riêng phần bằng 0 với độ trễ lớn hơn p ACF và PACF của mô hình 𝑦𝑡 = 4 + 0.4𝑦𝑡−1 + 0.5𝑦𝑡−2 + 𝜀𝑡 Mô hình 𝑦𝑡 = 𝜙1 𝑦𝑡−1 + ⋯ + 𝜙𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞 Dấu hiệu nhận biết Hệ số tương quan bằng giảm dần về 0 sau độ trễ q Hệ số tương quan riêng phần giảm dần về 0 sau độ trễ p ACF và PACF của mô hình 𝑦𝑡 = 4 + 0.4𝑦𝑡−1 + 0.5𝑦𝑡−2 + 𝜀𝑡 Mô hình Φ 𝐵 (1 − 𝐵)𝑑 𝑦𝑡 = 𝛿 + Θ(𝐵)𝜀𝑡 Dấu hiệu nhận biết Chuỗi thời gian không tĩnh, có xu hướng Hệ số tương quan giảm rất chậm Làm tĩnh chuỗi thời gian bằng cách lấy hiệu d lần 𝑤𝑡 = ∆𝑑 𝑋𝑡 Mô hình Nhận biết: Hệ số ACF rất lớn tại các cận mùa Cách xác định chu kì mùa Φ∗ 𝐵 𝑆 Φ 𝐵 (1 − 𝐵)𝑑 (1 − 𝐵 𝑆 )𝐷 𝑦𝑡 = 𝛿 + Θ∗ 𝐵 𝑆 Θ(𝐵)𝜀𝑡 Xác định các hệ số tương quan tối ưu Tính khoảng cách giữa các hệ số tương quan tối ưu Nhận dạng khoảng cách được lặp lại nhiều nhất, nếu tần suất của khoảng cách này lớn thì đó chính là chu kì mùa. Thành phần nhận dạng mô hình Thành phần khử mùa và xu hướng Thành phần ước lượng tham số Thành phần dự báo Xác định các hệ số mô hình bằng cách phân tích ACF, PACF Bao gồm 4 giai đoạn chính: • Xác định bậc lấy hiệu d để loại bỏ tính xu hướng • Loại bỏ tính mùa: chuỗi dữ liệu được lấy hiệu D lần với khoảng lấy hiệu là s • Xác định mô hình cho thành phần thường Tính chất ACF, PACF của các mô hình ARIMA • Xác định mô hình cho thành phần mùa Xác định mô hình bằng cách phân tích tính chất ACF, PACF Tỉ lệ thay đổi trung bình: 1 ∆= 𝑀 𝑀 |𝑟𝑘 | − |𝑟𝑘+1 | |𝑟𝑘 | 𝑘=0 Xác định tính chất ACF, PACF Xác định mô hình ARIMA tương ứng Các chuỗi dữ liệu rất phức tạp và thường mang tính xu hướng hoặc tính mùa Các chuỗi dữ liệu cần được biến đổi thành các quá trình tĩnh trước khi đưa vào thành phần nhận dạng mô hình Lấy hiệu là kĩ thuật được sử dụng phổ biến nhất Khi dự báo, ta cần chuyển đổi lại dữ liệu như ban đầu Tính toán n giai đoạn dự đoạn cho chuỗi dữ liệu đã được chuyển đổi Khôi phục lại chuỗi dữ liệu gốc: thực hiện ngược lại quá trình lấy hiệu đã thực hiện khi khử đi tính không tĩnh và tính mùa của chuỗi dữ liệu gốc. Mô hình ARIMA là một mô hình tổng quát có thể sử dụng cho nhiều loại chuỗi thời gian trong thực tế, kể cả những chuỗi có thành phần xu hướng và thành phần mùa. Để xây dựng mô hình ARIMA cần phải có nhiều dữ liệu. Không dễ cập nhập mô hình khi có thêm dữ liệu mới, thường là mô hình mới sẽ được xây dựng Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Sơ lược về mạng nơron Mạng nơron nhân tạo Giải thuật lan truyền ngược Giải thuật RPROP Xây dựng mô hình ANN Kết luận mô hình ANN Tế bào hình cây có nhiệm vụ mang tín hiệu điện sinh học tới tế bào thân Tế bào thân sẽ thực hiện tính tổng và phân ngưỡng (thresholds) các tín hiệu đến Sợi trục thần kinh có nhiệm vụ đưa tín hiệu từ tế bào thân ra ngoài Khớp thần kinh (synapse) là điểm tiếp xúc giữa sợi trục thần kinh này với tế bào hình cây của nơron kia là một mạng gồm một tập các đơn vị (unit) được kết nối với nhau bằng các cạnh có trọng số Hàm đồng nhất: 𝑔 𝑥 =𝑥 Hàm ngưỡng: 1, 𝑥 ≥ 𝜃 𝑔 𝑥 = 0, 𝑥 < 𝜃 Hàm sigmoid: 𝑔 𝑥 = Hàm sigmoid lưỡng cực 1 1+𝑒 −𝑥 1 − 𝑒 −𝑥 𝑔 𝑥 = 1 + 𝑒 −𝑥 Mạng truyền thẳng Mạng hồi quy Tìm tập các trọng số thích hợp cho một mạng nơron truyền thẳng nhiều lớp Áp dụng phương pháp giảm độ dốc để tối thiểu hóa bình phương sai số Giá trị lỗi sẽ được lan truyền ngược từ tầng xuất về tầng nhập để tính 𝛻𝐸 𝑤 Ưu điểm: Đơn giản Nhược điểm: Khó khăn trong việc lựa chọn tham số đầu vào Phụ thuộc vào độ lớn đạo hàm lỗi Quá trình học không ổn định Resilient Propagation Lan truyền đàn hồi là một phương pháp thích nghi cục bộ Cập nhập các trọng số 𝑤𝑖𝑗 dựa vào thông tin về dấu của các đạo hàm riêng phần Thực hiện theo mô hình học theo epoch nghĩa là cập nhật hệ số dựa vào thông tin của tổng độ dốc cho toàn bộ tập dữ liệu 𝑡−1 𝑡 𝜕𝐸 𝜕𝐸 𝑡 + 𝜂 ∗ ∆𝑖𝑗 , 𝑖𝑓 ∗ >0 𝜕𝑤𝑖𝑗 𝜕𝑤𝑖𝑗 (𝑡) ∆𝑖𝑗 = 𝑡−1 𝑡 𝜕𝐸 𝜕𝐸 𝑡 𝜂− ∗ ∆𝑖𝑗 , 𝑖𝑓 ∗ <0 𝜕𝑤𝑖𝑗 𝜕𝑤𝑖𝑗 (𝑡−1) ∆𝑖𝑗 , 𝑒𝑙𝑠𝑒 Lưu ý: khi đạo hàm riêng phần đổi dấu, nghĩa là bước cập nhập trước quá lớn làm cho điểm tối ưu bị nhảy vượt qua. Thực hiện (𝑡) ∆𝑤𝑖𝑗 = (𝑡−1) −∆𝑤𝑖𝑗 𝑣à 𝜕𝐸 𝑡 𝜕𝑤𝑖𝑗 = 0 Việc khởi tạo giá trị ban đầu cho các tham số ít ảnh hưởng đến tốc độ hội tụ Thông số đưa vào ít: ∆0 và ∆𝑚𝑎𝑥 Việc cập nhật dựa vào dấu của đạo hàm riêng phần nên việc cập nhật sẽ trải đều cho toàn mạng chứ không thiên vị như mô hình lan truyền ngược Lựa chọn các biến Thu thập dữ liệu Tiền xử lý dữ liệu Phân chia tập dữ liệu Xây dựng cấu trúc mạng Xác định tiêu chuẩn đánh giá Huấn luyện mạng Dự báo và cải tiến Xác định được tổng quan vấn đề Xác định yếu tố ảnh hưởng quan trọng, mấu chốt Lựa chọn tần xuất ghi nhận thông tin phù hợp Chuẩn hóa dữ liệu đầu vào Chuyển đổi dữ liệu dùng: Phương pháp lấy hiệu Logarit Tỉ số giá trị đầu vào Trung bình di động Tập huấn luyện, kiểm tra và kiểm định (ngoài các mẫu) Tập huấn luyện thường có kích thước lớn nhất Tập kiểm tra chiếm khoảng 10% - 30% dữ liệu tập huấn luyện Tập kiểm định phụ thuộc vào kích thước mẫu, bao gồm các giá trị dự đoán mới nhất Phương pháp walk-forward Xác định sự liên kết giữa các nơron Xác định số lớp ẩn: thông thường các mạng nơron được khởi tạo với một hoặc hai lớp ẩn. Xác định số nơron trong từng lớp: Tạo ra một số mô hình mẫu, huấn luyện và chọn mô hình có lỗi tối ưu nhất Thay đổi cấu trúc ngay trong giai đoạn huấn luyện (phức tạp) Thường dùng tổng bình phương lỗi 𝑛 𝑆𝑆𝐸 = 𝑡𝑘 − 𝑜𝑘 2 𝑘=1 Trong đó: n là số điểm trong tập dữ liệu kiểm tra tk và ok lần lượt là giá trị mong muốn trong bộ dữ liệu và giá trị xuất của mạng nơron Mục tiêu của việc huấn luyện mạng đó là tìm ra tập các trọng số cho ta giá trị nhỏ nhất toàn cục của chỉ số hiệu năng hay hàm lỗi Có ba cách thường dùng để dừng một quá trình huấn luyện: điểm hội tụ số lần lặp tối đa sử dụng tập dữ liệu kiểm định (validation set) Sử dụng mô hình xây dựng được dự báo cho bài toán Các giá trị dự báo của mạng được lưu lại và so sánh với các giá trị thực tế Tiến hành cải tiến mạng hoặc học lại và xây dựng mạng mới nếu cần thiết Phụ thuộc nhiều vào cấu hình của mạng (số lớp, số đơn vị mỗi lớp) và các tham số của giải thuật huấn luyện Đối với những chuỗi thời gian có xu hướng và tính mùa chương trình sử dụng mạng nơron dự đoán với độ chính xác chưa cao Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Mô hình ARIMA không giải quyết được chuỗi phi tuyến Mô hình ANN không giải quyết tốt chuỗi tuyến tính Khó xác định được một chuỗi thời gian thuần phi tuyến hay tuyến tính Một chuỗi thời gian thường bao gồm cả 2 thành phần phi tuyến, tuyến tính Chuỗi thời gian Mô hình 𝑌𝑡 = 𝐿𝑡 + 𝑁𝑡 • • L: biểu diễn thành phần tuyến tính của chuỗi thời gian được ước lượng bởi mô hình SARIMA N: biểu diễn thành phần phi tuyến của chuỗi thời gian được ước lượng bởi mô hình ANN Dự đoán 𝑌𝑡 = 𝐿𝑡 + 𝑁𝑡 Mô hình SARIM A Mô hình ANN Dự báo dùng ARIMA Dự báo Chuỗi thời gian và các thành phần của chuỗi thời gian Mô hình ARIMA Mô hình ANN Mô hình kết hợp ARIMA-ANN Kết luận Q&A Đối với các chuỗi dữ liệu chỉ có tính mùa hoặc xu hướng thì mô hình SARIMA có kết quả chính xác hơn mô hình mạng nơron Đối với các chuỗi dữ liệu có tính phi tuyến thì mô hình mạng nơron cho kết quả chính xác hơn. Mô hình kết hợp có thể dự báo với nhiều loại dữ liệu hơn các mô hình thành phần và cho kết quả chính xác hơn Tìm hiểu về dữ liệu chuỗi thời gian và các tính chất của nó. Tìm hiểu về cấu trúc và nguyên lý hoạt động của mạng nơron nhân tạo và hai giải thuật huấn luyện phổ biến: lan truyền ngược và RPROP. Tìm hiểu về cấu trúc và nguyên lý hoạt động của mô hình SARIMA, hiện thực được chương tự động xây dựng mô hình SARIMA. Tìm hiểu nguyên lý kết hợp hai mô hình mạng nơron và ARIMA, từ đó xây dựng một mô hình kết hợp có khả năng phù hợp với nhiều loại dữ liệu khác nhau. Thực hiện chạy thử nghiệm chương trình trên các bộ dữ liệu mẫu khác nhau, từ đó kiểm tra tính đúng đắn của cơ sở lý thuyết. Hạn chế Chỉ sử dụng các dữ liệu đã thu thập sẵn nên chưa có bước tiền xử lý dữ liệu Định hướng Kết hợp các phương pháp xử lý tính mùa và xu hướng khác cho mô hình SARIMA thay vì chỉ dùng phương pháp lấy hiệu như hiện nay Xây dựng mô hình ước lượng trực tuyến