Slide - elearning-etl

Download Report

Transcript Slide - elearning-etl

VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO
KHO DỮ LIỆU:
KHẢO SÁT LÍ THUYẾT VÀ XÂY
DỰNG ỨNG DỤNG
Thực hiện: Nguyễn Minh Hùng – 0712012
Lê Văn Huy – 0712192
GVHD: PGS.TS. Đồng Thị Bích Thủy
NÔ ̣I DUNG
1.
2.
3.
4.
5.
Giới thiệu đề tài
Chuẩn bị dữ liệu
Công cụ Pentaho Data Integration (Kettle)
Ứng dụng thử nghiệm
Kết luận
2
1. GI ỚI THIỆU
3
1.1. NHU CẦU VỀ TÍCH HỢP DỮ LIỆU
CSDL
Oracle
CSDL
MySQL
Excel
Tập tin
văn bản
CSDL
4
1.1. NHU CẦU VỀ TÍCH HỢP DỮ LIỆU (TT)
5
1.2. MU ̣C TIÊU, ĐỐI TƯỢNG, PHẠM VI
6
2. CH U Â ̉N B I ̣ DỮ LIỆU
7
2.1. KHO DỮ LIỆU

Các đặc điểm của kho dữ liệu
8
2.2. KI Ê ́N TRÚC KHO DỮ LIỆU

Kiến trúc DDS đơn
Dữ liệu
CSDL
nguồn
Quy trình tích hợp dữ liệu
ETL
ETL
DDS
Ứng dụng
đầu cuối
Bảng
Dữ liệu
điểm
nguồn
Vùng xử lí
9
2.2. KI Ê ́N TRÚC KHO DỮ LIỆU (TT)

Kiến trúc NDS + DDS
Dữ liệu
CSDL
nguồn
Quy trình tích hợp dữ liệu
ETL
ETL
ETL
DDS
Ứng dụng
đầu cuối
Bảng
Dữ liệu
điểm
nguồn
Vùng xử lí
NDS
10
2.2. KI Ê ́N TRÚC KHO DỮ LIỆU (TT)

Kiến trúc ODS + DDS
Dữ liệu
CSDL
nguồn
Quy trình tích hợp dữ liệu
ETL
ETL
ETL
DDS
Ứng dụng
đầu cuối
Bảng
Dữ liệu
điểm
nguồn
Vùng xử lí
ODS
Ứng dụng
tác nghiệp
11
2.3. MÔ HÌNH HÓA ĐA CHIỀU

So sánh kho dữ liệu với CSDL tác nghiệp
CSDL tác nghiệp
Nội dung dữ liệu Dữ liệu chi tiết theo thời gian
thực
Thiết kế
Dựa vào các giao tác trong công
việc hàng ngày
Cấu trúc dữ liệu
CSDL cho kho dữ liệu
Dữ liệu tổng hợp, mang tính
lịch sử
Dựa vào các vấn đề cần phân
tích
Tối ưu hóa cho các giao tác nhỏ Tối ưu hóa cho các câu truy vấn
phức tạp
Tần suất truy
Thường xuyên
cập
Cách thức truy
Thêm, xóa, sửa, đọc dữ liệu
cập
Thời gian trả lời Ngay lập tức
câu truy vấn
Thấp – Trung bình
Trùng lắp dữ
liệu
Mô hình dữ liệu
Có (dữ liệu có thể không được
chuẩn hóa)
Dữ liệu đa chiều
Không có (dữ liệu được chuẩn
hóa)
Dữ liệu quan hệ ER
Nạp mới và chỉ đọc dữ liệu
Có thể kéo dài
12
2.3. MÔ HÌNH HÓA ĐA CHIỀU (TT)

Lược đồ hình sao
NGAY THANG
THOI GIAN
Các bảng chiều
TRUY CAP
Bảng dữ kiện
SINH VIEN
MON HOC
13
2.4. CA ́C KHÁI NIỆM LIÊN QUAN ĐẾN KHO
DỮ LIỆU

Các khái niệm liên quan đến kho dữ liệu
Chiều thời gian
 Chiều thay đổi chậm

Loại 1: Ghi đè
 Loại 2: Thêm dòng
 Loại 3: Thêm cột

14
2.4. CA ́C KHÁI NIỆM LIÊN QUAN ĐẾN KHO
DỮ LIỆU (TT)

Các khái niệm liên quan đến kho dữ liệu

Chiều đa trị
15
2.4. CA ́C KHÁI NIỆM LIÊN QUAN ĐẾN KHO
DỮ LIỆU (TT)

Các khái niệm liên quan đến kho dữ liệu

Chiều đệ quy
parent_category_ke child_category_ke nest_leve is_top
y
1
3
2
4
5
y
is_botto
l
m
1
1
0
Y
N
1
2
1
N
N
1
3
1
N
Y
1
4
2
N
Y
1
5
2
N
Y
2
2
0
N
N
16
2.5. TI ́CH HỢP DỮ LIỆU

Quy trình tích hợp dữ liệu
Rút trích
 Biến đổi
 Nạp

Dữ liệu
CSDL
nguồn
Rút trích
A
Bảng
Dữ liệu
điểm
nguồn
Extract
Biến đổi
A -> a
Transform
ETL
Nạp
a
CSDL của
Kho dữ liệu
Load
17
2.6. RU ́T TRÍCH DỮ LIỆU
Nắm bắt thay đổi trên dữ liệu nguồn
 Xử lí dữ liệu đầu vào (staging)

18
2.7. BI Ê ́N ĐỔI DỮ LIỆU
Kiểm tra tính hợp lệ
 Làm sạch dữ liệu
 Giải nghĩa và ánh xạ dữ liệu
 Tạo và quản lý khóa
 Tổng hợp dữ liệu

19
2.8. NA ̣P DỮ LIỆU
Nạp và duy trì các chiều
 Nạp dữ kiện

20
3. CÔNG C U ̣
PENTAHO DATA INTEGRATION
(KETTLE)
21
3.1. PENTAHO BI SUITE
22
3.2. PENTAHO DATA INTEGRATION
(KETTLE)
23
3.3. MÔ HÌNH HỆ THỐNG KETTLE
24
3.4. CA ́C THÀNH PHẦN CỦA KETTLE

Giao diện phát triển đồ họa (Spoon)
25
3.4. CA ́C THÀNH PHẦN CỦA KETTLE (TT)

Bộ lập lịch (Quartz)
26
3.4. CA ́C THÀNH PHẦN CỦA KETTLE (TT)

Công cụ dòng lệnh (Pan/Kitchen)
27
3.5. TI ́CH HỢP DỮ LIỆU VỚI KETTLE
Rút trích (extraction)
 Vận chuyển (transportation)
 Biến đổi (transformation)
 Nạp (load)

28
4. ỨNG DỤNG THỬ NGHIỆM
29
4.1. CA ́C YÊU CẦU CỦA ỨNG DỤNG
Yêu cầu phân tích trên dữ liệu
 Yêu cầu hệ thống
 Các nghiệp vụ liên quan

Nghiệp vụ
Phân tích các
truy cập vào hệ
thống
Phân tích kết
quả học tập
Ngữ cảnh
Thời
gian
Người
dùng
Học
phần
Vai trò
Chức
năng
x
x
x
x
x
x
x
30
4.2. MÔ HÌNH KIẾN TRÚC CỦA ỨNG DỤNG
31
4.3. TH I Ê ́T KẾ DỮ LIỆU – VU ̀NG XỬ LÍ

Vùng xử lí dành cho dữ liệu nguồn là CSDL
32
4.3. TH I Ê ́T KẾ DỮ LIỆU – VU ̀NG XỬ LÍ (TT)

Vùng xử lí dành cho dữ liệu nguồn là tập tin
33
4.4. TH I Ê ́T KẾ DỮ LIỆU - CSDL CHUẨN
HOA
́
34
4.5. TH I Ê ́T KẾ DỮ LIỆU – CSDL CỦA KHO
35
4.6. XÂY DỰNG QUY TRÌNH TÍCH HỢP DỮ
LIÊU
̣
36
4.7. NĂ ́M BẮT THAY ĐỔI TRÊN DỮ LIỆU
Bắt đầu
Bắt đầu
So sánh từng dòng dữ liệu
trong Moodle với NDS
dựa trên khoá nghiệp vụ
So sánh từng dòng dữ liệu
trong Moodle với NDS
dựa trên khoá nghiệp vụ
Nếu
last_update < time_modified
Hoặc
Không tồn tại trong NDS
Sai
Đúng
Sai
Sai
Nếu giá trị các thuộc tính bị thay đổi
Hoặc
Không tồn tại trong NDS
last_update: Thời điểm cập nhật cuối
cùng vào NDS
time_modified: Thời điểm dữ liệu
Moodle bị thay đổi
Đúng
Sai
last_update = thời điểm hiện hành
last_update: Thời điểm cập nhật cuối
cùng vào NDS
last_update = time_modified
Cập nhật các thuộc
tính còn lại trong
NDS
Cập nhật các thuộc
tính còn lại trong
NDS
Nếu đã so sánh hết
Đúng
Dựa trên thời gian
Kết thúc
Nếu đã so sánh hết
Đúng
So sánh khác biệt
Kết thúc
37
4.7. XỬ LÍ SAU SỰ CỐ

Các sự cố khiến quá trình nạp bị gián đoạn:
Trong khi nạp từ nguồn vào vùng xử lí
 Trong khi nạp từ vùng xử lí vào CSDL chuẩn hóa
 Trong khi nạp từ CSDL chuẩn hóa vào CSDL kho

38
4.8. XỬ LÍ XUNG ĐỘT VỚI CÁC NGUỒN DỮ
LIÊU
̣ CÙNG CẤU TRÚC
Khóa tự nhiên
Họ tên
Nguồn 1
Định danh hệ
thống nguồn
1
0712012
Nguyễn Minh Hùng
Nguồn 2
2
0712012
Nguyễn Minh Hùng
39
4.9. BI Ê ́N ĐỔI TRÊN DỮ LIỆU
Kiểm tra tính hợp lệ
 Làm sạch
 Tổng hợp dữ kiện

40
4.10. NA ̣P CHIỀU
Các chiều liên quan đến thời gian
 Các chiều thay đổi chậm

41
4.10. NA ̣P CHIỀU (TT)

Nạp chiều đa trị

Nạp chiều đệ quy
42
4.11. NA ̣P DỮ KIỆN
Bắt đầu
Duyệt qua từng
dòng sẽ thêm vào
bảng dữ kiện
Tìm kiếm khoá đại diện
của từng chiều dựa theo
khoá nghiệp vụ
Sai
Nếu tìm thấy khoá đại
diện của chiều
Đúng
Khoá ngoại = 0
(ứng với đối tượng
không tồn tại)
khoá ngoại = khoá đại diện
của chiều tương ứng
43
Thêm dòng mới vào
bảng dữ kiện
Kết thúc
5. XÂY DỰNG ỨNG DỤNG THỬ
NGHIÊM
̣
44
5.1. MÔ HÌNH ỨNG DỤNG
Tạo/Cập nhật
file batch
Ứng dụng
đóng gói
File
batch
Truyền tham số
Xuất log
Đọc/ghi cấu hình
Công cụ dòng lệnh
(Kitchen)
Thực thi công việc
File job
(.ktj)
File XML
cấu hình
Dữ liệu
CSDL
nguồn
ETL
Bảng
Dữ liệu
điểm
nguồn
Tích hợp dữ liệu
Kho dữ liệu
45
5.2. CA ́C CHỨC NĂNG
Cấu hình
 Ghi log
 Lập lịch
 Chạy tay (manual)

46
5.3. DEMO ỨNG DỤNG THỬ NGHIỆM
47
6. KÊ ́T LUẬN
48
6. KÊ ́T LUẬN
Các kết quả đạt được
 Những vấn đề còn tồn tại
 Hướng phát triển

49
50