Data Warehouse - materials-0

Download Report

Transcript Data Warehouse - materials-0

GIỚI THIỆU
DATA WAREHOUSE
Nội dung
1.
2.
3.
4.
5.
Sự cần thiết của chuyên đề
Thế giới thông tin khác nhau
Các mục tiêu của DW
Các thành phần của kho dữ liệu
Khái niệm mô hình hoá chiều
(Dimensional Modeling vocabulary)
Những quan niệm sai lầm về mô hình
chiều
Sự cần thiết
• VPCP có chức năng tham mưu cho CP và
TTCP thực hiện công tác chỉ đạo và điều
hành
• DW là một loại ứng dụng hỗ trợ ra quyết
định
• Những hiểu biết không đúng về DW sẽ
dẫn đến thất bại khi xây dựng các DW
1. Thế giới thông tin khác nhau
• Thông tin là tài sản quan trọng nhất của
mọi tổ chức là. Tài sản này thường được
lưu trữ ở 2 dạng: các CSDL tác nghiệp và
các DW.
• Người sử dụng hệ thống tác nghiệp vận
hành các “bánh xe” của tổ chức
• Người sử dụng DW theo dõi các bánh xe
vận hành tổ chức
1. Thế giới thông tin khác nhau
• Đáng tiếc là, chúng ta vẫn tiếp tục gặp phải
những DW mà nó đơn giản là bản sao của hệ
thống tác nghiệp nhưng được lưu trữ trên
những platform phần cứng tách biệt. Các DW
giả hiệu này có thể nâng cao hiệu quả tính toán,
nhưng không gây được ấn tượng cho người
nghiệp vụ về tính dễ sử dụng, hiệu quả và làm
sai nhận thức về DW.
2. Các mục tiêu của DW
Mối quan tâm của người nghiệp vụ
• “Chúng tôi có hàng núi dữ liệu, nhưng chúng tôi không
thể truy cập được”
• “Chúng tôi cần lát mỏng (slicing) và cắt miếng (dicing)
dữ liệu theo cách tùy ý”
• “Anh phải làm sao cho người nghiệp vụ trực tiếp lấy
được dữ liệu”
• “Hãy chỉ ngay cho tôi điều gì là quan trọng”
• “Tôi phát điên lên là tại cuộc họp có hai người đưa ra hai
con số khác nhau của cùng một chỉ tiêu nghiệp vụ”
• “Chúng tôi muốn mọi người phải sử dụng nhiều thông tin
hơn để hỗ trợ việc ra quyết định”
2. Các mục tiêu của DW
Các mục tiêu
• DW phải làm cho thông tin của tổ chức truy cập
được dễ dàng
• DW phải trình bày thông tin của tổ chức một
cách nhất quán.
• DW phải thích ứng và chịu được sự thay đổi
• DW phải là một pháo đài an ninh bảo vệ tài sản
thông tin của chúng ta.
• DW phải làm cơ sở cho việc ra quyết định có
chất lượng
• Cộng đồng nghiệp vụ phải chấp nhận DW nếu
nó được chứng tỏ là thành công
2. Các mục tiêu của DW
Các mục tiêu
• Với mong muốn xây dựng DW, chúng ta
phải đặt một chân trong vùng IT, trong khi
chân kia phải đặt trên mảnh đất không
quen thuộc của người nghiệp vụ . Chúng
ta phải sửa đổi các kỹ năng quen thuộc
của chúng ta để phù hợp với yêu cầu
riêng có của DW, các kỹ năng lai ghép
DBA/MBA.
2. Các mục tiêu của DW
Trách nhiệm của người quản trị DW
• Hiểu được lĩnh vực nghiệp vụ, trách nhiệm công
việc của người sử dụng.
• Xác định rõ các quyết định mà người nghiệp vụ
muốn ban hành với sự trợ giúp của DW.
• Chỉ ra người sử dụng tốt nhất, người sẽ ra quyết
định có ảnh hưởng cao và hiệu quả bằng cách sử
dụng DW.
• Tìm ra người sử dụng mới tiềm năng và làm cho họ
biết tới DW.
• Chọn ra một tập con dữ liệu tích cực và hiệu quả
nhất từ một núi dữ liệu trong tổ chức để đưa vào
DW.
2. Các mục tiêu của DW
Trách nhiệm của người quản trị DW
• Tạo ra các giao diện ứng dụng đơn giản, theo
mẫu, và phù hợp với kinh nghiệm của người sử
dụng.
• Bảo đảm dữ liệu là chính xác và tin cậy, gắn
nhãn cho nó một cách nhất quán trong toàn bộ
tổ chức.
• Liên tục giám sát tính chính xác của dữ liệu và
nội dung của các báo cáo được phát hành.
• Tìm kiếm các nguồn dữ liệu mới, làm DW liên
tục thích nghi với sự thay đổi của dữ liệu, các
yêu cầu báo cáo và các ưu tiên nghiệp vụ.
2. Các mục tiêu của DW
Trách nhiệm của người quản trị DW
• Trên cơ sở thành công của các quyết định
nghiệp vụ có sử dụng DW, điều chỉnh nhân sự,
phần mềm chi phí phần cứng.
• Phát hành dữ liệu đều đặn
• Duy trì sự tin cậy của người sử dụng
• Giữ được người sử dụng nghiệp vụ, sự hỗ trợ
của người điều hành và sự hài lòng của lãnh
đạo.
2. Các mục tiêu của DW
Trách nhiệm của người quản trị DW
• Nếu bạn làm tốt tất cả trách nhiệm này, bạn sẽ
là một người quản trị DW giỏi. Ngược lại, hãy
tưởng tượng điều gì sẽ xẩy ra nếu bạn bỏ qua
bất cứ một khoản mục nào. Rút cục, DW của
bạn sẽ có vấn đề nghiêm trọng. Nếu so sánh mô
tả vị trí công việc IT của chúng ta với công việc
của một quản trị DW, thì danh sách trên hướng
đến các vấn đề nghiệp vụ nhiều hơn, thậm chí
có thể không phải là công việc của IT. Nhưng,
phải chăng điều này lại làm cho việc xây dựng
DW lý thú.
3. Các thành phần của DW
3. Các thành phần của DW
3.1. Các hệ thống nguồn tác nghiệp (operational source system)
• Các hệ thống nguồn tác nghiệp ghi lại các giao dịch
nghiệp vụ.
• Ưu tiên chính của các hệ thống này là hiệu quả xử lý và
tính sẵn sàng.
• Các câu hỏi đối với hệ thống này thường hạn chế, 1 bản
ghi 1 lần, và là một phần của dòng giao dịch chuẩn.
• Các hệ thống nguồn không trả lời được nhiều loại câu
hỏi và các câu hỏi chưa định trước như DW.
• Các hệ thống nguồn lưu rất ít dữ liệu lịch sử
• Mỗi hệ thống nguồn thường là một ứng dụng chuyên
biệt, ít chia sẻ với các hệ thống khác ngay trong tổ chức
• Nếu các hệ thống nguồn được phát triển với quan điểm
nhất quán, thì sẽ làm cho nhiệm vụ thiết kế DW dễ dàng
hơn nhiều
3. Các thành phần của DW
3.2. Vùng chế biến dữ liệu (Data staging area)
• Vùng chế biến dữ liệu của kho dữ liệu vừa là
vùng lưu trữ, vừa một tập các tiến trình trích
xuất - biến đổi - tải (Extract – Transformation –
Load: ETL).
Yêu cầu quan trọng đối với kiến trúc của vùng
chế biến dữ liệu là nó phải được ngăn cách đối
với người nghiệp vụ và không cung cấp các dịch
vụ hỏi và trình bày
3. Các thành phần của DW
3.2. Vùng chế biến dữ liệu (Data staging area)
• Trích xuất là tiến trình đọc, hiểu dữ liệu nguồn,
và sao chép dữ liệu cần thiết cho DW vào vùng
chế biến dữ liệu để chế biến tiếp.
• Biến đổi là tiến trình làm sạch dữ liệu (sửa lỗi
chính tả, giải quyết mâu thuẫn về chuyên môn,
xử lý các phần tử vắng mặt, phân tích cú pháp
về quy cách chuẩn), tổ hợp dữ liệu từ nhiều
nguồn, loại bỏ dữ liệu thừa, gán khoá. Các phép
biến đổi này được thực hiện trước khi tải dữ liệu
vào vùng trình bày của DW.
3. Các thành phần của DW
3.2. Vùng chế biến dữ liệu (Data staging area)
• Tải là tiến trình cuối cùng của xử lý ETL. Tiến
trình tải lấy bảng chiều đã đảm bảo chất lượng
để tải theo lô vào từng DM. DM sau đó được chỉ
số hoá, được tập hợp (aggregate).
• Cộng đồng người nghiệp vụ được thông báo dữ
liệu mới đã được phát hành. Việc phát hành bao
gồm thông báo bản chất của mọi sự thay đổi
trong các chiều và các fact.
3. Các thành phần của DW
3.2. Vùng chế biến dữ liệu (Data staging area)
• Trong nhiều trường hợp, vùng chế biến dữ liệu không dựa
trên công nghệ quan hệ mà có thể bao gồm một hệ thống các
file phẳng, không nhất thiết phải ở dạng chuẩn 3.
• Cũng có nhiều trường hợp dữ liệu bước vào vùng chế biến
dữ liệu đã ở quy cách dạng chuẩn 3. Trong trường hợp này
người quản trị vùng chế biến dữ liệu có thể thực hiện việc làm
sạch, biến đổi một cách dễ dàng hơn việc bằng cách sử dụng
các cấu trúc chuẩn hoá.
• Cần thận trọng với yêu cầu rằng dữ liệu trong vùng chế biến
phải ở dạng chuẩn 3. Việc tạo ra các cấu trúc chuẩn 3 cho
vùng chế biến và cấu trúc chiều cho vùng trình bày có nghĩa
là dữ liệu được trích xuất, biến đổi và tải hai lần. Một vài đội
dự án DW đã thất bại đau đớn bởi vì họ tập trung nỗ lực để
xây dựng các cấu trúc chuẩn 3 thay vì tập trung cho việc phát
triển vùng trình bày hỗ trợ trực tiếp việc ra quyết định có chất
lượng.
3. Các thành phần của DW
3.2. Vùng chế biến dữ liệu (Data staging area)
CSDL của vùng chế biến ở dạng chuẩn 3
là được phép, nhưng không phải là mục
tiêu. Dạng chuẩn 3 bị loại khỏi vùng trình
bày bởi vì chúng làm mất đi tính dễ hiểu
và hiệu quả của các câu hỏi của người
dùng nghiệp vụ, vùng trình bày phải được
cấu trúc chiều.