ĐỒNG BỘ HÓA DỮ LiỆU

Download Report

Transcript ĐỒNG BỘ HÓA DỮ LiỆU

LUẬN VĂN TỐT NGHIỆP

ĐỀ TÀI

NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG RA QUYẾT ĐỊNH Chuyên ngành:

Công nghệ phần mềm

Khóa:

2008 - 2012

Họ và tên sinh viên:

Nguyễn Huy Mạnh

Giảng viên hướng dẫn:

TS.

Trương Ngọc Châu

Chương

1

) Lý thuyết khai phá dữ liệu

1) Khái niệm Định nghĩa khai phá dữ liệu

: khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp.

Quá trình phát hiện tri thức thường tuân theo các bước sau :

B1: Hình thành và định nghĩa bài toán B2: Thu thập và tiền xử lý dữ liệu B3: Khai phá dữ liệu và rút ra các tri thức B4: Sử dụng các tri thức phát hiện được

2) Tiền xử lý dữ liệu

Làm sạch Tích hợp 8;67;100;57 ;348;… Biến đổi Rút gọn 0.08;0.67;1.00;0.5

7;3.48;…

Chương 2) Khai phá dữ liệu bằng cây quyết định

Cây quyết định

Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật nếu - thì (If-Then).

Cây quyết định là cấu trúc biễu diễn dưới dạng cây.

Mỗi nút trong

biễu diễn một thuộc tính, • • •

nhánh Mỗi lá Gốc là

biễu diễn giá trị có thể có của thuộc tính, biểu diễn các lớp quyết định đỉnh trên cùng của cây Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.

Bài toán

: quyết định có đợi 1 bàn ở quán ăn không, dựa trên các thông tin sau:

1. Lựa chọn khác: có quán ăn nào khác gần đó không?

2. Quán rượu: có khu vực phục vụ đồ uống gần đó không?

3. Fri/Sat: hôm nay là thứ sáu hay thứ bảy?

4. Đói: chúng ta đã đói chưa?

5. Khách hàng: số khách trong quán (không có, vài người, đầy) 6. Giá cả: khoảng giá ($, $$, $$$) 7. Mưa: ngoài trời có mưa không?

8. Đặt chỗ: chúng ta đã đặt trước chưa?

9. Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh) 10. Thời gian đợi: 0-10, 10-30, 30-60, >60

Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục)

3 ) Tài liệu tham khảo

1. Đỗ Phúc

,

Giáo trình Khai thác dữ liệu,

ĐHQG TPHCM, 2005

2. Hồ Tú Bảo

,

Introduction to knowledge discovery and data mining

, IOIT, 2001.

3. Morgan Kaufman

,

Data Mining: Concepts and Techniques

, Morgan Kaufmann Publishers, 2002

5. Jiawei Han and Micheline Kamber

,

Data Mining Concepts and Techniques,

University of Illinois, Morgan Kaufmann Publishers, 2002