Chức năng khai phá dữ liệu

Transcript Chức năng khai phá dữ liệu

ĐỒ ÁN CHUYÊN NGÀNH
ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆUVÀ ỨNG DỤNG TRONG
HỆ THỐNG CHẨN ĐOÁN BỆNH
GVHD: NCS. Lê Thanh Long
SV : Nguyễn Huy Mạnh
Lớp : K14 TPM1
Khoa : Công nghệ thông tin
NỘI DUNG
I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1) Định nghĩa
2) Tiền xử lý dữ liệu
II ) PHÂN LỚP VÀ DỰ ĐOÁN
1) Phân lớp
2) Dự đoán
3) Cây quyết định
4) Thuật toán ID3
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
2) Demo
IV) TÀI LIỆU THAM KHẢO
I) Lý thuyết khai phá dữ liệu
1) Định nghĩa
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp.
Quá trình phát hiện tri thức thường tuân theo các bước sau :
B1: Hình thành và định nghĩa bài toán
B2: Thu thập và tiền xử lý dữ liệu
B3: Khai phá dữ liệu và rút ra các tri thức
B4: Sử dụng các tri thức phát hiện được
I) Lý thuyết khai phá dữ liệu
2) Tiền xử lý dữ liệu
Các Kỹ thuật datamining đều
thực hiện trên các cơ sở dữ
liệu, nguồn dữ liệu lớn. Đó là
kết quả của quá trình ghi
chép liên tục thông tin phản
ánh
hoạt
người,
các
động
quá
của
con
trình
tự
nhiên… Tất nhiên các dữ liệu
lưu trữ hoàn toàn là dưới
dạng thô, chưa sẵn sàng cho
việc phát hiện, khám phá
thông tin ẩn chứa trong đó
I) Lý thuyết khai phá dữ liệu
1 ) Làm sạch dữ liệu
a.) Thiếu giá trị
 Điền vào các giá trị thiếu bằng tay
 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu
 Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu
 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu
b) Dữ liệu nhiễu
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,
hoặc sự ghi chép nhầm lẫn ko được kiểm soát…
b.1 Phương pháp làm mịn Binning
Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100
Phân thành các bin
phương pháp trung vị
làm mịn biên
Bin 1: 2,5,7
Bin 1: 5,5,5
Bin 1: 2,7,7
Bin 2: 8,8,20
Bin 2: 9,9,9
Bin 1: 8,8,20
Bin 3: 90,92,100
Bin 3: 93,93,93
Bin 1: 90,90,100
I) Lý thuyết khai phá dữ liệu
b.2 Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm
hay “cụm" trực quan. Các giá trị rơi ra bên ngoài các nhóm này sẽ được
xem xét để làm mịn.
b.3 Hồi quy tuyến tính
Độ tuổi
46
20
52
30
57
25
28
36
22
43
57
33
22
63
40
48
28
49
Tỉ trọng(BMI)
25.4
20.6
26.2
22.6
25.4
23.1
22.7
24.9
19.8
25.3
23.2
21.8
20.9
26.7
26.4
21.2
21.2
22.8
cholesterol
3.5
1.9
4
2.6
4.5
3
2.9
3.8
2.1
3.8
4.1
3
2.5
4.6
3.2
4.2
2.3
4
Màu đen : giá trị tiên đoán trung bình
Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%
Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể
2) Tích hợp dữ liệu

Nguồn dữ liệu dùng để phân tích không thông nhất. Để có thể phân tích được,
các dữ liệu này cần phải được tích hợp, kết hơp thành một kho dữ liệu thống nhất.

Nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ sở dữ liệu phổ dụng,
các tập tin flat-file, các dữ liệu khối…

Việc tích hợp cần thông tin diễn tả tính chất của thuộc tính(siêu dữ liệu ) như:
tên,ý nghĩa, kiểu dữ liệu …các siêu dữ liệu này sẽ được sử dụng giúp chuyển đổi
các dữ liệu
3) Biến đổi dữ liệu

Làm mịn

Khái quát hóa dữ liệu

Tổng hợp

Xác định thêm thuộc tính

Chuẩn hóa
Phương pháp min-max
Ví dụ: Giả sử giá trị nhỏ nhất và lớn nhất cho thuộc tính “thu nhập bình
quân” là 500.000 và 4.500.000. Chúng ta muốn ánh xạ giá trị 2.500.000
về khoảng [0.0, 1.0] sử dụng chuẩn hóa min- max. Giá trị mới thu được là
v
2.500 .000  500 .000
1.0  0  0  2.000 .000  0.5
4.500 .000  500 .000
4.000 .000
4) Rút gọn dữ liệu
Lựa chọn tăng dần
Loại bớt
Tập thuộc tính ban đầu
Tập thuộc tính ban đầu
Tập thuộc tính ban đầu
{A1, A2, A3, A4, A5, A6}
{A1, A2, A3, A4, A5, A6}
{A1, A2, A3, A4, A5, A6}
Tập rút gọn ban đầu
=> {A1, A3, A4, A5, A6}
=> Kết quả {A1, A4, A6}
{}
=> {A1, A4, A5, A6}
=> {A1}
=> Kết quả {A1, A4, A6}
=> {A1, A4}
=> Kết quả {A1, A4, A6}
Ví dụ kỹ thuật rút gọn
Cây quyết định
II) Phân lớp và dự đoán
1. Phân lớp Phân lớp dữ liệu là tiến trình có 2 bước

Huấn luyện:

Phân lớp:
II) Phân lớp và dự đoán
2. Dự đoán
Dự đoán dữ liệu là một quá trình gồm hai bước, nó gần giống với quá trình
phân lớp. Tuy nhiên để dự đoán, chúng ta bỏ qua khái niệm nhãn phân lớp bởi
vì các giá trị được dự đoán là liên tục (được sắp xếp) hơn là các giá trị phân
loại.
Ví dụ thay vì phân loại xem một khoản vay có là an toàn hay rủi do thì chúng ta
sẽ dự đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì
khoản vay đó là an toàn.
II) Phân lớp và dự đoán
3. Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai
nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết
định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức
là các luật nếu - thì (If-Then).
Cây quyết định là cấu trúc biễu diễn dưới dạng cây.
•
Mỗi nút trong biễu diễn một thuộc tính,
•
nhánh biễu diễn giá trị có thể có của thuộc tính,
•
Mỗi lá biểu diễn các lớp quyết định
•
Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ
gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở
phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.
II) Phân lớp và dự đoán
4. Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)
ID3 biểu diễn các khái niệm ở dạng các cây quyết định .Biểu diễn này cho
phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các
giá trị của nó trên một số thuộc tính nào đó.
giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ
liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong
tương lai.
4. Thuật toán ID3(tt)
Entropy đo tính thuần nhất của tập ví dụ
Entropy(S) = -p+log2p+ - p-log2pTập S là tập dữ liệu rèn luyện, p+ , p- là phần các ví dụ dương, âm trong tập S
 nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là có c giá trị phân loại thì
công thức entropy tổng quát là:
C
Ent ropy(S)   pi log2 pi
i 1
 Entropy có giá trị nằm trong khoảng [0..1]
 Entropy(S) = 0  tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần
nhất.
 Entropy(S) = 1  tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha
trộn là cao nhất.
 0 < Entropy(S) < 1  tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là
không bằng nhau.
II) Phân lớp và dự đoán
4. Thuật toán ID3(tt)
Lượng thông tin thu được đo mức độ giảm entropy mong đợi
| Sv |
Gain( S , A)  Entropy( S )  
Entropy( S v )
vValues( A) | S |
Trong đó Gain(S,A) của thuộc tính A, trên tập S
Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và SV là tập con của S
chứa các ví dụ có thuộc tính A mang giá trị v.
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
Cho một bảng dữ liệu da rám nắng sau :
TT
Màu tóc
Chiều cao
Cân nặng
Dùng thuốc?
Kết quả
1
Đen
Tầm thước
Nhẹ
Không
Bị rám
2
Đen
Cao
Vừa phải
Có
Không
3
Râm
Thấp
Vừa phải
Có
Không
4
Đen
Thấp
Vừa phải
Không
Bị rám
5
Bạc
Tầm thước
Nặng
Không
Bị rám
6
Râm
Cao
Nặng
Không
Không
7
Râm
Tầm thước
Nặng
Không
Không
8
Đen
Thấp
Nhẹ
Có
Không
Áp dụng thuật toán ID3 giải quyết.
Chọn thuộc tính phân hoạch dựa vào các vector đặc trưng:
Màu tóc
Vmàu tóc=(T(đen,rám),T(đen,không rám)) =(2/8,2/8)
Vmàu tóc =(T(râm,rám), T(râm,không rám))= (0/8,3/8)
Vmàu tóc =(T(bạc,rám),T(bạc,không rám))= (1/8,0/8)
Chiều cao:
Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)
Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)
Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)
Cân nặng:
Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)
Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)
Vcân nặng = (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8)
Dùng thuốc:
Vdùng thuốc= (T(không, rám), T(không, không rám)) = (3/8, 2/8)
Vdùng thuốc = (T(có,rám), T(có, không rám)) = (0/8, 3/8)
Thuộc tính Màu tóc có nhiều vector đơn vị nhất nên ta chọn thuốc tính màu tóc để phân hoạch
Màu tóc
Đen(1,2,4,8)
Bạc(5)
(Rám)
Râm(3,6,7)
(Không rám)
Tiếp theo cần phân hoạch tập P1=(1,2,4,8)
TT
Chiều cao
Cân nặng
Dùng thuốc?
Kết quả
1
Tầm thước
Nhẹ
Không
Bị rám
2
Cao
Vừa phải
Có
Không
4
Thấp
Vừa phải
Không
Bị rám
8
Thấp
Nhẹ
Có
Không
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Tính các vector đặc trưng:
Dùng thuốc
Chiều cao:
Vchiềucao =(T(tầm thước,rám), T(tầm thước, không rám)) = (1/4,
0/4)
Vchiềucao= (T(thấp, rám), T(thấp, không rám)) = (1/4 , 1/4)
Vchiềucao= (T(cao, rám), T(cao, không rám)) = (0/4, 1/4)
Cân nặng:
Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)
Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)
Dùng thuốc:
Vdùngthuốc = (T(có, rám), T(không, rám)) = (0/4, 2/4)
Vdùng thuốc = (T(không, rám), T(không, không rám)) =(2/4, 0/4)
Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch
Có (2,8)
(không rám)
Không(1,4)
(Rám)
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Kết quả, ta có cây định danh sau:
Màu tóc
Có( 2, 8)
Đen(1,2,4,8)
Bạc(5)
Râm(3,6,7)
Dùng thuốc
(Rám)
(Không rám)
Không(1,4)
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Từ cây định danh trên, ta suy ra các luật:

IF Tóc bạc THEN Rám

IF Tóc râm

IF (Tóc đen, có dùng thuốc) THEN không rám

IF (Tóc đen, không dùng thuốc) THEN Rám
THEN không bị rám
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
USE CASE HỆ THỐNG
Tra cuu thuoc
Tra cuu benh
User
So tay benh
Khai pha du lieu
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Đặc tả chức năng
Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết .
Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ
định , chống chỉ định …
Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)
Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc
nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh .
Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.
Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa ra
,khi trả lời xong hệ thống sẽ chẩn đoán dự vào các thuật toán. kết quả là loại bệnh gì.
Điều kiện thực hiện chức năng chẩn đoán là phải có cơ sở dữ liệu dạng chuẩn
Chức năng khai phá dữ liệu: Dựa vào thuật toán (cây quyết định và thuật toán ID3 ) đưa ra tập
luật và cây quyết định.
IV) TÀI LIỆUTHAM KHẢO
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann
Publishers, 2002
5. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002

Chức năng khai phá dữ liệu

Transcript Chức năng khai phá dữ liệu

Directory