BÀI TOÁN PHÂN L*P TÀI LI*U (1)

Download Report

Transcript BÀI TOÁN PHÂN L*P TÀI LI*U (1)

DOCUMENT /CATEGORIZATION
CLASSIFICATION
NỘI DUNG





Khái quát về Document/ categorization classification
Các hướng nghiên cứu.
Xây dựng hệ thống phân loại tài liệu và các vấn đề liên
quan.
Ý tưởng các thuật toán trong phân loại tài liệu
 KNN (K- Nearest neighbor).
 Naïve Bayes (NB)
 Support Vector Machine (SVM).
 Cây quyết định (Decision Tree).
 Support Vector Machines Nearest Neighbor (SVM-NN).
Bài toán phân chia đa lớp (Multi Class) và các chiến lược.
KHÁI NIỆM VỀ DOCUMENT/ CATEGORIZATION CLASSIFICATION
Phân loại (phân lớp )văn bản là công việc phân tích nội
dung của văn bản và sau đó ra quyết định (hay dự đoán)
văn bản này thuộc nhóm nào trong các nhóm văn bản đã
cho trước.
Gồm hai giai đoạn:


Học(xây dựng mô hình): rút trích đặc trưng từ

các tài liệu đã được xác định lớp.
Phân lớp: với tài liệu mới (chưa xác định lớp), so
sánh với đặc trưng của từng lớp và dự đoán tài liệu
này vào lớp gần nhất.
CÁC HƯỚNG TIẾP CẬN BÀI TOÁN CLASSIFICATION


Phân lớp văn bản dựa trên cách tiếp cận hệ
chuyên gia
Phân lớp văn bản dựa trên cách tiếp cận
máy học
PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN HỆ CHUYÊN GIA
Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một
chương trình máy tính chứa một số tri thức đặc thù của
một hoặc nhiều chuyên gia con người về một chủ đề cụ thể
nào đó. …. Đây là một hệ thống sử dụng các khả năng lập
luận để đạt tới các kết luận. (Wiki)
 Biểu diễn chung dạng :
If (DNF formula) then (category).
Công thức DNF (“Disjunctive Normal Form”) là hợp của
các mệnh đề liên kết
Ví dụ:

If ((“lúa mì” & “nông trại”) or (“lúa mì” & “hàng hóa”) or
(“thúng để đong lúa mì” & “hàng xuất khẩu”) or (“lúa mì” &
“hàng tấn”) or (“lúa mì” & “mùa đông” & ¬ “sự ôn hòa”))
then “lúa mì”
else ¬ “lúa mì”
PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN MÁY HỌC

Máy học (machine learning) : … phát triển các kĩ
thuật cho phép các máy tính có thể "học“ …bằng việc
phân tích các tập ,dữ liệu . (Wiki)
Xây dựng tự động một phân lớp cho tập tài liệu
bằng việc quan sát các đặc trưng của tập hợp
các tài liệu đã được phân bằng tay hay bởi
chuyên gia về lĩnh vực từ đó, quá trình qui nạp
thu lượm các đặc trưng để phân lớp một tài liệu
mới.
Trong kỹ thuật máy học, bài toán phân lớp là
hoạt động học có giám sát, quá trình học được “giám
sát” bởi tri thức của các phân lớp và của các mẫu
huấn luyện thuộc chúng.
HỆ THỐNG PHÂN LOẠI VĂN BẢN VÀ CÁC VẤN
ĐỀ LIÊN QUAN.
Văn bản
Biểu Diễn Tài liệu Văn bản đã được biểu diễn
Bộ phân loại
Văn bản đã được phân loại
Bộ đánh giá
CÁC VẤN ĐỀ MÀ HỆ THỐNG PHÂN LOẠI CẦN PHẢI QUAN TÂM VÀ
GIẢI QUYẾT




Độ chính xác: Tỉ lệ càng cao thì hệ thống sẽ được đánh
giá là tốt .
Tốc độ .
Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho người
sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp
cho người sử dụng tránh được việc hiểu lầm kết quả của
một luật được đưa ra bởi hệ thống.
Thời gian để học:
TIẾN TRÌNH PHÂN LOẠI VĂN BẢN
Tiền xử lý số liệu
Text thuần túy
Tách từ
Từ đã được qua xử lý
Xác định đặc trưng
Vecto hóa
Văn bản
Văn Bản Được phân loại
Hệ Thống Phân loại văn bản
Bộ phân loại
Ví dụ về quá trình xử lý văn bản trong
Hệ Thống Phân loại văn bản
www.miislita.com/information-retrieval-tutorial/cosinesimilarity-tutorial.html
TIỀN XỬ LÝ SỐ LIỆU
Mục đích: xử lý tương đối sạch dữ liệu đọc vào
Cách thực hiện:
 Loại bỏ các khoảng trắng nhiều hơn 1 khoảng
trắng
 Các dấu xuống dòng
 Cách dòng trống
 Các ký tự lạ
 ……
TÁCH TỪ
Tách lọc (Filtration) : quá trình của sự quyết định
những từ nào nên được sử dụng để biểu diễn cho
các tài liệu.
 Stemming (gốc từ) : Tìm gốc từ ví dụ "walks",
"walking" và "walker" được giảm lại thành "walk"
 Loại bỏ các từ stopword : danh mục các từ không
ảnh hưởng đến nội dung văn bản

XÁC ĐINH TRỌNG SỐ CHO TỪ
Ứng với mỗi thuật toán áp dụng trong hệ thống
phân lớp mà ta đi xác định những trọng số của
từ trong văn bản.
Trong bước này thường sử dụng tf (Term Frequency )
và df (Document Frequency) để thực hiện .

SỬ DỤNG THUẬT TOÁN ĐỂ PHÂN LỚP

Dùng thuật toán mà hệ thống phân loại sử dụng
để phân loại dữ liệu.
CÁC THUẬT TOÁN PHÂN LỚP
 KNN
(K- Nearest neighbor).
 Naïve Bayes (NB)
 Support Vector Machine (SVM).
 Cây quyết định (Decision Tree).
 Support Vector Machines Nearest
Neighbor (SVM-NN).
KNN (K- Nearest neighbor).

Ý tưởng chính của thuật :là so sánh độ phù hợp của
văn bản d với từng nhóm chủ đề, dựa trên k văn bản
mẫu trong tập huấn luyện mà có độ tương tự với văn
bản d là lớn nhất
Thực hiện:
- Tính khoảng (cosine)cách của văn bản cần phân lớp
với các văn bản trong tập giữ liệu mẫu.
- Lấy k văn bản gần nhất với văn bản cần phân loại.
- Dựa vào k văn bản mẫu này đánh trọng số cho chủ đề
.Chủ đề của các văn bản là chủ đề có trọng số lớn nhất.
“Gần “ở đây được hiểu là độ tương tự giữa các văn bản.
Example of k-NN classification. The test sample (green
circle) should be classified either to the first class of
blue squares or to the second class of red triangles. If k
= 3 it is classified to the second class because there are
2 triangles and only 1 square inside the inner circle. If
k = 5 it is classified to first class (3 squares vs. 2
triangles inside the outer circle).
Naïve Bayes (NB)
Ý tưởng thuật toán: là sử dụng xác suất có điều
kiện giữa từ và chủ đề để dự đoán xác suất chủ đề
của một văn bản cần phân loại.
 Cách thực hiện:
-Từ tập mẫu xác định ngưỡng xác xuất của một văn
bản thuộc về một chủ đề đã định nghĩa.
-Văn bản cần phân loại vào hệ thống sẽ được hệ
thống tính xác suất ,nếu xác suất này thuộc vào
một ngưỡng nào đó thì thuộc vào chủ đề.

Support Vector Machine (SVM).

Cho trước một tập huấn luyện được biểu diễn
trong không gian vector trong đó mỗi tài liệu là
một điểm, phương pháp này tìm ra một siêu mặt
phẳng h quyết định tốt nhất có thể chia các điểm
trên không gian này thành hai lớp riêng biệt
http://en.wikipedia.org/wiki/Support_vector_machine
Support Vector Machines Nearest Neighbor (SVM-NN).
Là một thuật toán phân lớp cải tiến gần đây nhất
của phương pháp phân lớp SVM. SVM-NN là một
kỹ thuật phân loại văn bản máy học sử dụng kết
hợp cách tiếp cận K-láng giềng gần nhất (K-NN)
với những luật ra quyết định dựa trên SVM .
 Thực hiện:
- Cho một mẫu để phân loại, thuật toán xác định k
mẫu gần nhất trong các mẫu dữ liệu của tập dữ
liệu huấn luyện.
- Một phân loại SVM được huấn luyện trên những
mẫu này.
- Sau đó, các bộ phân loại SVM được huấn luyện sẽ
được sử dụng để phân loại các mẫu chưa biết.

PHÂN ĐA LỚP
Ý tưởng của bài toán phân lớp đa lớp là chuyển về
bài toán phân lớp hai lớp bằng cách xây dựng nhiều bộ
phân lớp hai lớp để giải quyết.
Trong hình ta thấy chiến lược OAR (hình bên
trái)- OAO (hình bên phải) phải xây dựng siêu
phẳng để tách lớp đánh dấu “o” ra khỏi tất cả các
lớp khác.
Công nghệ, Giáo dục,
Thể thao, Y tế
CHIẾN LƯỢC ONE-AGAINST-ONE
Ta sử dụng (n-1) bộ phân
lớp đối với n lớp. Bài
toán phân lớp n lớp được
chuyển thành n bài toán
phân lớp hai lớp.
 Nhược điểm của chiến
lược OAR là ta phải xây
dựng một siêu phẳng để
tách một lớp ra khỏi các
lớp còn lại, việc này đòi
hỏi sự phức tạp và có thể
không chính xác

+
1
Công
nghệ
Bộ phân
lớp
-1
Giáo dục, Thể thao,
Y tế
Bộ
phân
lớp
+
1
-1
Thể thao, Y
tế
Giáo dục
+
1
Thể thao
Bộ
phân
lớp
Y tế
1
ONE-AGAINST-REST (OAR)
Ta sử dụng n(n-1)/2 bộ
phân lớp hai lớp được
xây dựng bằng cách
bắt cặp từng hai lớp
một.
Công
nghệ
Giáo dục
Công
nghệ
Thể thao
Công
nghệ
Y tế
Giáo dục
Thể thao
Bộ phân lớp
Công nghệGiáo dục
Bộ phân lớp
Công nghệ-Thể
Thao
Bộ phân lớp
Công nghệY tế
Bộ phân lớp
Giáo dục-Thể
Thao
Bộ phân lớp
Giáo dục
Y tế
Giáo dục–Y
tế
Bộ phân lớp
Thể thao
Y tế
Thể Thao-Y
tế