ThucTapChuyenNghanh_LDA_Y_Sinh_Binh+Quyen+Thao

Transcript ThucTapChuyenNghanh_LDA_Y_Sinh_Binh+Quyen+Thao

Nhóm:
Trần Thắng Bình
Ngô Mạnh Quyền
Chu Thị Phương Thảo
Hà nội, tháng 11 năm 2013
1
Nội dung
 Mô hình chủ để: LSA, LDA
 Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS
 Công cụ: Mallet
 Mô hình
 Kết quả
 Đánh giá chất lượng cụm tự động
 Hướng nghiên cứu tiếp
2
Định hướng nghiên cứu
 Mục đích nghiên cứu:
 Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền
dữ liệu y sinh dựa vào mô hình học không giám sát
 Nghiên cứu các phương pháp sinh ra các cụm từ vựng:



Mô hình chủ đề: LSA, LDA (thực tập chuyên ngành)
Gom cụm từ vựng (Word clustering)
Phương pháp biểu diễn từ vựng Word2vector
 Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y
sinh
 Xây dựng mô hình đánh giá chất lượng các cụm từ vựng tự động
3
LSA (Latent Semantic Analysis)
 Là một mô hình chủ đề được sử dụng để phân tích tài liệu đưa ra
những ý nghĩa của tài liệu đó. [ls]
 Các bước thực hiện:
 Tạo ma trận chủ đề - từ (đếm số lần xuất hiện của từ trong tài liệu)
 Sử dụng giá trị tf-idf để đánh trọng số cho từng từ
 Loại bỏ những từ nhiễu và tạo lại ma trận.
 Gom cụm tài liệu, gom cụm từ.
4
LSA (Latent Semantic Analysis)
 Một số hạn chế của mô hình LSA:
 LSA sử dụng phân phối Gaussian có thể không phù hợp với nhiều trường
hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân
phối Poisson hơn.
 LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)
 Khó cập nhật lại khi có một tài liệu mới xuất hiện.
5
LDA (Latent Dirichlet Allocation)
 LDA giả sử mô hình sinh cho mỗi tài liệu
 Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó
 Với mỗi từ trong văn bản


Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên
Chọn ngẫu nhiên từ trong phân bố từ của chủ đề.
 Input: Tập các tài liệu
 Output:
 Ma trận Từ - Chủ đề
 Ma trận Chủ đề - Tài liệu
6
LDA (Latent Dirichlet Allocation)
 LDA bao gồm các bước lặp và sau mỗi vòng lặp sẽ tối ưu hóa lại các giá
trị xác suất trong 2 ma trận Từ - Chủ đề và Chủ đề - Tài liệu [bl11]
 Vòng lặp sẽ dừng lại khi hội tụ hoặc chạy hết số vòng lặp cho trước
7
Nguồn dữ liệu và tài nguyên
 Pubmed Central
 PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa
kỳ(NLM) – thư viện y khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm]
 Cách thu thập dữ liệu:





Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc
Lấy bài báo bằng id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901
Lấy theo ngày: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01
Lấy 1000 bài tiếp theo trong một tập kết quả:
http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!2012010100000
0!!!6e8a2c112f595273
Lấy những bài có định dạng PDFs :
http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf
8
Nguồn dữ liệu và tài nguyên
 Pubmed Central
 Số lượng dữ liệu đã thu thập: 623.989 bài báo y sinh từ PMC( 02/10/2013)
 Xử lý dữ liệu:

Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”
9
Nguồn dữ liệu và tài nguyên
 Pubmed Central
 Xử lý dữ liệu:
10
Nguồn dữ liệu và tài nguyên
 UMLS:
 UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um]
 3 công cụ UMLS:



Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM,
MeSH,…
Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng.
SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên.
 Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm
khoảng 6 triệu từ vựng.
11
Nguồn dữ liệu và tài nguyên
 UMLS có cấu trúc rõ ràng:
12
Nguồn dữ liệu và tài nguyên
 UMLS:


Thu thập:
 Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng.
 Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ
liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle.
 Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS
trong ứng dụng.
Xử lý dữ liệu:
 Từ 623.989 bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong
UMLS và cũng có trong dữ liệu.
13
Công cụ
•
Mallet được viết bởi: Andrew McCallum và cộng sự.
•
Trang chủ: http://mallet.cs.umass.edu/index.php
•
Mallet là công cụ cho xử lí ngôn ngữ tự nhiên, phân loại tài liệu, gom cụm, mô hình
chủ đề, trích xuất thông tin và các ứng dụng học máy khác bằng thống kê.
•
Bộ công cụ Mallet cho mô hình chủ đề hoạt động dựa trên sự thi hành của Latent
Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
14
Công cụ
 Input
 File dữ liệu text đầu vào với mỗi dòng là một document.
 Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào).
 Output
Ma trận từ/chủ đề
15
Mô hình
Website
Download
PMC
Tiền xử lý
UMLS
Docs
Tiền xử lý
Longest
matching
Dict
Web
UMLS
K=200
Mallet
UMLS term
Ma trận
từ/chủ đề
Loại bỏ từ có trọng số thấp
Model
Ma trận tài
liệu/chủ đề
16
Kết quả
Bảng 1
Bảng 2
17
Kết quả các cụm từ
18
Kết quả các cụm từ
 Big question: Làm thế nào đánh giá chất lượng cụm từ vựng ?
 Phương pháp thông thường: đánh giá thủ công dựa trên tư tưởng
Một cụm được đánh giá là tốt nếu tập chung vào một vài chủ đề có liên
quan đến nhau (1)
 Key: Mỗi một từ trong UMLS sẽ thuộc một số nhãn ngữ nghĩa.
 Dựa trên (1),(2) Có thể sử dụng các nhãn ngữ nghĩa của UMLS để
đánh giá chất lượng cụm từ vựng
19
Kết quả
Cụm tốt
Các từ hướng đến một hoặc một số ít
các nhãn (biểu đồ chỉ có một số ít
cột nổi trội).
20
Kết quả
Cụm nhiễu
Các từ trong 1 cụm hướng đến
nhiều nhãn.
(không xuất hiện các cột nổi trội)
21
Công việc tiếp theo
 Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề
 Hoàn thành thực tập chuyên ngành (20/11/2013)
 Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline:
22/11/2013)
 Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng
 Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active reranking model for biomedical search engine)
22
Tài liệu tham khảo
 [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003
 [bl11] Blei2011_Probabilistic topic models
 [ls] http://www.puffinwarellc.com/index.php/news-and-
articles/articles/33-latent-semantic-analysis-tutorial.html?start=5
 [pm] http://www.ncbi.nlm.nih.gov/pmc/
 [um] http://www.nlm.nih.gov/research/umls/
23

ThucTapChuyenNghanh_LDA_Y_Sinh_Binh+Quyen+Thao

Transcript ThucTapChuyenNghanh_LDA_Y_Sinh_Binh+Quyen+Thao

Directory