Tích hợp ontology trong miền dữ liệu y sinh sử dụng phương pháp

Download Report

Transcript Tích hợp ontology trong miền dữ liệu y sinh sử dụng phương pháp

TÍCH HỢP ONTOLOGY Y SINH
SỬ DỤNG PHƯƠNG PHÁP HỌC SỰ TƯƠNG TỰ GIỮA HAI CHUỖI
Hướng dẫn: ThS. Trần Mai Vũ
CN. Lê Đức Trọng
Sinh viên: Trần Thắng Bình – Ngô Mạnh Quyền – Chu Thị Phương Thảo
Tích hợp Ontology
 Theo Doan và các cộng sự (2004): Bài toán tích hợp Ontology là việc tìm ra những liên kết về ngữ nghĩa giữa 2 ontology.
 Trong các hệ thống thông tin về y sinh, Ontology được sử dụng rộng rãi: Ontology NCI-các khái niệm bệnh ung thư, FMA-giải
phẫu học, …
 Vấn đề tích hợp dữ liệu giữa các ontology (ontology matching) trở thành một bài toán quan trọng khi người dùng đòi hỏi một tri
thức miền có sự thống nhất và độ phủ lớn hơn.
 Đã có nhiều hệ thống tích hợp Ontology: S-Match, ASMOV, CODI , KOSIMap, YAM++ , LogMap
Mục tiêu
Ontology y sinh
Trong đề tài này, tập trung nghiên cứu đưa ra mô hình tích
hợp cho miền dữ liệu các Ontology về thực thể kiểu hình.
Đầu vào:
o
Hai Ontology thực thể kiểu hình
Ví dụ: HPO : Thực thể kiểu hình ở người
MP : Thực thể kiểu hình ở động vật có vú,
o
Tập các cặp đồng nghĩa mẫu giữa hai Ontology
Đầu ra:
Toàn bộ các cặp đồng nghĩa giữa hai Ontology đầu vào
Ví dụ cặp đồng nghĩa:
- Abnormality of muscle physiology (HP:0011804)
- abnormal muscle physiology (MP:0002106)
Bước 2: Trích chọn đặc trưng
- Bổ sung thêm 2 đặc trưng mới
Bước 1: Sinh tập dữ liệu vào
- 1200 cặp thuật ngữ đồng nghĩa (từ HPO và MP)
- 17000 cặp thuật ngữ không đồng nghĩa
Dữ liệu
học
HPO, MP
Ontology
Ghép cặp
Cặp không
đồng nghĩa
Ghép nối
Dữ liệu vào
o
o
o
o
o
o
Tên rút gọn
Xâu con chung
Xâu con riêng
SoftTFIDF
Độ dài xâu
Cụm đồng nghĩa
Bước 3: Học máy
Mô hình
Trích trọn
đặc trưng
Dữ liệu
test
Trích trọn
đặc trưng
Dữ liệu vào
Bước 4: Kiểm tra
Dữ liệu vào
Máu và hình thành các mô máu
ID: HP_0001871
Hệ thống tạo máu
ID: MP_0005397
Hệ thống hô hấp
ID: HP_0002086
Hệ thống hô hấp
ID: MP:0005388
Hệ thống thần kinh
ID: HP_0000707
Thần kinh/Hành vi
ID: MP_0005386
Hệ thống tim mạch
ID: HP_0001626
Hệ thống tim mạch
ID: MP_0005385
Hệ thống miễn dịch
ID: HP_0002715
Hệ thống miễn dịch
ID: MP_0005387
Hệ thống xương
ID: HP_0000924
Hệ thống xương
ID: MP_0005390
Thực thể kiểu hình (Phenotype)
Các bước chính
Các cặp đồng
nghĩa
MPO
HPO
Giải mã
Trích trọn
đặc trưng
Phương pháp học
máy SVM/LR
Mô hình
 Freimer và Sabatti (2003) mô tả kiểu hình là tất cả các đặc
điểm về hình thái, sinh lý, sinh hóa, hành vi,…của một
sinh vật. Tất cả các đặc điểm kiểu hình đại diện cho biểu
hiện của kiểu gen riêng biệt, kết hợp với ảnh hưởng của
môi trường.
 Collier và các cộng sự (2013), đã tổng hợp lại và biểu diễn
thành một lược đồ dễ hiều về kiểu hình. Thực thể kiểu
hình là những đặc điểm có thể quan sát và đo lường được
của một sinh vật.
 Ví dụ, - Màu mắt (đen, nâu, xanh)
- Nhóm máu (A, B, AB, O)
Kết quả
Kết quả và đánh giá
Những đóng góp chính
 Xây dựng mô hình tích hợp ontology thực thể kiểu hình.
 Đề xuất hai đặc trưng mới cho mô hình học máy.
 Đánh giá mô hình thông qua bộ dữ liệu chứa khoảng
hơn 18.000 cặp thuật ngữ từ 2 Ontology HPO và MP.
 Phương pháp Logistic Regression đạt F1 (76.41%)
chứng minh sự đúng đắn của mô hình đề đề xuất cho bài
toán tích hợp các ontology y sinh.
Cặp đồng nghĩa
LogMap
LR
SVM
P(%)
R(%)
F1(%)
98,91
58,38
73,41
83,74
70,25
76,41
81,07
68,72
74,4
Thực nghiệm cho thấy độ đo hồi tưởng (R) và F1 của phương
pháp Logistic Regression là cao nhất. Phương pháp SVM cho
kết quả kém hơn và LogMap có độ chính xác cao nhất
Tài liệu tham khảo
1. Tsuruoka, Y. and McNaught, J., Tsujii, J., Ananiadou, S. (2007) Learning string similarity measures for gene/protein name dictionary look-up using logistic regression.
2. Colier, N. and Tran, MV., Le, HQ., Ha, QT., Oellrich, A., Dietrich, RS. Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking
3. Smith, CL. and Goldsmith, CW and Eppig, JT. (2004) The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information Genome Biology 6: R7.
4. Thuy, HQ., Doan, S., Phan, XH. Giáo trình khai phá dữ liệu web (2009)
5. Jim´enez-Ruiz, E., Cuenca Grau, B.: LogMap: Logic-based and Scalable Ontology Matching. In: Int’l Sem. Web Conf. (ISWC). pp. 273–288 (2011)
6. Corinna Cortes, Vladimir Vapnik (1995). Support-Vector Networks, Machine Learning, 20 (3): 273-297…..