Tìm kiếm và Trình diễn thông tin

Download Report

Transcript Tìm kiếm và Trình diễn thông tin

IT4853 Tìm kiếm và trình diễn
thông tin
Giới thiệu môn học
Thông tin liên lạc




Nguyễn Bá Ngọc
Viện CNTT & TT, B1-603
Email: [email protected]
Website: http://is.hut.edu.vn/~ngocnb/courses.html
1. Khái quát môn học

Tìm kiếm thông tin



Tập trung vào tìm kiếm thông tin được biểu diễn bằng
văn bản (biểu diễn bằng ký tự)
Xu hướng phát triển
Trình diễn thông tin


Giao diện tương tác người–máy
Phản hồi của người dùng về kết quả tìm kiếm
Đánh giá kết quả học tập
Điểm quá trình:
(30%) Chuyên cần, kiểm tra, bài tập lớn
Điểm thi cuối kỳ :
(70%) Tự luận
Tài liệu tham khảo (1)
http://nlp.stanford.edu/IRbook/information-retrievalbook.html
Tài liệu tham khảo (2)
Chủ đề chính:
Trình diễn thông tin,
Tìm kiếm thông tin
Tài liệu tham khảo (3)
Witten, Moffat, and
Managing Gigabytes
Bell’s
Tài liệu tham khảo (4)
Baecker, R., Grudin, J., Buxton, W.,
and Greenberg, S. (1995) Readings
in Human Computer Interaction:
Towards the Year 2000 (2nd Edition)
Bài tập lớn

Xây dựng một hệ thống tìm kiếm thông tin





đoạn
đoạn
đoạn
đoạn
I: Đọc bộ dữ liệu, trích rút nội dung
II: Đánh chỉ mục
III: Xây dựng giao diện tìm kiếm
IV: Báo cáo, bảo vệ
Kết thúc mỗi giai đoạn


Giai
Giai
Giai
Giai
Nộp báo cáo tương ứng và bảo vệ kết quả đạt được
Tài nguyên



Được phép sử dụng mã nguồn mở
Thư viện nền tảng tìm kiếm thông tin (chưa có giao diện)
Ví dụ, Lucene, Xapian, Terrier,...
Lucene
http://lucene.apache.org/
Java
Xapian
http://xapian.org/
C++
Terrier
http://terrier.org/
Java
Bài tập lớn – Kế hoạch
Giai đoạn/Thời gian
Bắt đầu
I – Trích rút nội dung
Kết thúc
(bảo vệ)
Tuần 2 (23-08) Tuần 5
II – Xây dựng chỉ mục
Tuần 5
Tuần 9
III – Giao diện tìm kiếm
Tuần 9
Tuần 15
IV – Báo cáo, bảo vệ
Tuần 15
Tuần 18
Bài tập lớn giai đoạn I –
Trích rút nội dung


<feed>
<doc>




<title>.....</title>
<url>http://vi.wikipedia.org/wiki...</url>
<abstract>....</abstract>
<links>

<sublink linktype=“nav”><anchor>...</anchor>




<link>...</link></sublink>
</links>
</doc>
</feed>
Bài tập lớn giai đoạn I –
Trích rút nội dung


s = title + “\n” + abstract + “\n” + anchor.
Trong đó anchor = anchor1 + (“\n” + anchor2)
+ … + (“\n” + anchorm) với m là số lượng thẻ
sublink/anchor.
docLen = length(s);