การศึกษาเปรียบเทียบเทคนิคการค้นคืนเอกสารสำหรับงาน

Download Report

Transcript การศึกษาเปรียบเทียบเทคนิคการค้นคืนเอกสารสำหรับงาน

กรณี ศึกษา : งานบริหารและธุรการ คณะแพทยศาสตร์
มหาวิทยาลัยสงขลานครินทร์
นางสาวจุฑาวรรณ สิ ทธิโชคสถาพร
รหัสนักศึกษา 5210121018
อาจารย์ ทปี่ รึกษา : ดร.อนันท์ ชกสุ ริวงศ์
ความสาคัญและที่มาของงานวิจัย
งานสารบรรณ = การบริหารงานเอกสาร (จัดทา รับ ส่ ง เก็บรักษา ยืม ทาลาย)
งานสารบรรณอิเล็กทรอนิกส์ = การรับส่ งข้ อมูลข่ าวสารหรือหนังสือผ่านระบบสื่อสารด้ วยวิธีการทางอิเล็กทรอนิกส์
จัดเก็บ
ถูกแปลง
File System
Electronic files
เอกสารกระดาษจานวนมาก
ตรงตามความ
ต้ องการของผู้ใช้ ?
Database
ปรับเปลี่ยน
รู ปแบบการค้นหา
ฐานข้ อมูลขนาดใหญ่
มีเอกสารหลายรูปแบบ
วัตถุประสงค์
1. ศึกษาเทคนิควิธีการสร้างตัวแทนเอกสาร สาหรับงาน
สารบรรณอิเล็กทรอนิกส์
2. สร้าง Ontology สาหรับงานสารบรรณอิเล็กทรอนิกส์
3. พัฒนาระบบการค้นคืนเอกสารอิเล็กทรอนิกส์ ที่สามารถ
ค้นคืนได้อย่างถูกต้อง และตรงกับความต้องการของผูใ้ ช้
ประโยชน์ จากงานวิจัย
1. เสนอเทคนิควิธีที่เหมาะสมในการสร้างตัวแทนเอกสาร
สาหรับงานสารบรรณอิเล็กทรอนิกส์
2. ผูใ้ ช้สามารถสื บค้นเอกสารอิเล็กทรอนิกส์ได้ตรงตามความ
ต้องการ
3. สามารถนาไปประยุกต์ใช้กบั การบริ หารจัดการงานสาร
บรรณอิเล็กทรอนิกส์ของหน่วยงานภาครัฐอื่นๆ
ขอบเขตงานวิจัย
1. ข้ อมูล : เอกสารจากการ scan, PDF files และ word (.Doc) เท่านั้น
2. การแปลงเอกสารให้ อยู่ในรูปแบบทีเ่ หมาะสมสาหรับการประมวลผลภาษา
ทางธรรมชาติ :
 การตัดคา การคัดเลือกประโยค
 การสร้างตัวแทนเอกสาร
 การจัดทา index
3. สร้ าง Ontology สาหรับงานสารบรรณอิเล็กทรอนิกส์
4. การค้ นคืนเอกสารเชิงความหมาย ให้ ถูกต้ องตามความต้ องการของผู้ใช้
โครงสร้ างระบบงานสารบรรณอิเล็กทรอนิกส์
1 รับข้อมูล
2 สร้างตัวแทน
เอกสาร
ประมวลผลเอกสาร
3 จัดทา Index
4 ค้นคืนเอกสาร
5 แสดงผล
6 พิมพ์รายงาน
7 ติดตามเอกสาร
ฐานข้อมูล
ระบบการสร้ างตัวแทนเอกสาร จัดทา Index
และค้ นคืนเอกสาร
Transaction +
Electronic documents
Text Processing
Document
Representation
Indexing
Query
Ontology-Based
Data Model
Retrieve
Searching
Result lists
หลักการและทฤษฎีท่ เี กี่ยวข้ อง
ระบบค้ นคืนเอกสารสารสนเทศ
(Information Retrievals System : IR)
 ประมวลผลเอกสาร (Document Operations)
 สร้างตัวแทนเอกสารหรื อดัชนี (Index or Document
Representation)
 ประมวลผลคาค้น (Query Operations)
 สร้างตัวแทนคาค้น (Query Representation)
 ค้นคืนเอกสาร (Searching)
การประมวลผลภาษาธรรมชาติ (NLP: Natural Language
Processing)
o การตัดคา Word segmentation
o การกากับหน้าที่ของคา (Word segmentation and Part-Of Speech
tagging)
o การวิเคราะห์นิพจน์ระบุนาม (Name Entity Analysis)
o การวิเคราะห์นามวลี (Phrase Analysis)
สร้ างตัวแทนเอกสาร (Document Representation)
โดยอาศัยทฤษฎี Ontology = เทคโนโลยีดา้ นการพัฒนาภาษาเชิงความหมาย
ให้เครื่ องคอมพิวเตอร์ สามารถตีความหมายและทาตามคาสั่งได้ อธิ บายสิ่ งที่
สนใจ คุณสมบัติ และความสัมพันธ์ ในรู ปแบบ domain
สิ ริรัตน์ ประกฤติกรชัย, การสร้างต้นแบบออนโทโลยีของพืชสมุนไพรไทย
การจัดทาดัชนี (Indexing)
o Full-text indexing
o Keyword indexing
o Inverted Index
Gant Chart
คาถาม/ข้ อเสนอแนะ