การค้นคืนเอกสารอิเล็กทรอนิกส์

Download Report

Transcript การค้นคืนเอกสารอิเล็กทรอนิกส์

การพัฒนาระบบค้นคืนเอกสาร
สาหรับงานสารบรรณอิเล็กทรอนิกส์
กรณีศึกษา : คณะแพทยศาสตร์
มหาวิทยาลัยสงขลานครินทร์
ความสาคัญและที่มาของงานวิจยั
งานสารบรรณอิเล็กทรอนิกส์ = การรับส่ งข้ อมูลข่ าวสารหรือหนังสือผ่านระบบสื่อสารด้ วยวิธีการทางอิเล็กทรอนิกส์
จัดเก็บ
ถูกแปลง
File System
Electronic files
เอกสารกระดาษจานวนมาก
รวดเร็ว และ
แม่ นยา ?
Database
ปรับเปลี่ยน
รู ปแบบการค้นหา
ฐานข้ อมูลขนาดใหญ่
มีเอกสารหลายรูปแบบ
วัตถุประสงค์
1. ศึกษาเปรี ยบเทียบเทคนิควิธีในการค้ นคืนเอกสารอิเล็กทรอนิกส์
สาหรับงานสารบรรณ
2. พัฒนาระบบค้ นคืนเอกสารอิเล็กทรอนิกส์ ให้ สามารถค้ นคืนได้ อย่างรวดเร็ว
ถูกต้ อง แม่นยา และตรงกับความต้ องการของผู้ใช้
ประโยชน์ จากงานวิจัย
1. เสนอเทคนิควิธีที่เหมาะสมในการค้ นคืนข้ อมูลสาหรับงานสารบรรณอิเล็กทรอนิกส์
2. ผู้ใช้ สามารถสืบค้ นข้ อมูลจากเนื ้อหาสาคัญของเอกสารที่จดั เก็บในระบบได้ รวดเร็ว
และแม่นยา
3. สามารถนาระบบไปเป็ นต้ นแบบหรื อประยุกต์ใช้ กบั การบริหารจัดการงานสารบรรณ
อิเล็กทรอนิกส์ของหน่วยงานภาครัฐอื่นๆ
ขอบเขตงานวิจยั
ข้ อมูล : รับข้ อมูลเข้ าระบบในรูปแบบเอกสาร PDF และ word
(.Doc) เท่านัน้
ผู้ใช้ : เจ้ าหน้ าที่ที่ดแู ลรับผิดชอบการรับส่งเอกสาร ทุกภาควิชา/
หน่วยงานในคณะแพทยศาสตร์ มหาวิทยาลัยสงขลานครินทร์
ระยะเวลาในการเก็บ : ตามระเบียบงานสารบรรณ ในราชกิจจานุเบกษา เมื่อ ๒๓ กันยายน ๒๕๔๘ อายุการเก็บหนังสือ โดยปกติให้ เก็บไว้
ไม่น้อยกว่า ๑๐ ปี เว้ นแต่หนังสือบางประเภท
เส้นทาง
การเดินทาง
ของข้อมูล
ในระบบ
โครงสร้างระบบงานสารบรรณอิเล็กทรอนิกส์
1 รั บข้ อมูล
2 จัดทา Index
3 ค้ นหาเอกสาร
4 แสดงผล
5 พิมพ์ รายงาน
6 ติดตามเอกสาร
ฐานข้ อมูล
ระบบการค้นคืนเอกสาร
Transaction +
Electronic documents
Text Processing
Indexing
query
retrieve
Database
(Inverted Index)
Data + Doc
Searching
Search result
หลักการและทฤษฎีที่เกี่ยวข้อง
Natural Language Processing : NLP
o Word segmentation/ keyword extraction วิธีการ (method) เกี่ยวกับ automatic
keyword extraction
o Simple statistics approaches ช่น n-gram, word frequency, tf.idf, word co-occurences และ PAT-tree
o Linguistics approaches เช่น (lexical analysis), syntactic analysis, discourse analysis
o Machine learning approaches เช่น Naive Bayes, support vector machine “SVM”, Bagging เป็ นต้น
เครื่ องมือสาหรับ keyword extraction เช่น KEA, GenEx
Information storages and Retrievals : IR
o Keyword Clustering
o Ontology/ domain
Indexing
o N-gram
o Frequent max string
การดาเนินงาน
 วิเคราะห์ประเภทของข้อมูลที่จะนาเข้าระบบ คือ เอกสารรู ปแบบ PDF
และ DOC
 ศึกษาวิธีการในการทา Search Engine Optimization เพื่อนามาใช้ใน
การค้นคืนข้อมูลได้อย่างมีประสิ ทธิภาพมากที่สุด


การตัดคาในเอกสาร เพื่อเลือกมาเป็ น index “Keyword Extraction”
การทา index อัตโนมัติ “Automatic Content-Based Indexing”
 กาหนดรู ปแบบข้อมูลนาเข้าและเงื่อนไขในการสื บค้น

Field-text search

Keyword search
 ศึกษางานวิจยั ที่เกี่ยวข้อง รวมทั้งวิธีการ/โปรแกรมต่างๆ ที่ใช้พาั นา
การดาเนินงาน
Field-text search
Keyword search + Clustering
User Interface : การสืบค้ นเอกสารอิเล็กทรอนิกส์
สรุ ปผลการดาเนินงาน
Gant Chart
ขัน้ ตอน
ระยะเวลา
1. ศึกษาข้อมูลและสารวจปั ญหาต่างๆ
90 วัน
- ศึกษาระบบงานเดิม
30 วัน
- ศึกษาการใช้ งานระบบ SharePoint
34 วัน
- สัมภาษณ์ผู้ ปฏิบัตงิ านและผู้ เกีย่ วข้อง 14 วัน
2. วิเคราะห์ ความต้องการของผู้ ใช้ งาน
30 วัน
3. ออกแบบระบบและฐานข้อมูล
60 วัน
- ออกแบบโครงสร้ างฐานข้อมูล
30 วัน
- ออกแบบหน้ าจอใช้ งาน
30 วัน
4. พั ฒนาระบบ
120 วัน
5. ทดสอบระบบและนาไปใช้ งาน
60 วัน
- ทดสอบระบบ
30 วัน
- ติดตัง้ ระบบ
15 วัน
- ประเมินผลการใช้ งาน
15 วัน
6. เสนอผลการดาเนินงานและส่งมอบงาน 30 วัน
- ทารายงานสรุ ปผลการดาเนินงาน
10 วัน
- จัดทาคู่มือการใช้ งาน
10 วัน
- ส่งมอบงาน
10 วัน
มีนาคม
เมษายน
พฤษภาคม
มิถนุ ายน
กรกฏาคม
สิงหาคม
กันยายน
ตุลาคม
พฤศจิกายน
ธันวาคม
มกราคม
กุมภาพั นธ์
ขอบคุณค่ะ