Transcript Document

Information
Retrieval Model
Information retrieval
การคนคื
ี ารคนหาแบ
ง่
้ น วิธก
้
ออกเป็ น
– browsing หรือ การสารวจเลือกดู
– searching หรือ analytical search
หรือ การคนด
าหรือลักษณะของ
้ วยค
้
สารสนเทศ เช่น สี
ขนาด
Retrieval/Searching
Database
Browsing
ความหมาย
ระบบสารสนเทศ ระบบสารสนเทศสราง
้
ขึน
้ มาเพือ
่ จุดมุงหมายหลายประการ
่
จุดมุงหมายพื
น
้ ฐานประการหนึ่ง คือ การ
่
ประมวลขอมู
้ ล (Data) ให้เป็ นสารสนเทศ
(Information) และนาไปสู่ความรู้
(Knowledge) ทีช
่ ่ วยแกปั
้ ญหาในการ
ดาเนินงาน
เทคโนโลยีสารสนเทศ
อุปกรณหรื
์ อ
ประเภทของระบบสารสนเทศ
1. ระบบประมวลผลขอมู
้ ล (Data
Processing System –DP)
เป็ นการนาคอมพิวเตอรมาใช
้ในการ
์
จัดการขอมู
้ พืน
้ ฐาน โดยเน้นทีก
่ ารประมวลผล
้ ลขัน
รายงานประจาวัน (Transaction) และการเก็บรักษา
ขอมู
้ ลมักจะทางานอยูเฉพาะส
่
่ วนหนึ่งส่วนใดของ
ธุรกิจเทานั
่ ้น เช่น ฝ่ายการเงินและบัญชี ฝ่าย
ผลิต ฝ่ายการตลาด เป็ นตน
้ โดยแตละฝ
่
่ ายมีการ
ประมวลผลทีแ
่ ยกจากกัน ขอมู
้ ลจะถูกป้อนและ
จัดเก็บอยูในรู
ปของไฟลและไฟล
ต
จะถูกแก้ไข
่
่
์
์ างๆ
ระหวางการประมวลผลรายการประจ
าวัน จากนั้น
่
2.ระบบสารสนเทศเพือ
่ การบริหาร
(Management Information System
– MIS) คือระบบทีใ่ ห้สารสนเทศทีผ่ บริ
ู้ หาร
ตองการตอบสนองกั
บผูบริ
้
้ หารได้ ทันที
เพือ
่ ให้สามารถทางานไดอย
ประสิ ทธิภาพ
้ างมี
่
โดยจะรวมทัง้ สิ่ งทีค
่ าดวาจะเป็
นอนาคต MIS
่
จะให้สารสนเทศภายในช่วงเวลาทีเ่ ป็ น
ประโยชน์ เพือ
่ ให้ผูบริ
้ หารสามารถตัดสิ นใจใน
การวางแผนควบคุมและปฏิบต
ั ก
ิ ารขององคกร
์
ไดอย
กตอง
ผูบริ
้ างถู
่
้
้ หารทีไ่ ดรั
้ บประโยชนจาก
์
ระบบ MIS คือ ผูบริ
้ หารระดับกลาง สามารถ
สนับสนุ นขอมู
้ ลให้ผูบริ
้ หารทัง้ สามระดับทัง้
3. ระบบช่วยการตัดสิ นใจ (Dicission
Support System) พัฒนามาจาก MIS
บอยครั
ง้ ทีผ
่ ้บริ
ู หารนาเอาระบบ MIS มาช่วยในการ
่
ตัดสิ นใจ โดยเฉพาะอยางยิ
ง่ ผู้บริหารระดับวางแผน
่
บริหารและวางแผนกลยุทธ ์ จะเผชิญกับการตัดสิ นใจทีม
่ ี
ทางเลือก ซึง่ เป็ นระบบทีส
่ นับสนุ นความตองการเฉพาะ
้
ของผู้บริหารแตละคน
(Made By Order) ใช้เป็ น
่
เครือ
่ งมือในการวิเคราะหข
้ ล และวางแผนบริหาร
์ อมู
ระบบสนับสนุ นการตัดสิ นใจช่วยในการ
ตัดสิ นใจปัญหาไดหลากหลายรู
ปแบบ สามารถช่วยใน
้
การแกปั
่ บ
ั ซ้อน เช่น ผู้ผลิตตองการหาพื
น
้ ทีท
่ ี่
้ ญหาทีซ
้
เหมาะสมในการสรางโรงงานผลิ
ตแหงใหม
หรื
้
่
่ อโรงงาน
แสดงส่วนประกอบระบบสนับสนุ นการตัดสิ นใจ (Component of a DSS) (Parker and Case.1993:438
4. ระบบสารสนเทศเพือ
่ ผูบริ
้ หารระดับสูง
(Executive Information Systems : EIS)
สราง
ขึน
้ เพือ
่ สนับสนุ นสารสนเทศและการ
้
ตัดสิ นใจ สาหรับผูบริ
้ หารระดับสูงโดยเฉพาะ
หรือ EIS ก็คอ
ื ส่วนหนึ่งของระบบ DSS ที่
แยกออกมาเพือ
่ เน้นในการให้สารสนเทศที่
สาคัญตอการบริ
หารแกผู
่
่ บริ
้ หารระดับสูงสุด
คุณสมบัตข
ิ องระบบ EIS
ทก
ั ษะทางคอมพิวเตอรสู
- ไมจ
์ ง
้
่ าเป็ นตองมี
- ระบบสามารถใช้งานไดง้ าย
่
- มีความยืดหยุนสู
ากั
่ ง จะตองสามารถเข
้
้ นได้
กับรูปแบบการทางานของผูบริ
้ หาร
- การใช้งาน ใช้ในการตรวจสอบ ควบคุม
- การสนับสนุ นการตัดสิ นใจ ผูบริ
้ หารระดับสูง
ไมมี
แ
่ น่นอน
่ โครงสรางที
้
- การสนับสนุ นขอมู
้ ล ทัง้ ภายในและภายนอก
องคกร
์
- ผลลัพธที
่ สดง ตัวอักษร ตาราง ภาพและ
์ แ
เสี ยง รวมทัง้ ระบบมัลติมเี ดีย
5. ระบบผูเชี
่ วชาญ (Expert System) มีส่วนคลายคลึ
ง
้ ย
้
กับระบบอืน
่ คือเป็ นระบบคอมพิวเตอรที
่ ่ วยผูบริ
้ หาร
์ ช
แกไขปั
ญหา หรือทาการตัดสิ นใจไดดี
ึ้ ES จะ
้
้ ขน
เกีย
่ วของกั
บการจัดการความรู้ (Knowledge)
้
มากกวา่ สารสนเทศถูกออกแบบมาให้ช่วยในการ
ตัดสิ นใจโดยใช้วิธเี ดียวกับผู้เชีย
่ วชาญที่ เป็ นมนุ ษย ์
โดยใช้หลักการ
ทางานดวยระบบ
ปัญญาประดิษฐ ์ (Artificial
้
Intelligence)
ระบบ ผู้เชีย
่ วชาญจะทาการโตตอบกั
บมนุ ษย ์ โดยมี
้
การถามขอมู
่ เติมเพือ
่ ความกระจางให
า
้ ลเพิม
่
้ขอแนะน
้
และช่วยเหลือในกระบวนการตัดสิ นใจ นั่นคือ การ
ทางานคลายกั
บเป็ นมนุ ษยผู
่ วชาญในการแกไข
้
้
์ ้เชีย
ปัญหานั้น ๆ เป็ นการจาลองความรูของผู
่ วชาญ
้
้เชีย
6. ระบบบริหารฐานข้อมูล (Database
Management System – DBMS)
เป็ นกลุมโปรแกรมที
ท
่ าหน้าทีเ่ ป็ น
่
ตัวกลางในระบบติดตอระหว
างผู
่
่
้ใช้กับ
ฐานขอมู
่ จัดการและควบคุม
้ ล เพือ
ความถูกตอง
ความซา้ ซ้อน และ
้
ความสั มพันธระหว
างข
อมู
่
้ ลตางๆ
่
์
ภายในฐานขอมู
้ ล รูปแบบการจัดเก็บ
อาจไมเป็
่ นภาษาธรรมชาติ การ
คนหาต
องระบุ
เฉพาะตามทีต
่ นเอง
้
้
7. ระบบคนคื
้ นสารสนเทศ (Information Retrieval
System - - IR) ระบบทีจ
่ ด
ั การประมวลผลสารสนเทศ
ประเภทเอกสาร(Document) ในรูปแบบตางๆ
เช่น
่
หนังสื อ , วารสาร , บทความ เป็ นตน
้ โดย
เกีย
่ วของในเรื
อ
่ งการแสดงรูปแบบ ,การเก็บบันทึก ,
้
การดึงเอกสาร ซึง่ ปัญหาในปัจจุบน
ั คือ เอกสารมี
จานวนมาก การค้นหาเอกสารหรือขอมู
้ ลจาก
แหลงข
่ อ
ี ยูที
าไดอย
กตอง
่ อมู
้ ลทีม
่ ไ่ มสามารถกระท
่
้ างถู
่
้
และรวดเร็ว วิธก
ี ารของระบบค้นคืนสารสนเทศคือ
จะไมอ
ง้ หมดเพือ
่ ดึงเอกเอกสารทีต
่ องการ
่ านเอกสารทั
่
้
ออกมา แตจะใช
้อหาของเอกสาร
่
้ลักษณะเดนของเนื
่
เป็ นตัวแทน ของเอกสาร ทีส
่ ามารถแยกแยะเอกสาร
ทีเ่ กีย
่ วของ
(relevant) กับขอถามหรื
อสิ่ งทีเ่ รา
้
้
ตองการออกจากเอกสารทีไ่ มเกีย
่ วของ (Non-
พื้นฐานของ IR
ขอ
้
คาถาม
เปรียบเทียบ
หรือ
จับคู่
มักอยูใน
่
รูป
คาศั พท ์
ผลการคนคื
้ น
และ
เทคนิค
ศั พท ์
ดรรชนี
แทน
สารสนเทศ
ทีส
่ ะสมไว้
ความแตกตางระหว
างการค
นคื
่
่
้ นขอมู
้ ลและการค้น
คืนสารสนเทศ
Data
Retrieval
Information
Retrival
Matching
Exact
match
Partial
match,
best match
Inference
Deduction
Induction
Model
Determinis
tic
Probabilisti
c
Classification
Monothetic Polythetic
Query language
Artificial
Natural
Query
specification
Complete
Incomplete
Items wanted
Matching
Relevant
Error response
Sensitive
Insensitive
ส่วนประกอบของระบบคนคื
้ น
สารสนเทศ
ส่วนประกอบของ IR
1. ส่วนนาเขาข
้ อมู
้ ล(Input) เป็ นส่วนของการป้อน
ขอค
้ าถาม(query)จากผูใช
้ ้ซึง่ เป็ น
ภาษาธรรมชาติ หรืออาจเป็ นการนาเขา้
Metadata ซึง่ เป็ นสารสนเทศเกีย
่ วกับเอกสาร
หรืออาจไมเป็
่ นส่วนหนึ่งของเอกสารก็ไดแต
้ เป็
่ น
ขอมู
่ วกับขอมู
้ ลเกีย
้ ล (data about data)
1.1 Descriptive metadata เป็ นการนาเขา้
สารสนเทศทีเ่ ป็ นความหมายของเอกสารทีอ
่ ยู่
ภายนอก เช่น ผูแต
ชือ
่ เรือ
่ ง
้ ง(Author),
่
(Title), แหลงที
่ า (Source : book,
่ ม
magazine, newspaper, journal) ,วันที่
(Date) ,ISBN ,สานักพิมพ(Publisher),ความ
์
ยาว (Length)
1.2 Semantic metadata concerns the
content: เป็ นการนาเขาเนื
่ ี
้ ้อความทีม
ความหมาย เช่น บทคัดยอ(Abstract),
คา
่
สาคัญ(Keywords) ,รหัสของหัวเรือ
่ ง(Subject
Codes ) ซึง่ อาจเป็ น Library of Congress
หรือ Dewey Decimal หรือ UMLS (Unified
Medical Language System)
1.3 เทอมของหัวเรือ
่ ง (Subject terms) ซึง่ อาจ
มาจาก ontologies พิเศษเป็ นลาดับขัน
้ ของ
เทอมมาตรฐาน(hierarchical taxonomies of
standardized semantic terms)
1.4 สารสนเทศของเวป(Web Metadata) ก็ได้
เช่น META tag in HTML
<META NAME=“keywords”
CONTENT=“pets, cats, dogs”>
ระบบค้นคืนสารสนเทศจะนาสารสนเทศเหลานี
่ ้ผานการประมว
่
กับระบบคอมพิวเตอรซึ
อปฏิสัมพันธกบ
้
์ ง่ ผู้ใช้จะมีการโตตอบหรื
์
2. โปรเซสเซอร ์ (Processor) เป็ นส่วนของการ
ประมวลผล ไดแก
้ ่ การจัดโครงสรางของ
้
สารสนเทศในรูปแบบทีเ่ หมาะสม อัน
ประกอบดวย
การสรางตั
วแทนเอกสาร ,การ
้
้
แบงแยก
กลุมของเอกสาร
,การจัดเก็บ
่
่
สารสนเทศ ,การดึงขอมู
่ ใช
ู้ ้ตองการ
้ ลตามทีผ
้
การทางานนั้นจะนาขอค
้ าถามไปเปรียบเทียบกับ
ตัวแทนเอกสารทีม
่ อ
ี ยู่ เพือ
่ ดึงเอกสารที่
ใกลเคี
้ ยงนาออกมาให้แกผู
่ สอบถาม
้
3. ส่วนของผลลัพธ(OUTPUT)
ผลลัพธที
์
์ ไ่ ดจาก
้
ระบบเป็ นขอความสั
้ นๆ เช่น ชือ
่ หนังสื อ,
้
หมายเลขเอกสาร, ชือ
่ ผูแต
้ ง,
่ สานักพิมพ ์ เป็ น
ตน
่
้ ผูใช
้ ้สามารถพิจารณาจากขอมู
้ ล ตางๆที
่
ไดจากระบบถ
าเอกสารที
ไ่ ดมี
้
้
้ จานวนมากเกินไป
หรือไมใกล
เคี
่ องการ
ผูใช
่
้ ยงกับสิ่ งทีต
้
้ สามารถ
้
ปรับปรุงขอค
่ ให้ขอค
้ าถามใหมเพื
่ อ
้ าถามนั้น
สื บคนสารสนเทศได
ตรงกั
บความตองการมาก
้
้
้
ทีส
่ ุด เป็ นระบบตอบกลับ(feedback) ดังนั้น
Who use the IRS
1. Information specialist or librarian
• Know the kind of information available
• Know the using information systems relevant
to the subject
• Know the terminology of specialty served
• Know the methods of interviewing users
2. End user
3. Novices
ขัน
้ ตอนในการสรางระบบ
IR
้
1. การวิเคราะหข
(Text Analysis)
์ อความ
้
2. การจัดแบงกลุ
มข
่
่ อมู
้ ล (Classification)
3. การเก็บบันทึกขอมู
้ ล
้ ลลงในแฟ้มขอมู
4. การคนคื
้ นสารสนเทศ
ปัญหาของระบบคนคื
้ นสารสนเทศนั้นคือ
การนาขอความทั
ง้ หมดในเอกสารไปเก็บใน
้
ระบบ จะใช้เวลาและเนื้อทีใ่ นหน่วยความจา
มาก จึงมีการวิเคราะหข
์ อความ(Text
้
Analysis) เพือ
่ แกปั
่ ลดเวลาและ
้ ญหาเพือ
คาใช
การวิเคราะหข
่
้จายลง
่
์ อความของ
้
เอกสารมีวต
ั ถุประสงค ์ เพือ
่ หาตัวแทนเอกสารที่
เหมาะสม นาตัวแทนของเอกสารหรือดรรชนี
(index)ทีไ่ ดมาจั
ดเก็บ แทนขอความฉบั
บ
้
้
สมบูรณ ์ ในการสื บคนเอกสารจะมี
การ
้
เปรียบเทียบกับตัวแทนเอกสารเหลานี
่ ้ กับขอ
้
คาถามของผูใช
่ ดึงสารสนเทศทีต
่ องการ
้ ้ เพือ
้
ออกมาทาให้เกิดความรวดเร็วในการ
การประเมินผลระบบค้นคืนสารสนเทศ
(Evaluation of IR System)
ประสิ ทธิผลของระบบวัดจาก คาใช
,ตนทุ
่
้จาย
่
้ น
ในการสรางระบบ,
Recall, Precision
้
ประสิ ทธิภาพของระบบวัดจาก เนื้อทีใ่ นการ
จัดเก็บในหน่วยความจา , CPU Time
กาหนดให้
HIT : เอกสารทีเ่ กีย
่ วของที
ถ
่ ก
ู ดึงออกมา
้
ถ
่ ก
ู ถึง
่ วของที
WASTED : เอกสารทีไ่ มเกี
้
่ ย
ออกมา
MISSED :เอกสารทีเ่ กีย
่ วของที
ไ่ มถู
้
่ กดึงออกมา
PASSED : เอกสารทีไ่ มเกี
่ วของที
ไ่ มถู
่ ย
้
่ กดึง
ออกมา
Recall = HIT / Relevant
เป็ นการวัดความสามารถของระบบในการดึง
เอกสารทีเ่ กีย
่ วของออกมา
้
Precision = HIT / Retrieved
เป็ นการวัดความสามารถของระบบในการขจัด
่ วของออกไป
เอกสารทีไ่ มเกี
้
่ ย
ระบบ IR ทีม
่ ป
ี ระสิ ทธิผลดี ยอมมี
Recall ที่
่
การหาประสิ ทธิภาพของระบบ IR
วิวฒ
ั นาการของระบบค้ นคืนสารสนเทศ
ปี ค.ศ. 1960-70 เริ่ มต้นในการสารวจระบบค้นคืนสารสนเทศสาหรับข้อความที่มีขนาดเล็กที่เป็ นบทคัดย่อทางด้าน
วิทยาศาสตร์ กฎหมาย หรื อ เป็ นเอกสารทางด้านธุรกิจ มีการ พัฒนาบูลีนพื้นฐาน และ Vevtor Space
Model สาหรับการค้นคืนสารสนเทศ
ปี ค.ศ. 1980 นั้นระบบจะมีการสื บค้นจากฐานข้อมูลเอกสารขนาดใหญ่ที่มีการ ปฏิบตั ิงานในหลายๆบริ ษทั เช่น
Lexis-Nexis/MEDLINE
ปี ค.ศ. 1990 มีการสื บค้น FTP และ World Wide Web บนเตอร์เน็ตเช่น Archie ,WAIS
,Lycos , Yahoo ,Altavista เป็ นต้น
ปี ค.ศ. 2000 จนถึงปัจจุบนั มีการเชื่อมโยงโดยวิเคราะห์จาก Web Search เช่น Google นอกจากนี้มี
การสื บค้นสื่ อผสม (multimedia) ไม่วา่ เป็ นภาพ เสี ยง เพลง วีดีโอ การ สรุ ปเอกสาร เป็ นต้น
คาที่คนไทยใช้ในการหาใน Google มากที่สุด (2010)
1. เพลง
2. เกมส์
3. หนัง
4. facebook
5. hi5
6. งาน
7. ฟัง เพลง
8. เกม
9. 4shared
10.youtube
http://www.google.co.th/intl/th/press/zeitgeist2010/regions/th.html
IR Model
1. Set Theoretic Models ใช้บูลน
ี โมเดล ซึง่ อยู่
บนพืน
้ ฐานของแนวความคิดเชิงตรรกะหรือ
พีชคณิตบูลน
ี ( Boolean Algebra ) กับคาที่
ถูกรวมกันโดยตัวเชือ
่ มทางตรรกะหรือพืช
คณิต และ ( AND ) หรือ ( OR ) และไม่ (
NOT )
And
• ใช้ เพือ่ กาหนดการสื บค้ นให้ แคบลง
OR
• คาคนที
้ เ่ ป็ นเอกพจนและ
์
พหูพจน์
• คาคนที
่ ค
ี วามหมายเหมือนกัน
้ ม
แตเขี
น
่ ยนแตกตางกั
่
• คาคนที
ง
่ ค
ี วามหมายคลายคลึ
้ ม
้
กัน
Not
•ผลการสื บค้นแคบลง
•ใช้ในกรณี หาคาที่มีความหมายเฉพาะเจาะจง
ขอดี
้ ของ Boolean Model
(1) Boolean Model ไดรั
้ บความนิยมมาก
เพราะวาเข
าย
เวลา Query กาหนด
่ าใจง
้
่
ความตองการได
ว
าไหนซึง่ เป็ นลักษณะ
้
้ าจะเอาค
่
งาย
ๆ ทีม
่ รี ป
ู แบบไมซั
่
่ บซ้อน
(2) เป็ นการหาขอมู
้ ลในลักษณะ ใช่ / ไมใช
่ ่
เจอ / ไมเจอ
่
ขอเสี
้ ยของ Boolean Model
(1) ไมมี
่ การจัดลาดับของเอกสาร ( Ranking ) และ ไม่
มีการเปรียบเทียบ (
Relevance )
(3) ใช้ Query ทีม
่ ค
ี วามซับซ้อนไมได
มี
่ และไม
้
่ ความ
ยืดหยุน
Expression
่ เพราะวามี
่
แค่ AND OR NOT
(4) ควบคุมจานวนเอกสารยาก
(5) มีความลาบากในการยอมรับเนื่องจากตรงหรือสาคัญ
เป็ นความตองการของ
User
้
แมว
วรีแ
่ บบ Boolean จะมีปญ
ั หาตาง
ๆ แต่
้ าการคิ
่
่
ระบบการค้นคืนแบบ Boolean
เป็ นระบบทีม
่ ค
ี วามนิยมใช้กันอยางสู
งและคอนข
างที
จ
่ ะมี
่
่
้
2. Algebraic Models
(1) ให้ความสาคัญความถีข
่ องคาทีป
่ รากฏอยูในเอกสาร
่
และความถีม
่ ผ
ี ลตอการให
่
้คา่
น้าหนักของคา ไดแก
้ ่
- Term Frequency คือการใช้ความถีข
่ องคา เช่นเจอ
1 ครัง้ เรียกวา่ Term ทัง้ นี้ ขึน
้ อยูกั
่ บจานวนคาของ
เอกสาร โดย Term จะแทนคาศั พทของแต
ละค
า
่
์
- Term Weight ( น้าหนักของคา ) ความถีข
่ องคา ๆ
หนึ่งทีพ
่ บในทุก ๆ เอกสาร
(2) สามารถจัดอันดับของเอกสารโดยใช้เกณฑ ์
ความสาคัญของคาและการ Match กันของคา
ขอดี
้ ของ Vector
Space Model
ใช้คณิตศาสตรเรี
ด มี
์ ยบงายในการคิ
่
การพิจารณาจากความถีข
่ องคา และสามารถ
จัด Ranking ของเอกสารได้ สามารถใช้กับ
เอกสารทีม
่ ข
ี อมู
้ ลมาก ๆ ไดดี
้
ขอเสี
้ ยของ Vector Space Model
(1) ไมสนใจความหมายของค
า , วลี ,
่
า , คาทีม
โครงสรางของค
่ ค
ี วามหมาย
้
เหมือนกัน ( Synonymy )
(2) สื บคนใส
่ นไขแบบ Boolean
้
่ เงือ
Model ไมได
่ ้
3. Probabilistic Model
มีขอก
่ เติมวาฟั
้ าหนดเพิม
่ งกชั
์ นสมาชิกหรือฟังกชั
์ น
ตัดสิ นทีถ
่ ก
ู ใช้เป็ นแบบน่าจะเป็ น ในระบบ การคนคื
้ น
แบบน่าจะเป็ น Set ทีถ
่ ก
ู ค้นคืนจากคาขอใด ๆ ถูก
สมมติวาจะต
องประกอบด
วยเอกสารซึ
ง่ สนองตอค
่
้
้
่ าขอ
ดวยความน
่ งู กวาค
่ ง้ั ไวความน
้
่ าจะเป็ นทีส
่ าที
่ ต
้
่ าจะเป็ นที่
เอกสารไดจาก
การค้นคืนตองสนองต
อค
้
้
่ าขอและ
ความน่าจะเป็ นไมว่ าต
นเป็ น 1 เหมือนการ
่ องรวมกั
้
คานวณ ของฟังกชั
์ นสมาชิกตามคอมพลีเมนตของ
์
เซต
ซึง่ ขอดี
ี าร
้ ของคาขอแบบความน่าจะเป็ นคือมีวธิ ก
คานวณความน่าจะเป็ นทีไ่ ดรั
้ บการ ยอมรับโดย
คานวณความน่าจะเป็ นจากขอมู
่ องคา
้ ลความถีข
4. Hybrid Model
Boolean Model มีขอเสี
้ ยคือการไมรวม
่
น้าหนักของคา Vector Space Model มี
ขอเสี
าการเชือ
่ มตอ
้ ย ของการทีไ่ มสามารถท
่
่
ทางตรรกะไดโดยง
าย
จึงไดมี
้
่
้ ความพยายามที่
จะทาการเอา ขอดี
้ ของทัง้ สองมารวมกัน จึง
ไดจึ
้ งไดมี
้ Extended Boolean Model