Transcript Document
南京大学多媒体研究所 Multimedia Computing Institute of NJU 检索评价 武港山 Tel : 83594243 Office: 蒙民伟楼608B Email : [email protected] 南京大学多媒体研究所 Multimedia Computing Institute of NJU 内容简介 背景知识 检索性能评价 召回率和精度 其他指标 标准测试集(Benchmark) 2015/7/20 Wu Gangshan: Modern Information Retrieval 2 南京大学多媒体研究所 Multimedia Computing Institute of NJU 背景知识 检索请求 检索机制 请求 对象 文本 图形 图像 音频 视频 模型 文本 图形 图像 音频 视频 模型 检索机制 检索对象 2015/7/20 Wu Gangshan: Modern Information Retrieval 3 南京大学多媒体研究所 Multimedia Computing Institute of NJU 信息检索系统的体系结构 用户界面 文档 用户 需求 用户 反馈 文档处理 逻辑视图 提问处理 建索引 数据库 管理 倒排文档 提问 排序后 的文档 2015/7/20 搜索 索引 文本 数据库 排序 检出的文档 Wu Gangshan: Modern Information Retrieval 4 南京大学多媒体研究所 Multimedia Computing Institute of NJU 信息检索系统的体系结构 检索系统所采用的检索模型不同,检索过程中 的处理细节会有所不同。 检索的每个处理过程中,又有许多技术细节可 供选择。 整个过程大致相同。 不同技术导致不同的检索效果。 检索评价就是对一个检索系统的检索效果进行 评价。 2015/7/20 准确地评价一个检索系统是非常困难的 因人、因时、因地、因事不同而不同。 Wu Gangshan: Modern Information Retrieval 5 南京大学多媒体研究所 Multimedia Computing Institute of NJU 检索系统的效果评价——内容 计算机系统性能分析 功能分析 性能分析: 功能是否完备。 功能是否完善,错误分析。 时间和空间的折衷 对于信息检索而言主要是指索引结构的性能。 信息检索系统的性能评价 2015/7/20 关注:检索结果是否正确,排序是否理想。 Wu Gangshan: Modern Information Retrieval 6 南京大学多媒体研究所 Multimedia Computing Institute of NJU 检索系统的效果评价——方法 通常检索系统的评价要基于一定的测试集 和确定的评价指标。 测试集: A collection of documents A set of sample information request A set of relevant document.————》有点问题。 评价指标: (对于给定的检索策略/系统 S) Measure the similarity between the set of document retrieved by S and the set of relevant document provided by specialists This provides an estimation of the goodness of retrieval strategy S. 2015/7/20 Wu Gangshan: Modern Information Retrieval 7 南京大学多媒体研究所 Multimedia Computing Institute of NJU 检索系统的效果评价——方式 评价方式: Query processed in batch mode a whole interactive session, and Combine of two strategies. 不同评价方式的重点不同: 2015/7/20 In interactive session: user effort, interface design, guidance provided… In batch mode: the answer set is most important. Wu Gangshan: Modern Information Retrieval 8 南京大学多媒体研究所 Multimedia Computing Institute of NJU 评价指标的关键因素——相关性 相关性— 字典定义: 1. Pertinence(有关性) to hand. 2. Applicability(适用性) issues. 3. Computer Science. The an information retrieval select and retrieve data to a user's needs. 2015/7/20 the matter at to social capability of system to appropriate Wu Gangshan: Modern Information Retrieval 9 南京大学多媒体研究所 Multimedia Computing Institute of NJU 信息检索中的相关性概念 作为一次检索结果的测量指标。(系统外) 作为是否合乎要求的判定标准。(系统内) There are no simple answers to what is relevant and what is not relevant difficult to define Subjective (比较主观) depending on knowledge, needs, time, situation, etc. 但是,它是信息检索领域的核心概念。 2015/7/20 Wu Gangshan: Modern Information Retrieval 10 南京大学多媒体研究所 Multimedia Computing Institute of NJU Relevance to What? 信息需求的形式多样,相关性判定的方式 也不相同。 求解一个问题。 查询某个事实。 询问相关情况。 不管检索请求如何,相关性应该体现在: 用户是否认为检索结果有用。 用户是否能够使用检索结果解决问题。 用户是否了解到真实的情况。(fill info. gap) 2015/7/20 Wu Gangshan: Modern Information Retrieval 11 南京大学多媒体研究所 Multimedia Computing Institute of NJU 相关性判定两种基本方法 用户判定 (主观评价) How well the retrieved documents satisfy the user's information needs How useful the retrieved documents If it is related but not useful, It is still not relevant 系统判定(客观评价) How well the retrieved document match the query How likely would the user judge this information as useful? 2015/7/20 Wu Gangshan: Modern Information Retrieval 12 影响相关性判定的因素 南京大学多媒体研究所 Multimedia Computing Institute of NJU 主题: 新颖性: -- how much new information in the retrieved document 独特性/适时性 质量/准确性/事实性 可用性 Source or pointer? 使用代价 Judge by their subject relatedness Cost 语言 2015/7/20 English or non-English Readability Wu Gangshan: Modern Information Retrieval 13 南京大学多媒体研究所 Multimedia Computing Institute of NJU 相关性度量 二值度量 relevant or not relevant More detail 2015/7/20 Not relevant, somewhat relevant, relevant, highly relevant Wu Gangshan: Modern Information Retrieval 14 南京大学多媒体研究所 Multimedia Computing Institute of NJU 相关性度量指标: 精度和召回率 南京大学多媒体研究所 Multimedia Computing Institute of NJU Precision and Recall 给定检索请求,检索处理关心的是: 所有检索到的文档都和用户请求相关吗? 是否所有相关的文档都检索出来了? 对于检索系统性能评价而言: 2015/7/20 第一个问题体现检索处理的精度。 第二个问题体现的是检索的完备性(召回率)。 Wu Gangshan: Modern Information Retrieval 16 Entire document Relevant collection documents Retrieved documents relevant irrelevant 南京大学多媒体研究所 Multimedia Computing Institute of NJU Precision and Recall retrieved & irrelevant Not retrieved & irrelevant retrieved & relevant not retrieved but relevant retrieved not retrieved Num berof relevantdocum entsretrieved recall Total num berof relevantdocum ents Num ber of relevant docum entsretrieved precision Total num berof docum entsretrieved 2015/7/20 Wu Gangshan: Modern Information Retrieval 17 南京大学多媒体研究所 Multimedia Computing Institute of NJU Precision measures how precise a search is. the higher the precision, the less unwanted documents. Recall measures how complete a search is. 2015/7/20 the higher the recall, the less missing documents. Wu Gangshan: Modern Information Retrieval 18 南京大学多媒体研究所 Multimedia Computing Institute of NJU Relationship of R and P 理论上, 实际上, 要取得较高的召回率会损失一定的精度。 要取得较高的精度会损失一定的召回率。 When will p = 0? R 和 P 相互无关. Only when none of the retrieved documents is relevant. When will p=1? Only when every retrieved documents are relevant. 2015/7/20 Wu Gangshan: Modern Information Retrieval 19 南京大学多媒体研究所 Multimedia Computing Institute of NJU Relationship of R and P 为何增加召回率往往意味着降低精度? 为了不丢失可能的有用信息,系统必须扩 大查找范围,将有可能相关的信息都返回 给用户,这样必然带来精度的降低。 但是,到底什么样的精度和召回率是比 较合适的呢? 2015/7/20 具体系统的评价和应用需求相关。 Wu Gangshan: Modern Information Retrieval 20 南京大学多媒体研究所 Multimedia Computing Institute of NJU 理想的检索系统 理想的信息检索系统应该对任何请求都 有: P=1, R= 1 有这样的可能吗? 如果检索请求可以非常精确地给出; 如果相关性判定不存在模糊性; 如果检索请求的匹配可以非常精确 那么,我们可以拥有一个理想的检索系统。 实际上,那已经不是一个信息检索系统了。 2015/7/20 Wu Gangshan: Modern Information Retrieval 21 Returns relevant documents but misses many useful ones too The ideal 1 Precision 南京大学多媒体研究所 Multimedia Computing Institute of NJU 精度和召回率之间的折衷 0 2015/7/20 Recall 1 Returns most relevant documents but includes lots of junk Wu Gangshan: Modern Information Retrieval 22 南京大学多媒体研究所 Multimedia Computing Institute of NJU 确定召回率有时是非常困难的 相关对象的总数有时无法确定: 2015/7/20 手工的处理过程。检查数据库中的每件文档 是否属于检索请求的文档类别。 对同样的数据库和检索问题,应用不同的检 索算法,得到的所有算法的检索结果合计, 构成了这个检索请求的返回文档全集。 (自 动处理的。) Wu Gangshan: Modern Information Retrieval 23 南京大学多媒体研究所 Multimedia Computing Institute of NJU 计算召回率/精度点 对于给定的检索请求,系统返回经过排序 的检索结果集。 对这些检索结果文档集中的相关文档进行 标注。 调整阀值产生不同的检索结果排序文档集 合,因而,就具有了不同的召回率/精度 测量值。 基于不同的排序文档集,计算不同位置的 recall/precision对测量值。 2015/7/20 Wu Gangshan: Modern Information Retrieval 24 南京大学多媒体研究所 Multimedia Computing Institute of NJU An Example n doc # relevant 1 588 x 2 589 x 3 576 4 590 x 5 986 6 592 x 7 984 8 988 9 578 10 985 11 103 12 591 13 772 x 14 990 2015/7/20 Let total # of relevant docs = 6 Check each new recall point: R=1/6=0.167; P=1/1=1 R=2/6=0.333; P=2/2=1 R=3/6=0.5; P=3/4=0.75 R=4/6=0.667; P=4/6=0.667 Missing one relevant document. Never reach R=5/6=0.833; p=5/13=0.38 100% recall Wu Gangshan: Modern Information Retrieval 25 南京大学多媒体研究所 Multimedia Computing Institute of NJU 插值召回率/精度曲线 Interpolate a precision value for each standard recall level: rj {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0} r0 = 0.0, r1 = 0.1, …, r10=1.0 The interpolated precision at the j-th standard recall level is the maximum known precision at any recall level between the j-th and (j + 1)-th level: P(rj ) max P(r ) r j r r j 1 2015/7/20 Wu Gangshan: Modern Information Retrieval 26 Precision 南京大学多媒体研究所 Multimedia Computing Institute of NJU An Example 1.0 0.8 0.6 0.4 0.2 0.2 2015/7/20 0.4 0.6 0.8 Wu Gangshan: Modern Information Retrieval 1.0 Recall 27 南京大学多媒体研究所 Multimedia Computing Institute of NJU 平均召回率/精度曲线 Typically average performance over a large set of queries. Compute average precision at each standard recall level across all queries. Plot average precision/recall curves to evaluate overall system performance on a document/query corpus. 2015/7/20 Wu Gangshan: Modern Information Retrieval 28 多系统比较 The curve closest to the upper right-hand corner of the graph indicates the best performance 1 0.8 Precision 南京大学多媒体研究所 Multimedia Computing Institute of NJU N oS tem S tem 0.6 0.4 0.2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall 2015/7/20 Wu Gangshan: Modern Information Retrieval 29 南京大学多媒体研究所 Multimedia Computing Institute of NJU Sample RP Curve for CF Corpus 2015/7/20 Wu Gangshan: Modern Information Retrieval 30 南京大学多媒体研究所 Multimedia Computing Institute of NJU 面向单个查询的P、R指标 原因: 多个查询的平均查准率,可能会掩盖算法的 一些重要的不规则特征。 当两个算法比较时,可能更关注某个查询实 例是否存在更好的检索算法。 方法: 2015/7/20 使用查准率对每个查询进行评价。 Wu Gangshan: Modern Information Retrieval 31 南京大学多媒体研究所 Multimedia Computing Institute of NJU 平均查准率 思路: 逐个考察每一个新的相关文档,计算其所对 应的查准率。 对当前所有相关文档位置上的查准率,计算 平均值得到。 例如: 2015/7/20 检出5个相关文档,分别在1、3、6、10和15 的位置上,则它们对应的查准率为:1、0.66、 0.5、0.4和0.3。平均查准率就为: (1+0.66+0.5+0.4+0.3)/5=0.57 Wu Gangshan: Modern Information Retrieval 32 南京大学多媒体研究所 Multimedia Computing Institute of NJU R- Precision Precision at the R-th position in the ranking of results for a query that has R relevant documents. n doc # relevant 1 588 x 2 589 x 3 576 4 590 x 5 986 6 592 x 7 984 8 988 9 578 10 985 11 103 12 591 13 772 x 14 990 2015/7/20 Wu Gangshan: Modern Information Retrieval R = # of relevant docs = 6 R-Precision = 4/6 = 0.67 33 南京大学多媒体研究所 Multimedia Computing Institute of NJU 查准率直方图 2015/7/20 Wu Gangshan: Modern Information Retrieval 34 采用P/R进行性能评价的问题: 南京大学多媒体研究所 Multimedia Computing Institute of NJU 对于实际系统而言,召回率永远是一种估计。 评价结果某种程度上和 sampling queries相关。 R/P没有考虑 用户交互 的因素。 R/P 仅仅是系统性能的一个方面,而不是全部: High recall/high precision is desirable, but not necessary the most important thing that the user considers. R/P 基于这样的假设,即检索的文档对于用户 都是一样的,独立于用户的。 这不太符合实际情况,有些用户已经知道,有些文 档质量很高。 2015/7/20 Wu Gangshan: Modern Information Retrieval 35 南京大学多媒体研究所 Multimedia Computing Institute of NJU 其他评价指标 南京大学多媒体研究所 Multimedia Computing Institute of NJU F-Measure One measure of performance that takes into account both recall and precision. Harmonic mean of recall and precision: 2 PR 2 F 1 1 P R RP Compared to arithmetic mean, both need to be high for harmonic mean to be high. 2015/7/20 Wu Gangshan: Modern Information Retrieval 37 南京大学多媒体研究所 Multimedia Computing Institute of NJU E Measure (parameterized F Measure) A variant of F measure that allows weighting emphasis on precision over recall: (1 2 ) PR (1 2 ) E 2 1 2 PR R P Value of controls trade-off: = 1: Equally weight precision and recall (E=F). > 1: Weight precision more. < 1: Weight recall more. 2015/7/20 Wu Gangshan: Modern Information Retrieval 38 南京大学多媒体研究所 Multimedia Computing Institute of NJU MAP(Mean Average Precision) 假设有两个主题,主题1有4个相关网页,主题2 有5个相关网页。某系统对于主题1检索出4个相 关网页,其rank分别为1, 2, 4, 7;对于主题2检索 出3个相关网页,其rank分别为1,3,5。 对于主题1,平均准确率为 (1/1+2/2+3/4+4/7)/4=0.83 对于主题2,平均准确率为 (1/1+2/3+3/5+0+0)/5=0.45 MAP= (0.83+0.45)/2=0.64 2015/7/20 Wu Gangshan: Modern Information Retrieval 39 南京大学多媒体研究所 Multimedia Computing Institute of NJU P@10 单个主题的P@10是系统对于该主题返回 的前10个结果的准确率。主题集合的 P@10是每个主题的P@10的平均值。 2015/7/20 Wu Gangshan: Modern Information Retrieval 40 南京大学多媒体研究所 Multimedia Computing Institute of NJU User-Oriented Measures Relevant docs Relevant docs Known to the user 2015/7/20 Retrieved Docs Relevant docs retrieved unknown to the user Wu Gangshan: Modern Information Retrieval 41 南京大学多媒体研究所 Multimedia Computing Institute of NJU Measure 1: Coverage Coverage: the fraction of the documents known to the user to be relevant which has actually been retrieved Relevant Docs retrieved and known to the user Coverage = ------------------------------------Relevant Docs known to the user If coverage=1, 2015/7/20 Everything the user knows has been retrieved. Wu Gangshan: Modern Information Retrieval 42 南京大学多媒体研究所 Multimedia Computing Institute of NJU Measure 2: Novelty Novelty: the fraction of the relevant documents retrieved which was unknown to the user. Relevant docs unknown to the user Novelty= -------------------------------Relevant docs retrieved 2015/7/20 Wu Gangshan: Modern Information Retrieval 43 南京大学多媒体研究所 Multimedia Computing Institute of NJU 标准测试 南京大学多媒体研究所 Multimedia Computing Institute of NJU An Landmark Study An evaluation of retrieval effectiveness for a full-text document retrieval system 1985, by David Blair and M. E. Maron The first large-scale evaluation on fulltext retrieval Significant and controversial(有争议的) results Good experimental Design 2015/7/20 Wu Gangshan: Modern Information Retrieval 45 南京大学多媒体研究所 Multimedia Computing Institute of NJU The Setting An IBM full-text retrieval system with 40,000 documents of 350,000 pages. 2015/7/20 Documents to be used in the defense of a large corporate law suit. Large by 1985 standards; typical standard today Mostly Boolean searching functions, with some ranking functions added. Full-text automatic indexing. Wu Gangshan: Modern Information Retrieval 46 南京大学多媒体研究所 Multimedia Computing Institute of NJU The Experiment Two lawyers generated 51 requests. Two paralegals(助手) conducted searches again and again until the lawyers satisfied the results Until the lawyers believed that more than 75% of relevant documents had been found. The paralegals and lawyers could have as many discussions as needed. 2015/7/20 Wu Gangshan: Modern Information Retrieval 47 南京大学多媒体研究所 Multimedia Computing Institute of NJU The results Average 1.0 precision=.79 Average Recall=.20 .20 .20 2015/7/20 Precision Wu Gangshan: Modern Information Retrieval 1.0 48 南京大学多媒体研究所 Multimedia Computing Institute of NJU The most significant results The recall is low. Even though the recall is only 20%, the lawyers were satisfied (and believed that 75% of relevant documents had been retrieved). 2015/7/20 Wu Gangshan: Modern Information Retrieval 49 南京大学多媒体研究所 Multimedia Computing Institute of NJU Questions Why the recall was so low? Do we really need high recall? If the study were run today on search engines like Google, would the results be the same or different? 2015/7/20 Wu Gangshan: Modern Information Retrieval 50 南京大学多媒体研究所 Multimedia Computing Institute of NJU Benchmarks(标准测试集) A benchmark collection contains: A set of standard documents and queries/topics. A list of relevant documents for each query. Standard collections for traditional IR: Smart collection: ftp://ftp.cs.cornell.edu/pub/smart TREC: http://trec.nist.gov/ Standard document collection Standard queries 2015/7/20 Algorithm under test Precision and recall Retrieved result Evaluation Standard result Wu Gangshan: Modern Information Retrieval 51 南京大学多媒体研究所 Multimedia Computing Institute of NJU Benchmarking The Problems Performance data is valid only for a particular benchmark. Building a benchmark corpus is a difficult task. Benchmark Web corpora are just starting to be developed. Benchmark foreign-language corpora are just starting to be developed. 2015/7/20 Wu Gangshan: Modern Information Retrieval 52 南京大学多媒体研究所 Multimedia Computing Institute of NJU Early Test Collections Previous experiments were based on the SMART collection which is fairly small. (ftp://ftp.cs.cornell.edu/pub/smart) Collection Name CACM CISI CRAN MED TIME Number Of Documents 3,204 1,460 1,400 1,033 425 Number Of Queries 64 112 225 30 83 Raw Size (Mbytes) 1.5 1.3 1.6 1.1 1.5 Different researchers used different test collections and evaluation techniques. 2015/7/20 Wu Gangshan: Modern Information Retrieval 53 南京大学多媒体研究所 Multimedia Computing Institute of NJU 南京大学多媒体研究所 Multimedia Computing Institute of NJU TREC概况 TREC的历史、发展与目标 南京大学多媒体研究所 Multimedia Computing Institute of NJU TREC历史 TREC 组织者 Text REtrieval Conference,文本检索会议 一开始仅仅面向文本,现在处理对象更广 NIST(National Institute of Standards and Technology), 政府部门 DARPA(Defense Advanced Research Projects Agency), 军方 会议情况 评测会议 1992~2007,16届 2015/7/20 Wu Gangshan: Modern Information Retrieval 56 南京大学多媒体研究所 Multimedia Computing Institute of NJU TREC目标 总目标:支持在信息检索领域的基础研究,提 供对大规模文本检索方法的评估办法 鼓励对基于大测试集合的信息检索方法的研究 提供一个可以用来交流研究思想的论坛,增进工业 界、学术界和政府部门之间的互相了解; 示范信息检索理论在解决实际问题方面的重大进步, 提高信息检索技术从理论走向商业应用的速度 为工业界和学术界提高评估技术的可用性,并开发 新的更为适用的评估技术。 2015/7/20 Wu Gangshan: Modern Information Retrieval 57 历届TREC参加单位数及任务 南京大学多媒体研究所 Multimedia Computing Institute of NJU Groups Tracks TREC1 25 Ad hoc/Routing TREC2 31 Ad hoc/Routing TREC3 32 Ad hoc/Routing TREC4 36 Spanish/Interactive/Database Merging/Confusion/Filtering TREC5 38 Spanish/Interactive/Database Merging/Confusion/Filtering/NLP TREC6 51 Chinese/Interactive/Filtering/NLP/CLIR/High Precision/SDR/VLC TREC7 56 CLIR/High Precision/Interactive/Query/SDR/VLC TREC8 66 CLIR/Filtering/Interactive/QA/Query/SDR/Web TREC9 70 QA/CLIR(E-C)/Web/Filtering/Interactive/Query/SDR TREC10 135(89) QA/CLIR/Web/Filtering/Interactive/Video 2015/7/20 Wu Gangshan: Modern Information Retrieval 58 南京大学多媒体研究所 Multimedia Computing Institute of NJU 历届TREC参加单位数示意图 2015/7/20 Wu Gangshan: Modern Information Retrieval 59 南京大学多媒体研究所 Multimedia Computing Institute of NJU 参加过TREC的部分单位 Corp. University Asian Organization IBM MIT Singapore U. (KRDL) AT&T CMU KAIST Microsoft Cambridge U. Korea U. Sun Cornell U. Pohang U.(浦项) Apple Maryland U. Yonsei U. Fujitsu Massachusetts U. Tsinghua U.(Taiwan) TREC7 NEC New Mexico State U. Taiwan U. TREC8&9&10 XEROX California Berkeley U. Hongkong Chinese U. TREC9 RICOH Montreal U. Microsoft Research China TREC9&10 CLRITECH Johns Hopkins U. Fudan U. TREC9&10 NTT Rutgers U. ICT TREC10 Oracle Pennsylvania U. HIT TREC10 2015/7/20 Wu Gangshan: Modern Information Retrieval 60 南京大学多媒体研究所 Multimedia Computing Institute of NJU 2015/7/20 Wu Gangshan: Modern Information Retrieval 61 南京大学多媒体研究所 Multimedia Computing Institute of NJU TREC的运行 TREC由一个程序委员会(包括来自政府、工业 界和学术界的代表)管理。 TREC以年度为周期运行。过程为: 确定任务(1~2): NIST选择某些任务,制定规范 参加者报名(2~3):参加者根据自己的兴趣选择任务 参加者运行任务(3~9):参加者用自己的系统运行测 试问题,给出结果并将它们提交给NIST 结果评估(10): NIST使用固定的评测软件和工具对 结果进行评估,并将结果返回给参加者 大会交流(11 马里兰州的Gaithersburg):论文交流 2015/7/20 Wu Gangshan: Modern Information Retrieval 62 南京大学多媒体研究所 Multimedia Computing Institute of NJU 测试数据和测试软件 由LDC(Linguistic Data Consortium)等多 家单位免费提供,但少数数据有所修改, 而且必须签订协议 每年使用的数据可以是新的,也可以是 上一年度已经使用过的 TREC使用的评估软件是开放的,任何组 织和个人都可以用它对自己的系统进行 评测 2015/7/20 Wu Gangshan: Modern Information Retrieval 63 南京大学多媒体研究所 Multimedia Computing Institute of NJU 2015/7/20 Wu Gangshan: Modern Information Retrieval 64 南京大学多媒体研究所 Multimedia Computing Institute of NJU 2015/7/20 Wu Gangshan: Modern Information Retrieval 65 南京大学多媒体研究所 Multimedia Computing Institute of NJU TREC评测方法及标准 相关名词、评测方法 南京大学多媒体研究所 Multimedia Computing Institute of NJU 名词定义 Track Topic 预先确定的问题,用来向检索系统提问 topicquery (自动或者手工) Question (QA) Document TREC的每个子任务,QA Filtering Web 包括训练集和测试集合 (TIPSTER&TREC CDs) Relevance Judgments 2015/7/20 相关性评估,人工或者自动 Wu Gangshan: Modern Information Retrieval 67 南京大学多媒体研究所 Multimedia Computing Institute of NJU Topic的一般结构 Title:标题,通常由几个单词构成,非 常简短 Description:描述,一句话,比Title详 细,包含了Title的所有单词 Narrative:详述,更详细地描述了哪些 文档是相关的 2015/7/20 Wu Gangshan: Modern Information Retrieval 68 南京大学多媒体研究所 Multimedia Computing Institute of NJU Topic示例 <num> Number: 351 <title> Falkland petroleum exploration <desc> Description: What information is available on petroleum exploration in the South Atlantic near the Falkland Islands? <narr> Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant. Documents discussing petroleum exploration in continental South America are not relevant. 2015/7/20 Wu Gangshan: Modern Information Retrieval 69 南京大学多媒体研究所 Multimedia Computing Institute of NJU 使用Topic的方式 按照会议要求,可以利用Topic文本中的 部分或者全部字段,构造适当的查询条 件 可以使用任何方式构造查询条件,这包 括手工的和自动的两大类。但提交查询 结果时要注明产生方式。 2015/7/20 Wu Gangshan: Modern Information Retrieval 70 南京大学多媒体研究所 Multimedia Computing Institute of NJU 评测方法 基于无序集合的评测:返回结果无顺序 基于有序集合的评测: Set Precision/Set Recall P@n/Average Precision/Reciprocal Rank 其他评测方法 Filtering Utility 2015/7/20 Wu Gangshan: Modern Information Retrieval 71 南京大学多媒体研究所 Multimedia Computing Institute of NJU 相关性评估过程(1) (Ad hoc任务)对于每一个topic,NIST从 参加者取得的结果中挑选中一部分运行 结果,从每个运行结果中取头100个文档, 然后用这些文档构成一个文档池,使用 人工方式对这些文档进行判断。相关性 判断是二值的:相关或不相关。 没有进行判断的文档被认为是不相关的。 2015/7/20 Wu Gangshan: Modern Information Retrieval 72 南京大学多媒体研究所 Multimedia Computing Institute of NJU 相关性评估过程(2) NIST使用trec_eval软件包对所有参加者 的运行结果进行评估,给出大量参数化 的评测结果(主要是precision和recall)。 根据这些评测数据,参加者可以比较彼 此的系统性能。 其他track也有相应的公开评测工具 2015/7/20 Wu Gangshan: Modern Information Retrieval 73 南京大学多媒体研究所 Multimedia Computing Institute of NJU More Details on Document Collections Volume 1 (Mar 1994) - Wall Street Journal (1987, 1988, 1989), Federal Register (1989), Associated Press (1989), Department of Energy abstracts, and Information from the Computer Select disks (1989, 1990) Volume 2 (Mar 1994) - Wall Street Journal (1990, 1991, 1992), the Federal Register (1988), Associated Press (1988) and Information from the Computer Select disks (1989, 1990) Volume 3 (Mar 1994) - San Jose Mercury News (1991), the Associated Press (1990), U.S. Patents (1983-1991), and Information from the Computer Select disks (1991, 1992) Volume 4 (May 1996) - Financial Times Limited (1991, 1992, 1993, 1994), the Congressional Record of the 103rd Congress (1993), and the Federal Register (1994). Volume 5 (Apr 1997) - Foreign Broadcast Information Service (1996) and the Los Angeles Times (1989, 1990). 2015/7/20 Wu Gangshan: Modern Information Retrieval 74 南京大学多媒体研究所 Multimedia Computing Institute of NJU Sample Document (with SGML) <DOC> <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million. ... </TEXT> </DOC> 2015/7/20 Wu Gangshan: Modern Information Retrieval 75 Sample Query (with SGML) 南京大学多媒体研究所 Multimedia Computing Institute of NJU <top> <head> Tipster Topic Description <num> Number: 066 <dom> Domain: Science and Technology <title> Topic: Natural Language Processing <desc> Description: Document will identify a type of natural language processing technology which is being developed or marketed in the U.S. <narr> Narrative: A relevant document will identify a company or institution developing or marketing a natural language processing technology, identify the technology, and identify one of more features of the company's product. <con> Concept(s): 1. natural language processing ;2. translation, language, dictionary <fac> Factor(s): <nat> Nationality: U.S.</nat> </fac> <def> Definitions(s): 2015/7/20 Wu Gangshan: Modern Information Retrieval 76 </top> 南京大学多媒体研究所 Multimedia Computing Institute of NJU Two more TREC Document Examples 2015/7/20 Wu Gangshan: Modern Information Retrieval 77 南京大学多媒体研究所 Multimedia Computing Institute of NJU Cystic Fibrosis (CF) Collection 1,239 abstracts of medical journal articles on CF. 100 information requests (queries) in the form of complete English questions. Relevant documents determined and rated by 4 separate medical experts on 0-2 scale: 2015/7/20 0: Not relevant. 1: Marginally relevant. 2: Highly relevant. Wu Gangshan: Modern Information Retrieval 78 南京大学多媒体研究所 Multimedia Computing Institute of NJU CF Document Fields MEDLINE access number Author Title Source Major subjects Minor subjects Abstract (or extract) References to other documents Citations to this document 2015/7/20 Wu Gangshan: Modern Information Retrieval 79 南京大学多媒体研究所 Multimedia Computing Institute of NJU Sample CF Document AN 74154352 AU Burnell-R-H. Robertson-E-F. TI Cystic fibrosis in a patient with Kartagener syndrome. SO Am-J-Dis-Child. 1974 May. 127(5). P 746-7. MJ CYSTIC-FIBROSIS: co. KARTAGENER-TRIAD: co. MN CASE-REPORT. CHLORIDES: an. HUMAN. INFANT. LUNG: ra. MALE. SITUS-INVERSUS: co, ra. SODIUM: an. SWEAT: an. AB A patient exhibited the features of both Kartagener syndrome and cystic fibrosis. At most, to the authors' knowledge, this represents the third such report of the combination. Cystic fibrosis should be excluded before a diagnosis of Kartagener syndrome is made. RF 001 KARTAGENER M BEITR KLIN TUBERK 83 489 933 002 SCHWARZ V ARCH DIS CHILD 43 695 968 003 MACE JW CLIN PEDIATR 10 285 971 … CT 1 BOCHKOVA DN GENETIKA (SOVIET GENETICS) 11 154 975 2 WOOD RE AM REV RESPIR DIS 113 833 976 3 MOSSBERG B MT SINAI J MED 44 837 977 … 2015/7/20 Wu Gangshan: Modern Information Retrieval 80 南京大学多媒体研究所 Multimedia Computing Institute of NJU Sample CF Queries QN 00002 QU Can one distinguish between the effects of mucus hypersecretion and infection on the submucosal glands of the respiratory tract in CF? NR 00007 RD 169 1000 434 1001 454 0100 498 1000 499 1000 592 0002 875 1011 QN 00004 QU What is the lipid composition of CF respiratory secretions? NR 00009 RD 503 0001 538 0100 539 0100 540 0100 553 0001 604 2222 669 1010 711 2122 876 2222 NR: Number of Relevant documents RD: Relevant Documents Ratings code: Four 0-2 ratings, one from each expert 2015/7/20 Wu Gangshan: Modern Information Retrieval 81 南京大学多媒体研究所 Multimedia Computing Institute of NJU 863中文信息检索评测 南京大学多媒体研究所 Multimedia Computing Institute of NJU 概况 中科院计算技术研究所承办。 已经进行了三届。 整个评测安排日趋合理。 面向中文。 任务:网页检索 2015/7/20 相关网页检索,项目编号是Web。 相关网页检索定义如下:给定主题,返回测 试集中与该主题相关的网页并按相关度进行 排序。 Wu Gangshan: Modern Information Retrieval 83 南京大学多媒体研究所 Multimedia Computing Institute of NJU 测试集 评测数据只包含测试集。测试集是由北京 大学计算机网络与分布式系统实验室提供 的CWT100g(中文Web测试集100GB)。 CWT100g包含5,712,710个网页(容量为 90GB),是在2004年6月在中国范围内采 样17,683个站点获得,包括网页内容和 Web服务器返回的信息。 2015/7/20 Wu Gangshan: Modern Information Retrieval 84 南京大学多媒体研究所 Multimedia Computing Institute of NJU 检索主题 主题(Topic)模拟用户需求,由若干字段组成,采用规 范格式描述用户希望检索的信息。 下面给出一个主题的例子: <top> <num> 编号:001 <title> 自然语言处理 <desc> 描述: 文档应当涉及在中国得到研究和开发的自然语言处理技术。 <narr> 叙述:一篇相关的文档应当涉及以下内容:自然语言处理 技术;研究自然语言处理技术的公司或者研究机构;利用自然 语言技术开发的产品。 </top> 2015/7/20 Wu Gangshan: Modern Information Retrieval 85 南京大学多媒体研究所 Multimedia Computing Institute of NJU 评测指标 MAP(Mean Average Precision) 2015/7/20 假设有两个主题,主题1有4个相关网页,主 题2有5个相关网页。某系统对于主题1检索出 4个相关网页,其rank分别为1, 2, 4, 7;对于主 题2检索出3个相关网页,其rank分别为1,3,5。 对于主题1,平均准确率为 (1/1+2/2+3/4+4/7)/4=0.83 对于主题2,平均准确率为 (1/1+2/3+3/5+0+0)/5=0.45 MAP= (0.83+0.45)/2=0.64 Wu Gangshan: Modern Information Retrieval 86 南京大学多媒体研究所 Multimedia Computing Institute of NJU 评测指标 R-Precision 2015/7/20 假设有两个主题,第1个主题有50个相关网页, 第2个主题有10个相关网页,某个系统对于第 1个主题返回的前50个结果中有17个是相关的, 对于第2个主题返回的前10个结果中有7个是 相关的。 则该系统在第1个主题上的R-Precision为 17/50=0.34,在第2个主题上的R-Precision为 7/10=0.7,主题集合的R-Precision为 (17/50+7/10)/2=0.52。 Wu Gangshan: Modern Information Retrieval 87 南京大学多媒体研究所 Multimedia Computing Institute of NJU 评测指标 P@10 2015/7/20 单个主题的P@10是系统对于该主题返回的前 10个结果的准确率。主题集合的P@10是每个 主题的P@10的平均值。 Wu Gangshan: Modern Information Retrieval 88 南京大学多媒体研究所 Multimedia Computing Institute of NJU 04年最好的结果 评价指标 manual MAP: 0.3671 P@10: 0.7040 R-Precision: 0.4140 2015/7/20 Wu Gangshan: Modern Information Retrieval auto 0.3175 0.6280 0.3672 89