Transcript Document

南京大学多媒体研究所
Multimedia Computing Institute of NJU
检索评价
武港山
Tel : 83594243
Office: 蒙民伟楼608B
Email : [email protected]
南京大学多媒体研究所
Multimedia Computing Institute of NJU
内容简介


背景知识
检索性能评价



召回率和精度
其他指标
标准测试集(Benchmark)
2015/7/20
Wu Gangshan: Modern Information Retrieval
2
南京大学多媒体研究所
Multimedia Computing Institute of NJU
背景知识
检索请求
检索机制
请求
对象
文本
图形
图像
音频
视频
模型
文本
图形
图像
音频
视频
模型
检索机制
检索对象
2015/7/20
Wu Gangshan: Modern Information Retrieval
3
南京大学多媒体研究所
Multimedia Computing Institute of NJU
信息检索系统的体系结构
用户界面
文档
用户
需求
用户
反馈
文档处理
逻辑视图
提问处理
建索引
数据库
管理
倒排文档
提问
排序后
的文档
2015/7/20
搜索
索引
文本
数据库
排序
检出的文档
Wu Gangshan: Modern Information Retrieval
4
南京大学多媒体研究所
Multimedia Computing Institute of NJU
信息检索系统的体系结构

检索系统所采用的检索模型不同,检索过程中
的处理细节会有所不同。


检索的每个处理过程中,又有许多技术细节可
供选择。


整个过程大致相同。
不同技术导致不同的检索效果。
检索评价就是对一个检索系统的检索效果进行
评价。


2015/7/20
准确地评价一个检索系统是非常困难的
因人、因时、因地、因事不同而不同。
Wu Gangshan: Modern Information Retrieval
5
南京大学多媒体研究所
Multimedia Computing Institute of NJU
检索系统的效果评价——内容

计算机系统性能分析

功能分析



性能分析:



功能是否完备。
功能是否完善,错误分析。
时间和空间的折衷
对于信息检索而言主要是指索引结构的性能。
信息检索系统的性能评价

2015/7/20
关注:检索结果是否正确,排序是否理想。
Wu Gangshan: Modern Information Retrieval
6
南京大学多媒体研究所
Multimedia Computing Institute of NJU
检索系统的效果评价——方法


通常检索系统的评价要基于一定的测试集
和确定的评价指标。
测试集:




A collection of documents
A set of sample information request
A set of relevant document.————》有点问题。
评价指标: (对于给定的检索策略/系统 S)


Measure the similarity between the set of document
retrieved by S and the set of relevant document
provided by specialists
This provides an estimation of the goodness of
retrieval strategy S.
2015/7/20
Wu Gangshan: Modern Information Retrieval
7
南京大学多媒体研究所
Multimedia Computing Institute of NJU
检索系统的效果评价——方式

评价方式:




Query processed in batch mode
a whole interactive session, and
Combine of two strategies.
不同评价方式的重点不同:


2015/7/20
In interactive session: user effort, interface
design, guidance provided…
In batch mode: the answer set is most
important.
Wu Gangshan: Modern Information Retrieval
8
南京大学多媒体研究所
Multimedia Computing Institute of NJU
评价指标的关键因素——相关性

相关性— 字典定义:



1. Pertinence(有关性) to
hand.
2. Applicability(适用性)
issues.
3. Computer Science. The
an information retrieval
select and retrieve data
to a user's needs.
2015/7/20
the matter at
to social
capability of
system to
appropriate
Wu Gangshan: Modern Information Retrieval
9
南京大学多媒体研究所
Multimedia Computing Institute of NJU
信息检索中的相关性概念



作为一次检索结果的测量指标。(系统外)
作为是否合乎要求的判定标准。(系统内)
There are no simple answers to what
is relevant and what is not
relevant




difficult to define
Subjective (比较主观)
depending on knowledge, needs, time,
situation, etc.
但是,它是信息检索领域的核心概念。
2015/7/20
Wu Gangshan: Modern Information Retrieval
10
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Relevance to What?

信息需求的形式多样,相关性判定的方式
也不相同。




求解一个问题。
查询某个事实。
询问相关情况。
不管检索请求如何,相关性应该体现在:



用户是否认为检索结果有用。
用户是否能够使用检索结果解决问题。
用户是否了解到真实的情况。(fill info.
gap)
2015/7/20
Wu Gangshan: Modern Information Retrieval
11
南京大学多媒体研究所
Multimedia Computing Institute of NJU
相关性判定两种基本方法

用户判定 (主观评价)



How well the retrieved documents
satisfy the user's information needs
How useful the retrieved documents
If it is related but not useful,


It is still not relevant
系统判定(客观评价)


How well the retrieved document
match the query
How likely would the user judge this
information as useful?
2015/7/20
Wu Gangshan: Modern Information Retrieval
12
影响相关性判定的因素
南京大学多媒体研究所
Multimedia Computing Institute of NJU

主题:





新颖性: -- how much new information in the
retrieved document
独特性/适时性
质量/准确性/事实性
可用性


Source or pointer?
使用代价


Judge by their subject relatedness
Cost
语言


2015/7/20
English or non-English
Readability
Wu Gangshan: Modern Information Retrieval
13
南京大学多媒体研究所
Multimedia Computing Institute of NJU
相关性度量

二值度量


relevant or not relevant
More detail




2015/7/20
Not relevant,
somewhat relevant,
relevant,
highly relevant
Wu Gangshan: Modern Information Retrieval
14
南京大学多媒体研究所
Multimedia Computing Institute of NJU
相关性度量指标: 精度和召回率
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Precision and Recall

给定检索请求,检索处理关心的是:



所有检索到的文档都和用户请求相关吗?
是否所有相关的文档都检索出来了?
对于检索系统性能评价而言:


2015/7/20
第一个问题体现检索处理的精度。
第二个问题体现的是检索的完备性(召回率)。
Wu Gangshan: Modern Information Retrieval
16
Entire document
Relevant
collection
documents
Retrieved
documents
relevant irrelevant
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Precision and Recall
retrieved &
irrelevant
Not retrieved &
irrelevant
retrieved &
relevant
not retrieved but
relevant
retrieved
not retrieved
Num berof relevantdocum entsretrieved
recall 
Total num berof relevantdocum ents
Num ber of relevant docum entsretrieved
precision
Total num berof docum entsretrieved
2015/7/20
Wu Gangshan: Modern Information Retrieval
17
南京大学多媒体研究所
Multimedia Computing Institute of NJU

Precision measures how precise a search is.



the higher the precision,
the less unwanted documents.
Recall measures how complete a search is.


2015/7/20
the higher the recall,
the less missing documents.
Wu Gangshan: Modern Information Retrieval
18
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Relationship of R and P

理论上,


实际上,



要取得较高的召回率会损失一定的精度。
要取得较高的精度会损失一定的召回率。
When will p = 0?


R 和 P 相互无关.
Only when none of the retrieved documents is relevant.
When will p=1?

Only when every retrieved documents are relevant.
2015/7/20
Wu Gangshan: Modern Information Retrieval
19
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Relationship of R and P

为何增加召回率往往意味着降低精度?


为了不丢失可能的有用信息,系统必须扩
大查找范围,将有可能相关的信息都返回
给用户,这样必然带来精度的降低。
但是,到底什么样的精度和召回率是比
较合适的呢?

2015/7/20
具体系统的评价和应用需求相关。
Wu Gangshan: Modern Information Retrieval
20
南京大学多媒体研究所
Multimedia Computing Institute of NJU
理想的检索系统


理想的信息检索系统应该对任何请求都
有:
P=1, R= 1
有这样的可能吗?





如果检索请求可以非常精确地给出;
如果相关性判定不存在模糊性;
如果检索请求的匹配可以非常精确
那么,我们可以拥有一个理想的检索系统。
实际上,那已经不是一个信息检索系统了。
2015/7/20
Wu Gangshan: Modern Information Retrieval
21
Returns relevant documents but
misses many useful ones too
The ideal
1
Precision
南京大学多媒体研究所
Multimedia Computing Institute of NJU
精度和召回率之间的折衷
0
2015/7/20
Recall
1
Returns most relevant
documents but includes
lots of junk
Wu Gangshan: Modern Information Retrieval
22
南京大学多媒体研究所
Multimedia Computing Institute of NJU
确定召回率有时是非常困难的

相关对象的总数有时无法确定:


2015/7/20
手工的处理过程。检查数据库中的每件文档
是否属于检索请求的文档类别。
对同样的数据库和检索问题,应用不同的检
索算法,得到的所有算法的检索结果合计,
构成了这个检索请求的返回文档全集。 (自
动处理的。)
Wu Gangshan: Modern Information Retrieval
23
南京大学多媒体研究所
Multimedia Computing Institute of NJU
计算召回率/精度点




对于给定的检索请求,系统返回经过排序
的检索结果集。
对这些检索结果文档集中的相关文档进行
标注。
调整阀值产生不同的检索结果排序文档集
合,因而,就具有了不同的召回率/精度
测量值。
基于不同的排序文档集,计算不同位置的
recall/precision对测量值。
2015/7/20
Wu Gangshan: Modern Information Retrieval
24
南京大学多媒体研究所
Multimedia Computing Institute of NJU
An Example
n doc # relevant
1 588
x
2 589
x
3 576
4 590
x
5 986
6 592
x
7 984
8 988
9 578
10 985
11 103
12 591
13 772
x
14 990
2015/7/20
Let total # of relevant docs = 6
Check each new recall point:
R=1/6=0.167; P=1/1=1
R=2/6=0.333; P=2/2=1
R=3/6=0.5;
P=3/4=0.75
R=4/6=0.667; P=4/6=0.667
Missing one
relevant document.
Never reach
R=5/6=0.833; p=5/13=0.38
100% recall
Wu Gangshan: Modern Information Retrieval
25
南京大学多媒体研究所
Multimedia Computing Institute of NJU
插值召回率/精度曲线

Interpolate a precision value for each standard
recall level:



rj {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0}
r0 = 0.0, r1 = 0.1, …, r10=1.0
The interpolated precision at the j-th standard
recall level is the maximum known precision at
any recall level between the j-th and (j + 1)-th
level:
P(rj )  max P(r )
r j  r  r j 1
2015/7/20
Wu Gangshan: Modern Information Retrieval
26
Precision
南京大学多媒体研究所
Multimedia Computing Institute of NJU
An Example
1.0
0.8
0.6
0.4
0.2
0.2
2015/7/20
0.4
0.6
0.8
Wu Gangshan: Modern Information Retrieval
1.0
Recall
27
南京大学多媒体研究所
Multimedia Computing Institute of NJU
平均召回率/精度曲线



Typically average performance over a
large set of queries.
Compute average precision at each
standard recall level across all queries.
Plot average precision/recall curves to
evaluate overall system performance on
a document/query corpus.
2015/7/20
Wu Gangshan: Modern Information Retrieval
28
多系统比较
The curve closest to the upper right-hand
corner of the graph indicates the best
performance
1
0.8
Precision
南京大学多媒体研究所
Multimedia Computing Institute of NJU

N oS tem
S tem
0.6
0.4
0.2
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1
Recall
2015/7/20
Wu Gangshan: Modern Information Retrieval
29
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Sample RP Curve for CF Corpus
2015/7/20
Wu Gangshan: Modern Information Retrieval
30
南京大学多媒体研究所
Multimedia Computing Institute of NJU
面向单个查询的P、R指标

原因:



多个查询的平均查准率,可能会掩盖算法的
一些重要的不规则特征。
当两个算法比较时,可能更关注某个查询实
例是否存在更好的检索算法。
方法:

2015/7/20
使用查准率对每个查询进行评价。
Wu Gangshan: Modern Information Retrieval
31
南京大学多媒体研究所
Multimedia Computing Institute of NJU
平均查准率

思路:



逐个考察每一个新的相关文档,计算其所对
应的查准率。
对当前所有相关文档位置上的查准率,计算
平均值得到。
例如:

2015/7/20
检出5个相关文档,分别在1、3、6、10和15
的位置上,则它们对应的查准率为:1、0.66、
0.5、0.4和0.3。平均查准率就为:
(1+0.66+0.5+0.4+0.3)/5=0.57
Wu Gangshan: Modern Information Retrieval
32
南京大学多媒体研究所
Multimedia Computing Institute of NJU
R- Precision

Precision at the R-th position in the
ranking of results for a query that has R
relevant documents.
n doc # relevant
1 588
x
2 589
x
3 576
4 590
x
5 986
6 592
x
7 984
8 988
9 578
10 985
11 103
12 591
13 772
x
14 990
2015/7/20
Wu Gangshan: Modern Information Retrieval
R = # of relevant docs = 6
R-Precision = 4/6 = 0.67
33
南京大学多媒体研究所
Multimedia Computing Institute of NJU
查准率直方图
2015/7/20
Wu Gangshan: Modern Information Retrieval
34
采用P/R进行性能评价的问题:
南京大学多媒体研究所
Multimedia Computing Institute of NJU





对于实际系统而言,召回率永远是一种估计。
评价结果某种程度上和 sampling queries相关。
R/P没有考虑 用户交互 的因素。
R/P 仅仅是系统性能的一个方面,而不是全部:

High recall/high precision is desirable, but not
necessary the most important thing that the user
considers.
R/P 基于这样的假设,即检索的文档对于用户
都是一样的,独立于用户的。

这不太符合实际情况,有些用户已经知道,有些文
档质量很高。
2015/7/20
Wu Gangshan: Modern Information Retrieval
35
南京大学多媒体研究所
Multimedia Computing Institute of NJU
其他评价指标
南京大学多媒体研究所
Multimedia Computing Institute of NJU
F-Measure


One measure of performance that takes
into account both recall and precision.
Harmonic mean of recall and precision:
2 PR
2
F
1 1
P  R RP

Compared to arithmetic mean, both need
to be high for harmonic mean to be high.
2015/7/20
Wu Gangshan: Modern Information Retrieval
37
南京大学多媒体研究所
Multimedia Computing Institute of NJU
E Measure (parameterized F Measure)

A variant of F measure that allows weighting
emphasis on precision over recall:
(1   2 ) PR (1   2 )
E
 2 1
2
 PR

R P

Value of  controls trade-off:



 = 1: Equally weight precision and recall (E=F).
 > 1: Weight precision more.
 < 1: Weight recall more.
2015/7/20
Wu Gangshan: Modern Information Retrieval
38
南京大学多媒体研究所
Multimedia Computing Institute of NJU
MAP(Mean Average Precision)




假设有两个主题,主题1有4个相关网页,主题2
有5个相关网页。某系统对于主题1检索出4个相
关网页,其rank分别为1, 2, 4, 7;对于主题2检索
出3个相关网页,其rank分别为1,3,5。
对于主题1,平均准确率为
(1/1+2/2+3/4+4/7)/4=0.83
对于主题2,平均准确率为
(1/1+2/3+3/5+0+0)/5=0.45
MAP= (0.83+0.45)/2=0.64
2015/7/20
Wu Gangshan: Modern Information Retrieval
39
南京大学多媒体研究所
Multimedia Computing Institute of NJU
P@10

单个主题的P@10是系统对于该主题返回
的前10个结果的准确率。主题集合的
P@10是每个主题的P@10的平均值。
2015/7/20
Wu Gangshan: Modern Information Retrieval
40
南京大学多媒体研究所
Multimedia Computing Institute of NJU
User-Oriented Measures
Relevant docs
Relevant docs
Known to the user
2015/7/20
Retrieved Docs
Relevant docs retrieved
unknown to the user
Wu Gangshan: Modern Information Retrieval
41
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Measure 1: Coverage

Coverage: the fraction of the documents
known to the user to be relevant which
has actually been retrieved
Relevant Docs retrieved and known to the user

Coverage = ------------------------------------Relevant Docs known to the user

If coverage=1,

2015/7/20
Everything the user knows has been retrieved.
Wu Gangshan: Modern Information Retrieval
42
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Measure 2: Novelty


Novelty: the fraction of the relevant
documents retrieved which was
unknown to the user.
Relevant docs unknown to the user
Novelty= -------------------------------Relevant docs retrieved
2015/7/20
Wu Gangshan: Modern Information Retrieval
43
南京大学多媒体研究所
Multimedia Computing Institute of NJU
标准测试
南京大学多媒体研究所
Multimedia Computing Institute of NJU
An Landmark Study

An evaluation of retrieval effectiveness
for a full-text document retrieval system




1985, by David Blair and M. E. Maron
The first large-scale evaluation on fulltext retrieval
Significant and controversial(有争议的)
results
Good experimental Design
2015/7/20
Wu Gangshan: Modern Information Retrieval
45
南京大学多媒体研究所
Multimedia Computing Institute of NJU
The Setting

An IBM full-text retrieval system with
40,000 documents of 350,000 pages.




2015/7/20
Documents to be used in the defense of
a large corporate law suit.
Large by 1985 standards; typical
standard today
Mostly Boolean searching functions, with
some ranking functions added.
Full-text automatic indexing.
Wu Gangshan: Modern Information Retrieval
46
南京大学多媒体研究所
Multimedia Computing Institute of NJU
The Experiment


Two lawyers generated 51 requests.
Two paralegals(助手) conducted
searches again and again until the
lawyers satisfied the results


Until the lawyers believed that more than
75% of relevant documents had been
found.
The paralegals and lawyers could have
as many discussions as needed.
2015/7/20
Wu Gangshan: Modern Information Retrieval
47
南京大学多媒体研究所
Multimedia Computing Institute of NJU
The results


Average
1.0
precision=.79
Average
Recall=.20
.20
.20
2015/7/20
Precision
Wu Gangshan: Modern Information Retrieval
1.0
48
南京大学多媒体研究所
Multimedia Computing Institute of NJU
The most significant results


The recall is low.
Even though the recall is only 20%,
the lawyers were satisfied (and
believed that 75% of relevant
documents had been retrieved).
2015/7/20
Wu Gangshan: Modern Information Retrieval
49
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Questions



Why the recall was so low?
Do we really need high recall?
If the study were run today on search
engines like Google, would the results
be the same or different?
2015/7/20
Wu Gangshan: Modern Information Retrieval
50
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Benchmarks(标准测试集)

A benchmark collection contains:



A set of standard documents and queries/topics.
A list of relevant documents for each query.
Standard collections for traditional IR:


Smart collection:
ftp://ftp.cs.cornell.edu/pub/smart
TREC: http://trec.nist.gov/
Standard
document
collection
Standard
queries
2015/7/20
Algorithm
under test
Precision
and recall
Retrieved
result
Evaluation
Standard
result
Wu Gangshan: Modern Information Retrieval
51
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Benchmarking  The Problems




Performance data is valid only for a
particular benchmark.
Building a benchmark corpus is a difficult
task.
Benchmark Web corpora are just starting
to be developed.
Benchmark foreign-language corpora are
just starting to be developed.
2015/7/20
Wu Gangshan: Modern Information Retrieval
52
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Early Test Collections

Previous experiments were based on the SMART
collection which is fairly small.
(ftp://ftp.cs.cornell.edu/pub/smart)
Collection
Name
CACM
CISI
CRAN
MED
TIME

Number Of
Documents
3,204
1,460
1,400
1,033
425
Number Of
Queries
64
112
225
30
83
Raw Size
(Mbytes)
1.5
1.3
1.6
1.1
1.5
Different researchers used different test
collections and evaluation techniques.
2015/7/20
Wu Gangshan: Modern Information Retrieval
53
南京大学多媒体研究所
Multimedia Computing Institute of NJU
南京大学多媒体研究所
Multimedia Computing Institute of NJU
TREC概况
TREC的历史、发展与目标
南京大学多媒体研究所
Multimedia Computing Institute of NJU
TREC历史

TREC



组织者



Text REtrieval Conference,文本检索会议
一开始仅仅面向文本,现在处理对象更广
NIST(National Institute of Standards and Technology),
政府部门
DARPA(Defense Advanced Research Projects Agency),
军方
会议情况


评测会议
1992~2007,16届
2015/7/20
Wu Gangshan: Modern Information Retrieval
56
南京大学多媒体研究所
Multimedia Computing Institute of NJU
TREC目标

总目标:支持在信息检索领域的基础研究,提
供对大规模文本检索方法的评估办法




鼓励对基于大测试集合的信息检索方法的研究
提供一个可以用来交流研究思想的论坛,增进工业
界、学术界和政府部门之间的互相了解;
示范信息检索理论在解决实际问题方面的重大进步,
提高信息检索技术从理论走向商业应用的速度
为工业界和学术界提高评估技术的可用性,并开发
新的更为适用的评估技术。
2015/7/20
Wu Gangshan: Modern Information Retrieval
57
历届TREC参加单位数及任务
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Groups Tracks
TREC1
25
Ad hoc/Routing
TREC2
31
Ad hoc/Routing
TREC3
32
Ad hoc/Routing
TREC4
36
Spanish/Interactive/Database
Merging/Confusion/Filtering
TREC5
38
Spanish/Interactive/Database
Merging/Confusion/Filtering/NLP
TREC6
51
Chinese/Interactive/Filtering/NLP/CLIR/High
Precision/SDR/VLC
TREC7
56
CLIR/High Precision/Interactive/Query/SDR/VLC
TREC8
66
CLIR/Filtering/Interactive/QA/Query/SDR/Web
TREC9
70
QA/CLIR(E-C)/Web/Filtering/Interactive/Query/SDR
TREC10 135(89) QA/CLIR/Web/Filtering/Interactive/Video
2015/7/20
Wu Gangshan: Modern Information Retrieval
58
南京大学多媒体研究所
Multimedia Computing Institute of NJU
历届TREC参加单位数示意图
2015/7/20
Wu Gangshan: Modern Information Retrieval
59
南京大学多媒体研究所
Multimedia Computing Institute of NJU
参加过TREC的部分单位
Corp.
University
Asian Organization
IBM
MIT
Singapore U. (KRDL)
AT&T
CMU
KAIST
Microsoft
Cambridge U.
Korea U.
Sun
Cornell U.
Pohang U.(浦项)
Apple
Maryland U.
Yonsei U.
Fujitsu
Massachusetts U.
Tsinghua U.(Taiwan) TREC7
NEC
New Mexico State U.
Taiwan U. TREC8&9&10
XEROX
California Berkeley U. Hongkong Chinese U. TREC9
RICOH
Montreal U.
Microsoft Research China TREC9&10
CLRITECH Johns Hopkins U.
Fudan U. TREC9&10
NTT
Rutgers U.
ICT TREC10
Oracle
Pennsylvania U.
HIT TREC10
2015/7/20
Wu Gangshan: Modern Information Retrieval
60
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
61
南京大学多媒体研究所
Multimedia Computing Institute of NJU
TREC的运行


TREC由一个程序委员会(包括来自政府、工业
界和学术界的代表)管理。
TREC以年度为周期运行。过程为:





确定任务(1~2): NIST选择某些任务,制定规范
参加者报名(2~3):参加者根据自己的兴趣选择任务
参加者运行任务(3~9):参加者用自己的系统运行测
试问题,给出结果并将它们提交给NIST
结果评估(10): NIST使用固定的评测软件和工具对
结果进行评估,并将结果返回给参加者
大会交流(11 马里兰州的Gaithersburg):论文交流
2015/7/20
Wu Gangshan: Modern Information Retrieval
62
南京大学多媒体研究所
Multimedia Computing Institute of NJU
测试数据和测试软件



由LDC(Linguistic Data Consortium)等多
家单位免费提供,但少数数据有所修改,
而且必须签订协议
每年使用的数据可以是新的,也可以是
上一年度已经使用过的
TREC使用的评估软件是开放的,任何组
织和个人都可以用它对自己的系统进行
评测
2015/7/20
Wu Gangshan: Modern Information Retrieval
63
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
64
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
65
南京大学多媒体研究所
Multimedia Computing Institute of NJU
TREC评测方法及标准
相关名词、评测方法
南京大学多媒体研究所
Multimedia Computing Institute of NJU
名词定义

Track


Topic




预先确定的问题,用来向检索系统提问
topicquery (自动或者手工)
Question (QA)
Document


TREC的每个子任务,QA Filtering Web
包括训练集和测试集合 (TIPSTER&TREC CDs)
Relevance Judgments

2015/7/20
相关性评估,人工或者自动
Wu Gangshan: Modern Information Retrieval
67
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Topic的一般结构



Title:标题,通常由几个单词构成,非
常简短
Description:描述,一句话,比Title详
细,包含了Title的所有单词
Narrative:详述,更详细地描述了哪些
文档是相关的
2015/7/20
Wu Gangshan: Modern Information Retrieval
68
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Topic示例
<num> Number: 351
<title> Falkland petroleum exploration
<desc> Description:
What information is available on petroleum exploration
in the South Atlantic near the Falkland Islands?
<narr> Narrative:
Any document discussing petroleum exploration in the
South Atlantic near the Falkland Islands is considered
relevant.
Documents
discussing
petroleum
exploration in continental South America are not
relevant.
2015/7/20
Wu Gangshan: Modern Information Retrieval
69
南京大学多媒体研究所
Multimedia Computing Institute of NJU
使用Topic的方式


按照会议要求,可以利用Topic文本中的
部分或者全部字段,构造适当的查询条
件
可以使用任何方式构造查询条件,这包
括手工的和自动的两大类。但提交查询
结果时要注明产生方式。
2015/7/20
Wu Gangshan: Modern Information Retrieval
70
南京大学多媒体研究所
Multimedia Computing Institute of NJU
评测方法

基于无序集合的评测:返回结果无顺序


基于有序集合的评测:


Set Precision/Set Recall
P@n/Average Precision/Reciprocal Rank
其他评测方法

Filtering Utility
2015/7/20
Wu Gangshan: Modern Information Retrieval
71
南京大学多媒体研究所
Multimedia Computing Institute of NJU
相关性评估过程(1)

(Ad hoc任务)对于每一个topic,NIST从
参加者取得的结果中挑选中一部分运行
结果,从每个运行结果中取头100个文档,
然后用这些文档构成一个文档池,使用
人工方式对这些文档进行判断。相关性
判断是二值的:相关或不相关。
没有进行判断的文档被认为是不相关的。
2015/7/20
Wu Gangshan: Modern Information Retrieval
72
南京大学多媒体研究所
Multimedia Computing Institute of NJU
相关性评估过程(2)


NIST使用trec_eval软件包对所有参加者
的运行结果进行评估,给出大量参数化
的评测结果(主要是precision和recall)。
根据这些评测数据,参加者可以比较彼
此的系统性能。
其他track也有相应的公开评测工具
2015/7/20
Wu Gangshan: Modern Information Retrieval
73
南京大学多媒体研究所
Multimedia Computing Institute of NJU
More Details on Document Collections





Volume 1 (Mar 1994) - Wall Street Journal (1987, 1988, 1989),
Federal Register (1989), Associated Press (1989), Department of
Energy abstracts, and Information from the Computer Select disks
(1989, 1990)
Volume 2 (Mar 1994) - Wall Street Journal (1990, 1991, 1992),
the Federal Register (1988), Associated Press (1988) and
Information from the Computer Select disks (1989, 1990)
Volume 3 (Mar 1994) - San Jose Mercury News (1991), the
Associated Press (1990), U.S. Patents (1983-1991), and
Information from the Computer Select disks (1991, 1992)
Volume 4 (May 1996) - Financial Times Limited (1991, 1992, 1993,
1994), the Congressional Record of the 103rd Congress (1993),
and the Federal Register (1994).
Volume 5 (Apr 1997) - Foreign Broadcast Information Service
(1996) and the Los Angeles Times (1989, 1990).
2015/7/20
Wu Gangshan: Modern Information Retrieval
74
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Sample Document (with SGML)
<DOC>
<DOCNO> WSJ870324-0001 </DOCNO>
<HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL>
<DD> 03/24/87</DD>
<SO> WALL STREET JOURNAL (J) </SO>
<IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM)
MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS,
BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN>
<DATELINE> NEW YORK </DATELINE>
<TEXT>
John Blair &amp; Co. is close to an agreement to sell its TV station
advertising representation operation and program production unit to
an investor group led by James H. Rosenfield, a former CBS Inc.
executive, industry sources said. Industry sources put the value of
the proposed acquisition at more than $100 million. ...
</TEXT>
</DOC>
2015/7/20
Wu Gangshan: Modern Information Retrieval
75
Sample Query (with SGML)
南京大学多媒体研究所
Multimedia Computing Institute of NJU
<top>
<head> Tipster Topic Description
<num> Number: 066
<dom> Domain: Science and Technology
<title> Topic: Natural Language Processing
<desc> Description: Document will identify a type of natural
language processing technology which is being developed or
marketed in the U.S.
<narr> Narrative: A relevant document will identify a company or
institution developing or marketing a natural language processing
technology, identify the technology, and identify one of more
features of the company's product.
<con> Concept(s): 1. natural language processing ;2. translation,
language, dictionary
<fac> Factor(s):
<nat> Nationality: U.S.</nat>
</fac>
<def> Definitions(s):
2015/7/20
Wu Gangshan: Modern Information Retrieval
76
</top>
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Two more TREC Document Examples
2015/7/20
Wu Gangshan: Modern Information Retrieval
77
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Cystic Fibrosis (CF) Collection



1,239 abstracts of medical journal articles on
CF.
100 information requests (queries) in the form
of complete English questions.
Relevant documents determined and rated by
4 separate medical experts on 0-2 scale:



2015/7/20
0: Not relevant.
1: Marginally relevant.
2: Highly relevant.
Wu Gangshan: Modern Information Retrieval
78
南京大学多媒体研究所
Multimedia Computing Institute of NJU
CF Document Fields









MEDLINE access number
Author
Title
Source
Major subjects
Minor subjects
Abstract (or extract)
References to other documents
Citations to this document
2015/7/20
Wu Gangshan: Modern Information Retrieval
79
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Sample CF Document
AN 74154352
AU Burnell-R-H. Robertson-E-F.
TI Cystic fibrosis in a patient with Kartagener syndrome.
SO Am-J-Dis-Child. 1974 May. 127(5). P 746-7.
MJ CYSTIC-FIBROSIS: co. KARTAGENER-TRIAD: co.
MN CASE-REPORT. CHLORIDES: an. HUMAN. INFANT. LUNG: ra. MALE.
SITUS-INVERSUS: co, ra. SODIUM: an. SWEAT: an.
AB A patient exhibited the features of both Kartagener syndrome and
cystic fibrosis. At most, to the authors' knowledge, this
represents the third such report of the combination. Cystic
fibrosis should be excluded before a diagnosis of Kartagener
syndrome is made.
RF 001 KARTAGENER M
BEITR KLIN TUBERK
83 489 933
002 SCHWARZ V
ARCH DIS CHILD
43 695 968
003 MACE JW
CLIN PEDIATR
10 285 971
…
CT 1 BOCHKOVA DN
GENETIKA (SOVIET GENETICS)
11 154 975
2 WOOD RE
AM REV RESPIR DIS
113 833 976
3 MOSSBERG B
MT SINAI J MED
44 837 977
…
2015/7/20
Wu Gangshan: Modern Information Retrieval
80
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Sample CF Queries
QN 00002
QU Can one distinguish between the effects of mucus hypersecretion and
infection on the submucosal glands of the respiratory tract in CF?
NR 00007
RD 169 1000 434 1001 454 0100 498 1000 499 1000 592 0002 875 1011
QN 00004
QU What is the lipid composition of CF respiratory secretions?
NR 00009
RD 503 0001 538 0100 539 0100 540 0100 553 0001 604 2222 669 1010
711 2122 876 2222
NR: Number of Relevant documents
RD: Relevant Documents
Ratings code: Four 0-2 ratings, one from each expert
2015/7/20
Wu Gangshan: Modern Information Retrieval
81
南京大学多媒体研究所
Multimedia Computing Institute of NJU
863中文信息检索评测
南京大学多媒体研究所
Multimedia Computing Institute of NJU
概况





中科院计算技术研究所承办。
已经进行了三届。
整个评测安排日趋合理。
面向中文。
任务:网页检索


2015/7/20
相关网页检索,项目编号是Web。
相关网页检索定义如下:给定主题,返回测
试集中与该主题相关的网页并按相关度进行
排序。
Wu Gangshan: Modern Information Retrieval
83
南京大学多媒体研究所
Multimedia Computing Institute of NJU
测试集


评测数据只包含测试集。测试集是由北京
大学计算机网络与分布式系统实验室提供
的CWT100g(中文Web测试集100GB)。
CWT100g包含5,712,710个网页(容量为
90GB),是在2004年6月在中国范围内采
样17,683个站点获得,包括网页内容和
Web服务器返回的信息。
2015/7/20
Wu Gangshan: Modern Information Retrieval
84
南京大学多媒体研究所
Multimedia Computing Institute of NJU
检索主题


主题(Topic)模拟用户需求,由若干字段组成,采用规
范格式描述用户希望检索的信息。
下面给出一个主题的例子:
<top>
<num> 编号:001
<title> 自然语言处理
<desc> 描述:
文档应当涉及在中国得到研究和开发的自然语言处理技术。
<narr> 叙述:一篇相关的文档应当涉及以下内容:自然语言处理
技术;研究自然语言处理技术的公司或者研究机构;利用自然
语言技术开发的产品。
</top>
2015/7/20
Wu Gangshan: Modern Information Retrieval
85
南京大学多媒体研究所
Multimedia Computing Institute of NJU
评测指标

MAP(Mean Average Precision)




2015/7/20
假设有两个主题,主题1有4个相关网页,主
题2有5个相关网页。某系统对于主题1检索出
4个相关网页,其rank分别为1, 2, 4, 7;对于主
题2检索出3个相关网页,其rank分别为1,3,5。
对于主题1,平均准确率为
(1/1+2/2+3/4+4/7)/4=0.83
对于主题2,平均准确率为
(1/1+2/3+3/5+0+0)/5=0.45
MAP= (0.83+0.45)/2=0.64
Wu Gangshan: Modern Information Retrieval
86
南京大学多媒体研究所
Multimedia Computing Institute of NJU
评测指标

R-Precision


2015/7/20
假设有两个主题,第1个主题有50个相关网页,
第2个主题有10个相关网页,某个系统对于第
1个主题返回的前50个结果中有17个是相关的,
对于第2个主题返回的前10个结果中有7个是
相关的。
则该系统在第1个主题上的R-Precision为
17/50=0.34,在第2个主题上的R-Precision为
7/10=0.7,主题集合的R-Precision为
(17/50+7/10)/2=0.52。
Wu Gangshan: Modern Information Retrieval
87
南京大学多媒体研究所
Multimedia Computing Institute of NJU
评测指标

P@10

2015/7/20
单个主题的P@10是系统对于该主题返回的前
10个结果的准确率。主题集合的P@10是每个
主题的P@10的平均值。
Wu Gangshan: Modern Information Retrieval
88
南京大学多媒体研究所
Multimedia Computing Institute of NJU
04年最好的结果

评价指标
manual
MAP:
0.3671
P@10:
0.7040
R-Precision: 0.4140
2015/7/20
Wu Gangshan: Modern Information Retrieval
auto
0.3175
0.6280
0.3672
89