2 信息检索基础理论

Transcript 2 信息检索基础理论

2 信息检索基础理论
山东师范大学管理与经济学院
本章要点
信息检索的主要数学模型
检索系统/工具的结构及工作原理
查全率
检索系统的评价
信息检索的相关性问题
信息检索的基本原理
查准率
2.1 信息检索的基本原理


通过对大量的、分散无序的文献信息进行搜集、
加工、组织、存储，建立各种各样的检索系统，
并通过一定的方法和手段使存储与检索这两个
过程所采用的特征标识达到一致，以便有效地
获得和利用信息源。
存储是为了检索，检索又必须先进行存储。
信息检索的基本原理
信息
集合
特征化
表示
特征化
表示
需求
集合
匹配与选择
课本P22-23，图2-1
计算机信息
检索原理
示意图
2.1.2 信息检索的相关性问题


定义：检索结果与用户需求一致性程度
影响因素：
• 用户信息需求的表达
• 相关度判断的算法
• 用户的主观判断

手检相关性、机检相关性

“相关性”(relevance)，是指信息检索系
统针对用户的查询(query)从文档集中检出
的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象，从严格
意义上讲，文档与查询之间不再是数据库检索
中的那种简单的匹配关系。但“匹配”这一术
语一直在使用，这里也接受这种说法。
手检相关性

依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行
为、认知能力

提高手检相关性的方法：
• 分析概念及学科属性；对检索工具的了解
• 调整检索策略
机检相关性

系统相关性
• (1)
• (2)
• (3)
• (4)
• (5)

词频方法
位置方法
引用率方法
点击率方法
分类或聚类
用户相关性
(1) 基于词频统计的相关性



当用户输入检索词时，搜索引擎去找那些检索词
在文章（网页）中出现频率较高的，位置较重要
的，再加上一些对检索词本身常用程度的加权，
最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的，
如Infoseek，Excite，Lycos等，它们基本上是
沿用了网络时代之前学术界的研究成果，工业界
的主要精力放在处理大访问量和大数据量上，对
相关性排序没有突破。
词频统计其实根本没有利用任何跟网络有关的特
性，是前网络时代的技术。
(2) 位置方法

据关键词在文中出现的位置来判定文件的
相关性。认为关键词出现得越靠前，文件
的相关程度就越高。
(3) 引用率方法


科学引文分析
超链分析
百度
Google
PangRank算法

WEB中各页面之间的链接关系是一项可以利用的
重要信息。基于这种信息的技术被称为链接分析
技术。绝大部分链接分析算法都有共同的出发点：
更多地被其他页面链接的页面是质量更好的页面，
并且从更重要的页面出发的链接有更大的权重。
这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出
并应用到Google搜索引擎中的PageRank算法以
及IBM用于CLEVER搜索引擎的HITS算法。

HITS是IBM Almaden研究中心开发的另一种链
接分析算法。它认为每个WEB页面都有被指向、
作为权威（Authority）和指向其他页面作为资源
中心（Hub）的两方面属性，其取值分别用A(p)
和H(p)表示。A(p)值为所有指向p的页面q的中
心权重H（q）之和，同样，页面p的中心权重
H(p)值是所有p所指向的页面q的权威权重A(q)
之和，如下式：
A(p)=∑H(qi) （其中qi是所有链接到p的页面）
H(p)=∑A(qi)（其中qi是所有页面p所链接到的
页面）

链接分析方法常常和基于内容的检索方法
相结合。尽管很多基于较小的数据规模
（数十G）网页数据的实验并不能证明链接
分析算法能够提高检索的性能。但是，很
多人都相信，链接分析方法能够反映WEB
社会的一些最自然的属性，应该能够在大
规模真实环境下提高检索结果。Google的
使用成功也增强了大家的信心砝码。

PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是：
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即，每个页面的PageRank (Pr)是无意中直
接浏览到的概率和从上一页中继续访问的概率总
和。其中，T是节点（页面）总数，C(t)是从页面
t指出的超链接总数，d称为阻尼因子（damping
factor），一般取值为0.85。概率Pr(t)反映了节
点t的重要程度。
(4) 点击率方法

“鼠标投票”
代表：Direct Hit
(5) 分类和聚类



分类：将一篇文章／文本自动的识别出来，
按照先验的类别进行匹配，确定。
聚类：将一组的文章／文本／信息进行相
识性的比较，将比较相识的文章／文本／
信息归为同一组的技术。
模糊聚类：没有先验的聚类因子，完全按
照算法来进行识别和类大小，类的多少，
类的误差等都是不确定因素。
相关性判断方法的缺点分析


标引停留在字符层次
苹果？
不能区分同形异义词
公车？

不能联想
• 自行车单车脚踏车…
相关性研究的热点




基于内容的理解
联想功能及语义处理
相关反馈技术
提供信息导引功能
2.1.3 信息检索的效果评价

评价指标体系
• 查全率
• 查准率
• 漏检率
• 误检率
评价指标体系

查全率（检全率）
检出相关文献量
检全率 
100%
系统中相关文献总量

查准率（检准率）
检出相关文献量
检准率 
100%
检出文献总量
评价指标体系

漏检率
漏检相关文献量
漏检率 
100%
系统中相关文献总量

误检率
误检文献量
误检率 
100%
检出文献总量
影响检索效果的主要因素

存储检索

信息系统组织结构、检索系统功能问题

检索策略、检索方法问题
提高检索效果的措施

熟悉各种信息检索系统特征

认真分析课题需求

灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价





索引数据库
信息组织管理评价指标
信息检索功能评价指标
检索结果评价指标
检索界面的评价指标
2.2 信息检索系统和工具


类型




手工检索系统
穿孔卡片检索系统
缩微检索系统
光盘检索系统
计算机信息检索系统
网络信息检索系统
2.2.2 印刷型检索工具的类型和结构

文献检索工具
• 目录

题录索引文摘
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集
标引处理
词汇管理
工具
提问处理/
检索匹配
创建数据库
DB
数据库生成
用户接口
DB
DB
数据库查询
2.2.3 计算机检索系统的结构及工作
原理





联机
光盘
网络
物理结构
逻辑结构
(1)
(2)
(3)
(4)
(5)
(6)
信息选择与采集子系统
标引处理子系统
建库子系统
词表管理子系统
用户接口子系统
提问处理 / 检索匹配子系统
（1）信息选择与采集子系统
● 要求
快速、经济、广泛、连续
●功能
信息选择与采集子系统将决定信息检索系统中
数据库的类型及收录范围，是信息检索与利用
的起点。
●工作方式
对通常的计算机化检索系统来说，信息选择
与采集主要由人工完成，但对于网络信息检索
系统来说，则主要通过网络搜索机器人Robot
自动进行，并且可以定期更新。
（2）标引处理子系统
● 功能
标引（indexing）是指对文献主题特征进行分析并
使之显性化，以便为存储和检索这两个环节提供某种
连接的文献加工操作。标引处理子系统将决定着数据
库的标引深度（或网罗度）和检索点，并直接影响到
系统的检索方式和检索功能。
● 标引处理的类型
—— 人工赋词标引
—— 机器标引
—— 无标引（或全标引）
●标引要求
不漏标——全面
不错标——准确
不滥标——简练
（3）建库子系统
主要作业内容包括：
● 数据录入
● 错误检查与处理
● 数据格式转换
在程序控制下自动完成。例如，支持联机
检索的数据库一般要在主文档基础上再产生出
主文档索引、倒排文档和词典文档。
● 文档更新维护
由程序控制，定期进行更新或上载数据。
（4）词表管理子系统
在文本信息检索系统，各种词表系统（如主题词表、后
控词表等）通常作为一个重要成分而存在，词表中的
词汇可以在用户检索信息时实现对检索效果的有效控
制。词汇管理子系统有时也可独立存在。
● 功能：
管理维护系统中已有词表的结构、词汇，使它与标
引、建库、检索等多个子系统相连接；支持用户的各
种词汇查询操作；输出各种形式的词汇数据或词表产
品等。
● 类型：
主题词表（Thesaurus）（受控词汇检索系统）
后控词表（post-controlled vocabulary）（自
然语言检索系统）
（5）用户接口子系统
● 功能：
用于人机交互，承担用户与系统之间的通讯任务。
● 界面风格（5种）
——命令/指令语言（command language）
——菜单选择（menu selection）
——表格填充（form fill-in）
——直接操纵（direct manipulation）
——自然语言（natural language）
● 接口技术（2种）：
——字符用户界面（CUI------Character User
Interface）
——图形用户界面（GUI------Graphic User
Interface）
WIMP（Window、Icon、
Menu、Pointing device）
（6）提问处理 / 检索匹配子系统
（技术核心）
● 功能：
负责处理用户输入的检索词或提问式，并将它们与数据库
中存储的数据进行匹配运算，然后把运算结果返回给用户。
●主要操作流程：
——接收用户提问
——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工
对源提问式进行解释性或编译性的加工，以便机器处
理。常用的加工方法有：表展开法，逆波兰法，准波兰法，
范式法等。
——检索匹配
将提问式与数据库记录进行匹配（精确匹配或局部匹配）。
联机检索系统的工作原理

联机数据库
• 存取号基本索引字段辅助索引字段

文档组织
• 顺排文档倒排文档

检索流程
光盘检索系统的结构及工作原理

P43
网络检索系统的结构及工作原理



一般结构：
自动索引程序
数据库
检索代理软件
工作原理
2.3 信息检索模型
模型
信息检索系统的形式化表示
布尔检索模型
向量空间模型
概率检索模型
其他信息检索模型
信息检索的基本原理
信息
集合
特征化
表示
特征化
表示
需求
集合
匹配与选择
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型？



模型是采用数学工具，对现实世界某种事物或某
种运动的抽象描述
面对相同的输入，模型的输出应该能够无限地逼
近现实世界的输出，
例如：天气的预测模型
模型和实现的区别：一个模型可以用多种方法实
现，
例如，布尔模型可以倒排文档（inverted file）
实现，也可以用B-tree实现。
信息检索的数学模型：运用数学的语言和工
具，对IR中的信息及其处理过程加以翻译
和抽象，表达为某种数学公式。
信息检索模型决定于：
 从什么样的视角去看待查询式和文档
 基于什么样的理论去看待查询式和文档的
关系
 如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常，可以把一个信息检索系统形式化地描述为一个
四元组： System=（D，T，Q， ρ)
其中：
D={ d1，d2， d3…… dn }，表示系统中经过标引
的或直接采集的文献集合；n为数据库容量（n≥0）
T={ t1，t2，t3……tm }，表示系统所有可能存在的
可检项的集合；
Q={ q1，q2，q3……qk }，表示所有提问的集合；
ρ: Q×D→R， ρ称为映射函数或匹配函数， Q×D是
提问集合Q与文献集合D的笛卡尔乘积，R为函数值的
集合。
信息检索经典模型
1 布尔模型（1950s末）
布尔逻辑＋集合论
◆ 扩展布尔模型（统一模型）（1980s初）
2 向量空间模型
（VSM——Vector Space Model）
◆ 模糊模型
3 概率模型（1980s末）
1 布尔模型

基于特征项的严格匹配模型。首先建立一
个二值变量的集合，如果文本中出现了对
应的特征项，则变量取“True”, 否则取
“False”。查询由特征项和逻辑运算符
（“AND”、“OR”、“NOT”）组成。文本
查询的匹配规则遵循布尔运算的法则。
在六、七十年代的许多商用检索系统
DIALOG、STAIRS、MEDLARS 就是基于
布尔模型。

文档表示

查询式表示
布尔模型
• 一个文档被表示为关键词的集合
• 查询式(Queries)被表示为关键词的布尔组合，用“与
或非”连接起来，并用括弧指示优先次序

匹配
• 一个文档当且仅当它能够满足布尔查询式时，才将其
检索出来

不同的系统可以使用:
• 不同的去除停用词(stopword removal)策略和
stemming策略
• 索引中不同类型的辅助信息
• 不同的实现方法
布尔模型的特点


主要优点：简单、易于理解，能处理结构
化提问，易于表示同义关系（如：电脑OR
计算机）和词组（数据 AND 挖掘 AND 系
统）；速度快。
缺点：不能表示特征项对文本的重要性
（词加权）；缺乏定量分析（检索结果评
价）和灵活性以及不能表述模糊匹配。


Classical Boolean的最大缺点：只有0和1，
没有ranking。要么返回大量结果，要么没
有结果。
布尔模型被认为是功能最弱的方式，其主
要问题在于不支持部分匹配，而完全匹配
会导致太多或者太少的结果文档被返回
Classical Boolean另一缺点：太僵化，在
OR方式中，包含很多查询词的文档和包含
少数词的文档是等同的；在AND方式中，
即使缺少一个词，结果也是FALSE，等于
一个词也没有

非常刚性: “与”意味着全部; “或”意味着任何一
个
• 如果“我想要n个词中m个词同时出现的文档”，怎么
表示？
• 不可能企望用户自己规定m值
• 系统可以从m=n开始，然后逐渐减少m，但很麻烦




很难表示用户复杂的需求
很难控制被检索的文档数量
原则上讲，所有被匹配的文档都将被返回
很难对输出进行排序
不考虑索引词的权重，所有文档都以相同的方式
和查询相匹配
很难进行自动的相关反馈
如果一篇文档被用户确认为相关或者不相关，怎
样相应地修改查询式呢？
扩展布尔模型
extended boolean



加权布尔检索
以布尔算符的一种近似解释系统为基础
在各种扩展中，p-norm模型的运行结果是
最符合实际的
P-norm 模型
 n
p 
p
  ((1  Wdi ) Wqi ) 

sim AND (d , (t1 ,Wq1 ) AND...AND(t n ,Wqn ))  1   i 1 n


p
Wqi



i 1


 n
p
p 
  (Wdi Wqi ) 

simOR (d , (t1 ,Wq1 )OR...OR(t n ,Wqn ))   i 1 n


p
  Wqi

 i 1

1 p  
1
p
1
p
P-norm 模型：参数讨论





P=infinity时，等同于classical boolean模型
P较低时（如在[2,5]内），and方式中一个权值
低的词会使总体值大大降低，or方式中一个权值
高的值会使总体值大大提高
P=1时，变成vector space model，and和or
方式实际上相同，公式变为cosine similarity。
P-norm可以得到更大的灵活性。用户可以指定
某个子表达式的P值，例如一个较大的值表示对它
要求比较严格。
P-norm是对boolean模型和vector模型的一个
理论上的高度概括。
扩展布尔模型的应用情况



在商用系统Topic中支持扩展布尔模型
扩展布尔模型可以取得比传统布尔模型和
向量空间模型更好的结果
使用这种模型的代价是需要更多的知识
2 向量空间模型（VSM）

向量空间模型(Vector Space Model) 由
Salton等人于20世纪60年代末提出，是一
种简便、高效的文本表示模型，其理论基
础是代数学。
G. Salton等人领导和研制的试验性系统
SMART。
SMART 是由Cornell University 的Gerard
Salton 开发的，是最早的文本检索系统之一。
 它具有以下特点：
（1）自动建立索引；
（2）自动生成聚类层次计算聚类中心；
（3）进行查询/文档相似度计算并且根据文档与查
询的相似程度对文档排序；
（4）将文档以基于词汇的向量空间表示；
（5）根据用户反馈自动提高对查询的处理。


与布尔模型不同，向量空间模型把用户的
查询要求和数据库文档信息表示成由检索
项构成的向量空间中的点（向量），而通
过计算向量之间的距离来判定文档和查询
之间的相似程度（例如，用它们之间夹角
的余弦作为相似性度量）。然后，根据相
似程度排列查询结果。


在向量空间模型中，首先要建立文本和用
户查询的向量，然后进行查询向量和文本
向量的相似性计算。并可以在匹配结果的
基础上进行相关反馈，优化用户的查询。
向量空间模型的关键在于特征向量的选取
和特征向量的权值计算两个部分。
相似度计算


相似度是一个函数，它给出两个向量之间的相似程度
查询式和文档都是向量，各类相似度存在于：
• 两个文档之间
• 两个查询式之间
• 一个查询式和一个文档之间
人们曾提出大量的相似度计算方法，因为最佳的相似度计
算方法并不存在。
通过计算查询式和文档之间的相似度，可以：
• 可以根据预定的重要程度对检索出来的文档进行排序
• 通过强制设定某个阈值，控制被检索出来的文档的数量
• 检索结果可以被用于相关反馈中，以便对原始的查询式进行修正。
(例如：将文档向量和查询式向量进行结合)


用向量空间模型计算向量距离时，一般采用向量
的夹角余弦来表示，两个文档之间相同的词越多
且这些词的权重越高，则其距离越近。
计算权重的目的是要正确突出每个索引项在文章
中的重要程度，一般来讲，某个词在某文本中经
常出现且在其他文本中不常出现，就说明该词对
该文本或该类文本更具有代表性，应具有更高的
权重。另一方面，如果一个索引项在很多文档中
都出现，那么这个索引项则不能很好地代表某一
类文档，其权重应较小。
向量空间模型及其基本原理
（1）文献向量和文献矩阵的构造
（2）提问向量的构造
（3）提问与文献的匹配函数
（4）相似度阈值的确定
对向量空间模型的评价与分析
◆ 优越性（相对于布尔模型）
—— VSM只是提供了一个理论框架，具有
广泛的适应性；
—— 采用部分匹配策略；
—— 检索不是以倒排档技术为基础，而是
基于聚类文档；
—— 检索结果可以采用排序输出方式。
将文本和查询简化为特征项及权值集合的向
量表示，从而把检索操作变成向量空间上的向
量运算。向量的权重可以通过简单的统计来完
成，即通过定量的分析对查询和文本进行匹配。



该模型的权重计算方法能够提高系统的检
索性能；
模型中使用的部分匹配方法能检索出与用
户的查询输入条件“近似”的文档;
在模型中用余弦方法进行距离度量，因此
可以根据检索出的结果与查询条件的相关
程度对结果进行排序。
对向量空间模型的评价与分析（续）
◆ 缺陷与不足
—— 相似度计算量巨大；
—— 对可检项两两正交的假设不切合实际。

这一模型的基本假设是特征项之间无关（索引项
是不相关的un-correlated (或者说是正交的
orthogonal) ，形成一个向量空间（vector
space），但很明显在自然语言中，词或短语之
间存在着十分密切的联系，所以这一假设对计算
结果的可靠性造成一定的影响。
计算机科学文档集
实际上，这些词项是相互关联的
当你在一个文档中看到“计算机”, 非常有可
能同时看到“科学”
当你在一个文档中看到“计算机”, 有中等的
可能性同时看到“商务”
当你在一个文档中看到“商务”，只有很少
的机会同时看到“科学”


在该模型中有一个假定：所有的索引项之
间是相互独立的。在权重计算公式中就没
有考虑索引项之间的相互关系，但人们发
现，在实践中，这些检索项的相互依赖性
对系统的性能将造成影响。因为在某些文
档中，很多索引项都是相互依赖的，如果
将它们不加选择地应用于语料库所有的文
档中，必将损害系统的性能。
向量空间模型在文本信息处理中的应用：
向量空间模型对信息检索具有非常重要的理论贡献。自1960s末
期至今30余年的时间里，VSM获得了广泛的应用，并一直主导着
文本信息处理领域的研究。VSM的价值在于将非结构化的文本信
息表示为向量，这使得随后的各种数学处理成为可能。目前，
VSM在以下文本信息处理分支领域均有重要应用，并取得了良好
的效果：
◆ 文本检索（Text Retrieval）
◆ 文本分类（Text
Categorization/Classification）
◆ 文本挖掘（Text Mining）
◆ 文本过滤（Text Filtering）
◆ 文本可视化（Text Visualization）
向量空间模型的发展：Latent
Semantic Indexing(LSI)




中心思想：解决一词多义和同义词问题，尽力挖
掘语义信息。
用concept（or feature）代替term
输入：term-by-document matrix
输出：
• T: concept-by-term matrix
• D: concept-by-document matrix
• S: elements assign weights to concepts

实质上起到了查询扩展的作用
------概率模型

信息检索系统与其他类型信息系统的主要区别在
于信息检索系统内在的不确定性。对一个数据库
系统来说，要查询的信息总是（至少对标准的应
用来说）能被精确地映射到系统的查询格式上，
而且数据库中的哪些元素能够构成答案也能被精
确定义。而信息检索系统中的情况显然不同，所
需要查询的信息既不能被精确地表示，也没有一
个清晰的过程来判别一个数据对象是否就是所需
要的。处理非确定性最成功的方法就是概率模型
(Probabilistic Model)。目前研究者已经提出了
很多不同的概率检索模型，不过所有概率模型都
存在着一般性的问题，即参数估计、查询扩展和
文档、查询的表示等。
概率模型

主要针对信息检索中相关性判断的不确定
性以及查询信息表示的模糊性。它主要是
基于概率排序原则：对于给定的用户查询Q，
对所有的文本D 计算概率P(R|D,Q)并从大
到小进行排序。其中R 表示文本D 与查询
Q 的相关性。文本D 可以表示为
D=(d1,d2,…,dN)，N 为特征个数，di=1
表示特征项i 在文本中出现；di=0 表示特
征项i 在文本中不出现（文本的布尔表示）。
贝叶斯定理


贝叶斯定理是计算概率的一种方法，即认
为一个事件会不会发生取决于该事件在先
验分布中已经发生过的次数。
贝叶斯定理指出，对于事件X和Y，已知Y的
概率时X发生的概率（用p{X|Y}表示）等
于已知X的概率时Y发生的概率（用p{Y|X}
表示）乘以X的概率（p{X}）再除以Y的概
率（p{Y}）。
贝叶斯定理的公式表述：

p{X|Y}=p{X}×p{Y|X}/p{Y}
这个原理的
大致意思：
某件事情发
生的概率大
致可以由它
过去发生的
频率近似地
估计出来。
基因研究、过滤
电子邮件…


Thomas Bayes，一位伟大的数学大师，
他的理论照亮了今天的计算领域，和他的
同事们不同：他认为上帝的存在可以通过
方程式证明，他最重要的作品被别人发行，
而他已经去世241年了。
18世纪牧师们关于概率的理论成为应用发
展的数学基础的一部分。
如果一枚硬币被连续抛100次，
每次都是正面朝上，那么，抛
第101次时，正面朝上的概率
是多少？


传统统计学观点的推论是：50%。
而贝叶斯概率论则认为：100次连续正
面朝上，证明该硬币不均衡或两面均为
正面，所以抛第101次时正面朝上的概
率会大大高于50%。
近几年中，在这三种基本模型的基础上还发展出
了许多新的模型方法，主要可分为以下三类：
 基于集合理论(set theoretic)的检索模型，如模
糊(fuzzy)集合方法和扩展布尔(extended
boolean)模型;
 基于代数学理论(algebraic)的模型，如生成向量
(generalized vector)模型、隐含语义索引
(latent semantic index)和神经网络(neural
networks)模型；
 基于概率论的检索模型，如推理网络(inference
network)和信任网络(belief network)模型。
IR模
型的
分类
体系
结构
图
提高系统相关性的技术





中文分词技术
动态分类
综合搜索
内容过滤
人工干预
用户相关性

文档与用户需求的一致性

即时性、个性化

改进：
• 对检索工具的了解；
• 查询表达式的构造
• 多元搜索
相关性研究的热点——系统相关性




基于内容的理解（多媒体）
联想及消岐
相关反馈技术
信息导引
IIR的研究难点


知识的获取和表示，多义词的含义，用户
真正的信息需求
自然语言处理技术
◆ 文本分类的基本处理流程
文本分类的基本处理流程主要包括以下5个环节：
（1）获取训练文本文档集合
训练文本选择是否合适对文本分类器的性能有较大影响。目前，训练文
档集大都是经人工分类的文本语料库。
（2）建立文本文档表示模型
即选择什么样的属性来表示文本文档。
（3）文档属性选择或特征提取
文档属性选择或特征提取的标准是：保留或选择尽可能少但和文本文档
类别概念密切相关的文档属性。
（4）选择分类模型
这是文本分类的一个核心问题，涉及到用什么样的方法建立从文本属性/
特征到文本类别的映射关系。
（5）确定性能评估模型/指标
性能评估模型/指标一方面可用于对分类系统的性能或分类结果进行评
价，另一方面也可以作为改进和完善非类系统的目标函数。
◆ 文本挖掘与文本检索的区别
可以从以下3个方面进行比较：
（1）方法论的不同
检索是目标驱动的，用户需要明确提出查询要求；而挖掘是机会主义，
其结果独立于用户的信息需求，也是用户所无法预知的。
（2）侧重点的不同
检索着重于文档中显式存储的字词和链接，其目的在于帮助用户发现
资源；而挖掘则试图更多地理解其内容，其目的是为了揭示文档中隐含的
知识。
（3）评价方法的不同
检索一般使用查全率（R）和查准率（P）来评价其效果，要求返回尽
可能多的相关文档，同时不相关的文档尽可能的少；而挖掘则是采用收益
（gain）、置信度（certainty）、简洁性（simplicity）等来衡量所发现
知识
的有效性、可用性和可理解性。
2.3.2 结构化文本检索模型
课本52页


基于非重叠链表
基于邻接节点
2.3.3 浏览模型

交互式检索模型
平坦浏览模型
结构向导浏览模型
超文本浏览模型

2 信息检索基础理论

Transcript 2 信息检索基础理论

Directory