2 信息检索基础理论

Download Report

Transcript 2 信息检索基础理论

2 信息检索基础理论
山东师范大学管理与经济学院
本章要点
信息检索的主要数学模型
检索系统/工具的结构及工作原理
查全率
检索系统的评价
信息检索的相关性问题
信息检索的基本原理
查准率
2.1 信息检索的基本原理


通过对大量的、分散无序的文献信息进行搜集、
加工、组织、存储,建立各种各样的检索系统,
并通过一定的方法和手段使存储与检索这两个
过程所采用的特征标识达到一致,以便有效地
获得和利用信息源。
存储是为了检索,检索又必须先进行存储。
信息检索的基本原理
信息
集合
特征化
表示
特征化
表示
需求
集合
匹配与选择
课本P22-23,图2-1
计算机信息
检索原理
示意图
2.1.2 信息检索的相关性问题


定义:检索结果与用户需求一致性程度
影响因素:
• 用户信息需求的表达
• 相关度判断的算法
• 用户的主观判断

手检相关性、机检相关性

“相关性”(relevance),是指信息检索系
统针对用户的查询(query)从文档集中检出
的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象,从严格
意义上讲,文档与查询之间不再是数据库检索
中的那种简单的匹配关系。但“匹配”这一术
语一直在使用,这里也接受这种说法。
手检相关性

依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行
为、认知能力

提高手检相关性的方法:
• 分析概念及学科属性;对检索工具的了解
• 调整检索策略
机检相关性

系统相关性
• (1)
• (2)
• (3)
• (4)
• (5)

词频方法
位置方法
引用率方法
点击率方法
分类或聚类
用户相关性
(1) 基于词频统计的相关性



当用户输入检索词时,搜索引擎去找那些检索词
在文章(网页)中出现频率较高的,位置较重要
的,再加上一些对检索词本身常用程度的加权,
最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的,
如Infoseek,Excite,Lycos等,它们基本上是
沿用了网络时代之前学术界的研究成果,工业界
的主要精力放在处理大访问量和大数据量上,对
相关性排序没有突破。
词频统计其实根本没有利用任何跟网络有关的特
性,是前网络时代的技术。
(2) 位置方法

据关键词在文中出现的位置来判定文件的
相关性。认为关键词出现得越靠前,文件
的相关程度就越高。
(3) 引用率方法


科学引文分析
超链分析
百度
Google
PangRank算法

WEB中各页面之间的链接关系是一项可以利用的
重要信息。基于这种信息的技术被称为链接分析
技术。绝大部分链接分析算法都有共同的出发点:
更多地被其他页面链接的页面是质量更好的页面,
并且从更重要的页面出发的链接有更大的权重。
这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出
并应用到Google搜索引擎中的PageRank算法以
及IBM用于CLEVER搜索引擎的HITS算法。

HITS是IBM Almaden研究中心开发的另一种链
接分析算法。它认为每个WEB页面都有被指向、
作为权威(Authority)和指向其他页面作为资源
中心(Hub)的两方面属性,其取值分别用A(p)
和H(p)表示。A(p)值为所有指向p的页面q的中
心权重H(q)之和,同样,页面p的中心权重
H(p)值是所有p所指向的页面q的权威权重A(q)
之和,如下式:
A(p)=∑H(qi) (其中qi是所有链接到p的页面)
H(p)=∑A(qi)(其中qi是所有页面p所链接到的
页面)

链接分析方法常常和基于内容的检索方法
相结合。尽管很多基于较小的数据规模
(数十G)网页数据的实验并不能证明链接
分析算法能够提高检索的性能。但是,很
多人都相信,链接分析方法能够反映WEB
社会的一些最自然的属性,应该能够在大
规模真实环境下提高检索结果。Google的
使用成功也增强了大家的信心砝码。

PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直
接浏览到的概率和从上一页中继续访问的概率总
和。其中,T是节点(页面)总数,C(t)是从页面
t指出的超链接总数,d称为阻尼因子(damping
factor),一般取值为0.85。概率Pr(t)反映了节
点t的重要程度。
(4) 点击率方法

“鼠标投票”
代表:Direct Hit
(5) 分类和聚类



分类:将一篇文章/文本自动的识别出来,
按照先验的类别进行匹配,确定。
聚类:将一组的文章/文本/信息进行相
识性的比较,将比较相识的文章/文本/
信息归为同一组的技术。
模糊聚类:没有先验的聚类因子,完全按
照算法来进行识别和类大小,类的多少,
类的误差等都是不确定因素。
相关性判断方法的缺点分析


标引停留在字符层次
苹果?
不能区分同形异义词
公车?

不能联想
• 自行车 单车 脚踏车…
相关性研究的热点




基于内容的理解
联想功能及语义处理
相关反馈技术
提供信息导引功能
2.1.3 信息检索的效果评价

评价指标体系
• 查全率
• 查准率
• 漏检率
• 误检率
评价指标体系

查全率(检全率)
检出相关文献量
检全率 
100%
系统中相关文献总量

查准率(检准率)
检出相关文献量
检准率 
100%
检出文献总量
评价指标体系

漏检率
漏检相关文献量
漏检率 
100%
系统中相关文献总量

误检率
误检文献量
误检率 
100%
检出文献总量
影响检索效果的主要因素

存储 检索

信息系统组织结构、检索系统功能问题

检索策略、检索方法问题
提高检索效果的措施

熟悉各种信息检索系统特征

认真分析课题需求

灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价





索引数据库
信息组织管理评价指标
信息检索功能评价指标
检索结果评价指标
检索界面的评价指标
2.2 信息检索系统和工具


类型




手工检索系统
穿孔卡片检索系统
缩微检索系统
光盘检索系统
计算机信息检索系统
网络信息检索系统
2.2.2 印刷型检索工具的类型和结构

文献检索工具
• 目录

题录 索引 文摘
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集
标引处理
词汇管理
工具
提问处理/
检索匹配
创建数据库
DB
数据库生成
用户接口
DB
DB
数据库查询
2.2.3 计算机检索系统的结构及工作
原理





联机
光盘
网络
物理结构
逻辑结构
(1)
(2)
(3)
(4)
(5)
(6)
信息选择与采集子系统
标引处理子系统
建库子系统
词表管理子系统
用户接口子系统
提问处理 / 检索匹配子系统
(1)信息选择与采集子系统
● 要求
快速、经济、广泛、连续
●功能
信息选择与采集子系统将决定信息检索系统中
数据库的类型及收录范围,是信息检索与利用
的起点。
●工作方式
对通常的计算机化检索系统来说,信息选择
与采集主要由人工完成,但对于网络信息检索
系统来说,则主要通过网络搜索机器人Robot
自动进行,并且可以定期更新。
(2)标引处理子系统
● 功能
标引(indexing)是指对文献主题特征进行分析并
使之显性化,以便为存储和检索这两个环节提供某种
连接的文献加工操作。标引处理子系统将决定着数据
库的标引深度(或网罗度)和检索点,并直接影响到
系统的检索方式和检索功能。
● 标引处理的类型
—— 人工赋词标引
—— 机器标引
—— 无标引(或全标引)
●标引要求
不漏标——全面
不错标——准确
不滥标——简练
(3)建库子系统
主要作业内容包括:
● 数据录入
● 错误检查与处理
● 数据格式转换
在程序控制下自动完成。例如,支持联机
检索的数据库一般要在主文档基础上再产生出
主文档索引、倒排文档和词典文档。
● 文档更新维护
由程序控制,定期进行更新或上载数据。
(4)词表管理子系统
在文本信息检索系统,各种词表系统(如主题词表、后
控词表等)通常作为一个重要成分而存在,词表中的
词汇可以在用户检索信息时实现对检索效果的有效控
制。词汇管理子系统有时也可独立存在。
● 功能:
管理维护系统中已有词表的结构、词汇,使它与标
引、建库、检索等多个子系统相连接;支持用户的各
种词汇查询操作;输出各种形式的词汇数据或词表产
品等。
● 类型:
主题词表(Thesaurus)(受控词汇检索系统)
后控词表(post-controlled vocabulary)(自
然语言检索系统)
(5)用户接口子系统
● 功能:
用于人机交互,承担用户与系统之间的通讯任务。
● 界面风格(5种)
——命令/指令语言(command language)
——菜单选择(menu selection)
——表格填充(form fill-in)
——直接操纵(direct manipulation)
——自然语言(natural language)
● 接口技术(2种):
——字符用户界面(CUI------Character User
Interface)
——图形用户界面(GUI------Graphic User
Interface)
WIMP(Window、Icon、
Menu、Pointing device)
(6)提问处理 / 检索匹配子系统
(技术核心)
● 功能:
负责处理用户输入的检索词或提问式,并将它们与数据库
中存储的数据进行匹配运算,然后把运算结果返回给用户。
●主要操作流程:
——接收用户提问
——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工
对源提问式进行解释性或编译性的加工,以便机器处
理。常用的加工方法有:表展开法,逆波兰法,准波兰法,
范式法等。
——检索匹配
将提问式与数据库记录进行匹配(精确匹配或局部匹配)。
联机检索系统的工作原理

联机数据库
• 存取号 基本索引字段 辅助索引字段

文档组织
• 顺排文档 倒排文档

检索流程
光盘检索系统的结构及工作原理

P43
网络检索系统的结构及工作原理



一般结构:
自动索引程序
数据库
检索代理软件
工作原理
2.3 信息检索模型
模型
信息检索系统的形式化表示
布尔检索模型
向量空间模型
概率检索模型
其他信息检索模型
信息检索的基本原理
信息
集合
特征化
表示
特征化
表示
需求
集合
匹配与选择
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型?



模型是采用数学工具,对现实世界某种事物或某
种运动的抽象描述
面对相同的输入,模型的输出应该能够无限地逼
近现实世界的输出,
例如:天气的预测模型
模型和实现的区别:一个模型可以用多种方法实
现,
例如,布尔模型可以倒排文档(inverted file)
实现,也可以用B-tree实现。
信息检索的数学模型:运用数学的语言和工
具,对IR中的信息及其处理过程加以翻译
和抽象,表达为某种数学公式。
信息检索模型决定于:
 从什么样的视角去看待查询式和文档
 基于什么样的理论去看待查询式和文档的
关系
 如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常,可以把一个信息检索系统形式化地描述为一个
四元组: System=(D,T,Q, ρ)
其中:
D={ d1,d2, d3…… dn },表示系统中经过标引
的或直接采集的文献集合;n为数据库容量(n≥0)
T={ t1,t2,t3……tm },表示系统所有可能存在的
可检项的集合;
Q={ q1,q2,q3……qk },表示所有提问的集合;
ρ: Q×D→R, ρ称为映射函数或匹配函数, Q×D是
提问集合Q与文献集合D的笛卡尔乘积,R为函数值的
集合。
信息检索经典模型
1 布尔模型(1950s末)
布尔逻辑+集合论
◆ 扩展布尔模型(统一模型)(1980s初)
2 向量空间模型
(VSM——Vector Space Model)
◆ 模糊模型
3 概率模型(1980s末)
1 布尔模型

基于特征项的严格匹配模型。首先建立一
个二值变量的集合,如果文本中出现了对
应的特征项,则变量取“True”, 否则取
“False”。查询由特征项和逻辑运算符
(“AND”、“OR”、“NOT”)组成。文本
查询的匹配规则遵循布尔运算的法则。
在六、七十年代的许多商用检索系统
DIALOG、STAIRS、MEDLARS 就是基于
布尔模型。

文档表示

查询式表示
布尔模型
• 一个文档被表示为关键词的集合
• 查询式(Queries)被表示为关键词的布尔组合,用“与
或非”连接起来,并用括弧指示优先次序

匹配
• 一个文档当且仅当它能够满足布尔查询式时,才将其
检索出来

不同的系统可以使用:
• 不同的去除停用词(stopword removal)策略和
stemming策略
• 索引中不同类型的辅助信息
• 不同的实现方法
布尔模型的特点


主要优点:简单、易于理解,能处理结构
化提问,易于表示同义关系(如:电脑OR
计算机)和词组(数据 AND 挖掘 AND 系
统);速度快。
缺点:不能表示特征项对文本的重要性
(词加权);缺乏定量分析(检索结果评
价)和灵活性以及不能表述模糊匹配。


Classical Boolean的最大缺点:只有0和1,
没有ranking。要么返回大量结果,要么没
有结果。
布尔模型被认为是功能最弱的方式,其主
要问题在于不支持部分匹配,而完全匹配
会导致太多或者太少的结果文档被返回
Classical Boolean另一缺点:太僵化,在
OR方式中,包含很多查询词的文档和包含
少数词的文档是等同的;在AND方式中,
即使缺少一个词,结果也是FALSE,等于
一个词也没有

非常刚性: “与”意味着全部; “或”意味着任何一
个
• 如果“我想要n个词中m个词同时出现的文档”,怎么
表示?
• 不可能企望用户自己规定m值
• 系统可以从m=n开始,然后逐渐减少m,但很麻烦




很难表示用户复杂的需求
很难控制被检索的文档数量
原则上讲,所有被匹配的文档都将被返回
很难对输出进行排序
不考虑索引词的权重,所有文档都以相同的方式
和查询相匹配
很难进行自动的相关反馈
如果一篇文档被用户确认为相关或者不相关,怎
样相应地修改查询式呢?
扩展布尔模型
extended boolean



加权布尔检索
以布尔算符的一种近似解释系统为基础
在各种扩展中,p-norm模型的运行结果是
最符合实际的
P-norm 模型
 n
p 
p
  ((1  Wdi ) Wqi ) 

sim AND (d , (t1 ,Wq1 ) AND...AND(t n ,Wqn ))  1   i 1 n


p
Wqi



i 1


 n
p
p 
  (Wdi Wqi ) 

simOR (d , (t1 ,Wq1 )OR...OR(t n ,Wqn ))   i 1 n


p
  Wqi

 i 1

1 p  
1
p
1
p
P-norm 模型:参数讨论





P=infinity时,等同于classical boolean模型
P较低时(如在[2,5]内),and方式中一个权值
低的词会使总体值大大降低,or方式中一个权值
高的值会使总体值大大提高
P=1时,变成vector space model,and和or
方式实际上相同,公式变为cosine similarity。
P-norm可以得到更大的灵活性。用户可以指定
某个子表达式的P值,例如一个较大的值表示对它
要求比较严格。
P-norm是对boolean模型和vector模型的一个
理论上的高度概括。
扩展布尔模型的应用情况



在商用系统Topic中支持扩展布尔模型
扩展布尔模型可以取得比传统布尔模型和
向量空间模型更好的结果
使用这种模型的代价是需要更多的知识
2 向量空间模型(VSM)

向量空间模型(Vector Space Model) 由
Salton等人于20世纪60年代末提出,是一
种简便、高效的文本表示模型,其理论基
础是代数学。
G. Salton等人领导和研制的试验性系统
SMART。
SMART 是由Cornell University 的Gerard
Salton 开发的,是最早的文本检索系统之一。
 它具有以下特点:
(1)自动建立索引;
(2)自动生成聚类层次计算聚类中心;
(3)进行查询/文档相似度计算并且根据文档与查
询的相似程度对文档排序;
(4)将文档以基于词汇的向量空间表示;
(5)根据用户反馈自动提高对查询的处理。


与布尔模型不同,向量空间模型把用户的
查询要求和数据库文档信息表示成由检索
项构成的向量空间中的点(向量),而通
过计算向量之间的距离来判定文档和查询
之间的相似程度(例如,用它们之间夹角
的余弦作为相似性度量)。然后,根据相
似程度排列查询结果。


在向量空间模型中,首先要建立文本和用
户查询的向量,然后进行查询向量和文本
向量的相似性计算。并可以在匹配结果的
基础上进行相关反馈,优化用户的查询。
向量空间模型的关键在于特征向量的选取
和特征向量的权值计算两个部分。
相似度计算


相似度是一个函数,它给出两个向量之间的相似程度
查询式和文档都是向量,各类相似度存在于:
• 两个文档之间
• 两个查询式之间
• 一个查询式和一个文档之间
人们曾提出大量的相似度计算方法,因为最佳的相似度计
算方法并不存在。
通过计算查询式和文档之间的相似度,可以:
• 可以根据预定的重要程度对检索出来的文档进行排序
• 通过强制设定某个阈值,控制被检索出来的文档的数量
• 检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。
(例如:将文档向量和查询式向量进行结合)


用向量空间模型计算向量距离时,一般采用向量
的夹角余弦来表示,两个文档之间相同的词越多
且这些词的权重越高,则其距离越近。
计算权重的目的是要正确突出每个索引项在文章
中的重要程度,一般来讲,某个词在某文本中经
常出现且在其他文本中不常出现,就说明该词对
该文本或该类文本更具有代表性,应具有更高的
权重。另一方面,如果一个索引项在很多文档中
都出现,那么这个索引项则不能很好地代表某一
类文档,其权重应较小。
向量空间模型及其基本原理
(1)文献向量和文献矩阵的构造
(2)提问向量的构造
(3)提问与文献的匹配函数
(4)相似度阈值的确定
对向量空间模型的评价与分析
◆ 优越性(相对于布尔模型)
—— VSM只是提供了一个理论框架,具有
广泛的适应性;
—— 采用部分匹配策略;
—— 检索不是以倒排档技术为基础,而是
基于聚类文档;
—— 检索结果可以采用排序输出方式。
将文本和查询简化为特征项及权值集合的向
量表示,从而把检索操作变成向量空间上的向
量运算。向量的权重可以通过简单的统计来完
成,即通过定量的分析对查询和文本进行匹配。



该模型的权重计算方法能够提高系统的检
索性能;
模型中使用的部分匹配方法能检索出与用
户的查询输入条件“近似”的文档;
在模型中用余弦方法进行距离度量,因此
可以根据检索出的结果与查询条件的相关
程度对结果进行排序。
对向量空间模型的评价与分析(续)
◆ 缺陷与不足
—— 相似度计算量巨大;
—— 对可检项两两正交的假设不切合实际。

这一模型的基本假设是特征项之间无关(索引项
是不相关的un-correlated (或者说是正交的
orthogonal) ,形成一个向量空间(vector
space),但很明显在自然语言中,词或短语之
间存在着十分密切的联系,所以这一假设对计算
结果的可靠性造成一定的影响。
计算机科学文档集
实际上,这些词项是相互关联的
当你在一个文档中看到“计算机”, 非常有可
能同时看到“科学”
当你在一个文档中看到“计算机”, 有中等的
可能性同时看到“商务”
当你在一个文档中看到“商务”,只有很少
的机会同时看到“科学”


在该模型中有一个假定:所有的索引项之
间是相互独立的。在权重计算公式中就没
有考虑索引项之间的相互关系,但人们发
现,在实践中,这些检索项的相互依赖性
对系统的性能将造成影响。因为在某些文
档中,很多索引项都是相互依赖的,如果
将它们不加选择地应用于语料库所有的文
档中,必将损害系统的性能。
向量空间模型在文本信息处理中的应用:
向量空间模型对信息检索具有非常重要的理论贡献。自1960s末
期至今30余年的时间里,VSM获得了广泛的应用,并一直主导着
文本信息处理领域的研究。VSM的价值在于将非结构化的文本信
息表示为向量,这使得随后的各种数学处理成为可能。目前,
VSM在以下文本信息处理分支领域均有重要应用,并取得了良好
的效果:
◆ 文本检索(Text Retrieval)
◆ 文本分类(Text
Categorization/Classification)
◆ 文本挖掘(Text Mining)
◆ 文本过滤 (Text Filtering)
◆ 文本可视化(Text Visualization)
向量空间模型的发展:Latent
Semantic Indexing(LSI)




中心思想:解决一词多义和同义词问题,尽力挖
掘语义信息。
用concept(or feature)代替term
输入:term-by-document matrix
输出:
• T: concept-by-term matrix
• D: concept-by-document matrix
• S: elements assign weights to concepts

实质上起到了查询扩展的作用
------概率模型

信息检索系统与其他类型信息系统的主要区别在
于信息检索系统内在的不确定性。对一个数据库
系统来说,要查询的信息总是(至少对标准的应
用来说)能被精确地映射到系统的查询格式上,
而且数据库中的哪些元素能够构成答案也能被精
确定义。而信息检索系统中的情况显然不同,所
需要查询的信息既不能被精确地表示,也没有一
个清晰的过程来判别一个数据对象是否就是所需
要的。处理非确定性最成功的方法就是概率模型
(Probabilistic Model)。目前研究者已经提出了
很多不同的概率检索模型,不过所有概率模型都
存在着一般性的问题,即参数估计、查询扩展和
文档、查询的表示等。
概率模型

主要针对信息检索中相关性判断的不确定
性以及查询信息表示的模糊性。它主要是
基于概率排序原则:对于给定的用户查询Q,
对所有的文本D 计算概率P(R|D,Q)并从大
到小进行排序。其中R 表示文本D 与查询
Q 的相关性。文本D 可以表示为
D=(d1,d2,…,dN),N 为特征个数,di=1
表示特征项i 在文本中出现;di=0 表示特
征项i 在文本中不出现(文本的布尔表示)。
贝叶斯定理


贝叶斯定理是计算概率的一种方法,即认
为一个事件会不会发生取决于该事件在先
验分布中已经发生过的次数。
贝叶斯定理指出,对于事件X和Y,已知Y的
概率时X发生的概率(用p{X|Y}表示)等
于已知X的概率时Y发生的概率(用p{Y|X}
表示)乘以X的概率(p{X})再除以Y的概
率(p{Y})。
贝叶斯定理的公式表述:

p{X|Y}=p{X}×p{Y|X}/p{Y}
这个原理的
大致意思:
某件事情发
生的概率大
致可以由它
过去发生的
频率近似地
估计出来。
基因研究、过滤
电子邮件…


Thomas Bayes,一位伟大的数学大师,
他的理论照亮了今天的计算领域,和他的
同事们不同:他认为上帝的存在可以通过
方程式证明,他最重要的作品被别人发行,
而他已经去世241年了。
18世纪牧师们关于概率的理论成为应用发
展的数学基础的一部分。
如果一枚硬币被连续抛100次,
每次都是正面朝上,那么,抛
第101次时,正面朝上的概率
是多少?


传统统计学观点的推论是:50%。
而贝叶斯概率论则认为:100次连续正
面朝上,证明该硬币不均衡或两面均为
正面,所以抛第101次时正面朝上的概
率会大大高于50%。
近几年中,在这三种基本模型的基础上还发展出
了许多新的模型方法,主要可分为以下三类:
 基于集合理论(set theoretic)的检索模型,如模
糊(fuzzy)集合方法和扩展布尔(extended
boolean)模型;
 基于代数学理论(algebraic)的模型,如生成向量
(generalized vector)模型、隐含语义索引
(latent semantic index)和神经网络(neural
networks)模型;
 基于概率论的检索模型,如推理网络(inference
network)和信任网络(belief network)模型。
IR模
型的
分类
体系
结构
图
提高系统相关性的技术





中文分词技术
动态分类
综合搜索
内容过滤
人工干预
用户相关性

文档与用户需求的一致性

即时性、个性化

改进:
• 对检索工具的了解;
• 查询表达式的构造
• 多元搜索
相关性研究的热点——系统相关性




基于内容的理解 (多媒体)
联想及消岐
相关反馈技术
信息导引
IIR的研究难点


知识的获取和表示,多义词的含义,用户
真正的信息需求
自然语言处理技术
◆ 文本分类的基本处理流程
文本分类的基本处理流程主要包括以下5个环节:
(1)获取训练文本文档集合
训练文本选择是否合适对文本分类器的性能有较大影响。目前,训练文
档集大都是经人工分类的文本语料库。
(2)建立文本文档表示模型
即选择什么样的属性来表示文本文档。
(3)文档属性选择或特征提取
文档属性选择或特征提取的标准是:保留或选择尽可能少但和文本文档
类别概念密切相关的文档属性。
(4)选择分类模型
这是文本分类的一个核心问题,涉及到用什么样的方法建立从文本属性/
特征到文本类别的映射关系。
(5)确定性能评估模型/指标
性能评估模型/指标一方面可用于对分类系统的性能或分类结果进行评
价,另一方面也可以作为改进和完善非类系统的目标函数。
◆ 文本挖掘与文本检索的区别
可以从以下3个方面进行比较:
(1)方法论的不同
检索是目标驱动的,用户需要明确提出查询要求;而挖掘是机会主义,
其结果独立于用户的信息需求,也是用户所无法预知的。
(2)侧重点的不同
检索着重于文档中显式存储的字词和链接,其目的在于帮助用户发现
资源;而挖掘则试图更多地理解其内容,其目的是为了揭示文档中隐含的
知识。
(3)评价方法的不同
检索一般使用查全率(R)和查准率(P)来评价其效果,要求返回尽
可能多的相关文档,同时不相关的文档尽可能的少;而挖掘则是采用收益
(gain)、置信度(certainty)、简洁性(simplicity)等来衡量所发现
知识
的有效性、可用性和可理解性。
2.3.2 结构化文本检索模型
课本52页


基于非重叠链表
基于邻接节点
2.3.3 浏览模型

交互式检索模型
平坦浏览模型
结构向导浏览模型
超文本浏览模型