词性标注对信息检索系统 性能的影响
Download
Report
Transcript 词性标注对信息检索系统 性能的影响
TREC简介及
英语词性标注对信息检索
系统性能的影响
2004-12-14
研究背景
TREC
基础知识
VSM
英文词性标注
实验
经验
研究背景
TREC2004
ROBUST任务
信息检索的义项矩阵模型研究
TREC
The Text REtrieval Conference
the National Institute of Standards and Technology
(NIST) and U.S. Department of Defense
TRACKS
DATA SET
评测
SMART11
TRACKS
Cross-Language Track
Filtering Track
Genomics Track
HARD Track
Interactive Track
Novelty Track
Question Answering Track
Robust Retrieval Track
Terabyte Track
Video Track
Web Track
DATA SET
由TRACKS决定
Document
TOPIC
Title
Desription
Narrative
TREC评测
Pooling
AP RP
P-R graph
Trec_eval
SMART
(1)首先对文档集中的每个文档依据设定的加权
方式表示成向量,并存入文档向量文件;
(2)根据向量文件建立倒排索引文件;
(3)对Topic集中每个Topic依据设定的加权方式
表示成向量形式,并存入Topic向量文件;
(4)对特定Topic计算其与每个文档的相关度,
提交与该Topic最相关的前1000篇文档。
Di di1, di 2 ,...dit
VSM
文档的表示:将Di表示为由t维索引项组成
的向量,其中dij表示第j个索引项在文档Di
中的权重,t由整个文档集决定
Di=(di1,di2,…dit)
索引项的选取
索引项权重计算
向量之间的相似度
VSM(续一)
SMART检索系统
索引项
权重计算
tf
idf
文档长度归一因子
VSM的缺陷
引入NLP技术
VSM(续二)
l ; lntf +1.0
t : ln(N/n)
N是collection中的document总数
n是包含给定term的doc数
c
1
2
w
i
i
a=0.5 + 0.5*tf / maxtf
词性标注技术
词性标注是NLP中重要而成熟的技术
实现部分词义消歧
I can do it
can of soda
不同词性的词在索引中有不同作用
词性标注具有改进检索性能的潜力
英文词性标注集
宾州树库标注集
基于Brown语料库(87个标记)的标注集
含36个词性标记和12个其它标记
为了句法分析的目的而构建
精简的词性标注集
将相同语义不同句法形式的词类进行合并
排除功能词,如CC、DT等
JJ
JJ JJR JJS
NN
NN NNS FW NNP NNPS
PRP
PRP PRP$
RB
Rb RBR RBS
RP
VB
VB VBD VBG VBN VBP VBZ
PU
#$.,:()"`"'"
实验方案
索引方案
pain
pos-48
pos-7
pos-v-n
pos-v-n-j
索引项权重表示
nnn-nnn atc-atc lnc-ltc
实验设置
数据集
TREC-7和TREC-8 ad hoc任务的数据集。
100个Topic。文档集规模约为1,904MB,包
含文档数约528,000篇
SMART检索系统
Brill的词性标注器及数据预处理
词性标注
Brill词性标注系统
基于转换的错误驱动的学习
正确率97.2% (WSJ语料库)
问题——断句
根据句尾标志断句,如“ . : ; ! ?”
断句准确优先
对“.”的处理
特殊词处理
实验结果-nnn
atc-atc
Lnc-ltc
发现规律:
不同的词性标注集在TREC-7和TREC-8数据
集上的检索性能有相似的总体规律;
在nnn-nnn权重下,标注越细,检索效果越
好(pos-48最好,plain最差);
在atc-atc和lnc-ltc权重下,标注越细,检索
效果越差(pos-48最差,plain最好);
100个Topic采用不同索引方案时的AP
其它略
Topic429
<title>
Legionnairesn/NNP disease/NN
<desc>
Identify/VB outbreaks/NNS of/IN Legionnairesd/NNP
disease/NN ./.
<narr>
To/TO be/VB relevant/JJ ,/, a/DT document/NN must/MD
discuss/VB a/DT specific/JJ outbreak/NN of/IN
Legionnaires/NNP disease/NN ./.
Documents/NNS that/WDT address/VBP prevention/NN of/IN or/CC
cures/NNS for/IN the/DT disease/NN without/IN citing/VBG
a/DT specific/JJ case/NN are/VBP not/RB relevant/JJ ./.
索引项权重的差异
检索系统的性能不仅跟Topic相关,很大程
度上与整个文档集相关。
Topic447
engine
engineering; engineer; engineered
engin
engine/NN
engineering/NN; engineering/VBG; engineered/VBD
实验结果分析
对单一词性\同一词形,词性标注不会造成影响
对同一词形、不同词性的词,通过词性标注能够
对它们进行区分,减少了噪音信息匹配的可能性,
使检索系统性能得到提高。
词语之间的同源性,导致词汇语义层面相关。词
性标注的加入将它们分离为不同的索引项分量,
成为了Topic向量或Document向量中独立的维。这
样就降低了Topic向量与Document向量中相关词匹
配的可能性,也会导致检索系统性能的下降。
结语
在信息检索中引入词性标注信息会对特定
Topic及文档集下的检索效果有所改进,但
是改进的效果不明显。
词性标注对于信息检索系统效果的影响明
显弱于选择不同的索引项权重对其产生的
影响。
将语义信息加入信息检索
经验教训
敬请指正!