词性标注对信息检索系统 性能的影响

Download Report

Transcript 词性标注对信息检索系统 性能的影响

TREC简介及
英语词性标注对信息检索
系统性能的影响
2004-12-14



研究背景
TREC
基础知识
VSM
 英文词性标注



实验
经验
研究背景


TREC2004
ROBUST任务
信息检索的义项矩阵模型研究
TREC

The Text REtrieval Conference





the National Institute of Standards and Technology
(NIST) and U.S. Department of Defense
TRACKS
DATA SET
评测
SMART11
TRACKS











Cross-Language Track
Filtering Track
Genomics Track
HARD Track
Interactive Track
Novelty Track
Question Answering Track
Robust Retrieval Track
Terabyte Track
Video Track
Web Track
DATA SET



由TRACKS决定
Document
TOPIC
Title
 Desription
 Narrative

TREC评测




Pooling
AP RP
P-R graph
Trec_eval
SMART




(1)首先对文档集中的每个文档依据设定的加权
方式表示成向量,并存入文档向量文件;
(2)根据向量文件建立倒排索引文件;
(3)对Topic集中每个Topic依据设定的加权方式
表示成向量形式,并存入Topic向量文件;
(4)对特定Topic计算其与每个文档的相关度,
提交与该Topic最相关的前1000篇文档。
Di   di1, di 2 ,...dit 
VSM
文档的表示:将Di表示为由t维索引项组成
的向量,其中dij表示第j个索引项在文档Di
中的权重,t由整个文档集决定
 Di=(di1,di2,…dit)
 索引项的选取
 索引项权重计算
 向量之间的相似度

VSM(续一)
SMART检索系统
索引项
权重计算

tf

idf
 文档长度归一因子
 VSM的缺陷
 引入NLP技术

VSM(续二)


l ; lntf +1.0
t : ln(N/n)



N是collection中的document总数
n是包含给定term的doc数
c 
1
2
w
 i
i

a=0.5 + 0.5*tf / maxtf
词性标注技术
词性标注是NLP中重要而成熟的技术
 实现部分词义消歧
I can do it
can of soda
 不同词性的词在索引中有不同作用


词性标注具有改进检索性能的潜力
英文词性标注集
宾州树库标注集
 基于Brown语料库(87个标记)的标注集
 含36个词性标记和12个其它标记
 为了句法分析的目的而构建
 精简的词性标注集
 将相同语义不同句法形式的词类进行合并
 排除功能词,如CC、DT等

JJ
JJ JJR JJS
NN
NN NNS FW NNP NNPS
PRP
PRP PRP$
RB
Rb RBR RBS
RP
VB
VB VBD VBG VBN VBP VBZ
PU
#$.,:()"`"'"
实验方案
索引方案
 pain
 pos-48
 pos-7
 pos-v-n
 pos-v-n-j
 索引项权重表示
 nnn-nnn atc-atc lnc-ltc

实验设置
数据集
TREC-7和TREC-8 ad hoc任务的数据集。
100个Topic。文档集规模约为1,904MB,包
含文档数约528,000篇
 SMART检索系统
 Brill的词性标注器及数据预处理

词性标注




Brill词性标注系统
基于转换的错误驱动的学习
正确率97.2% (WSJ语料库)
问题——断句
根据句尾标志断句,如“ . : ; ! ?”
 断句准确优先
 对“.”的处理
 特殊词处理

实验结果-nnn
atc-atc
Lnc-ltc
发现规律:
 不同的词性标注集在TREC-7和TREC-8数据
集上的检索性能有相似的总体规律;
 在nnn-nnn权重下,标注越细,检索效果越
好(pos-48最好,plain最差);
 在atc-atc和lnc-ltc权重下,标注越细,检索
效果越差(pos-48最差,plain最好);

100个Topic采用不同索引方案时的AP

其它略
Topic429
<title>
Legionnairesn/NNP disease/NN
<desc>
Identify/VB outbreaks/NNS of/IN Legionnairesd/NNP
disease/NN ./.
<narr>
To/TO be/VB relevant/JJ ,/, a/DT document/NN must/MD
discuss/VB a/DT specific/JJ outbreak/NN of/IN
Legionnaires/NNP disease/NN ./.
Documents/NNS that/WDT address/VBP prevention/NN of/IN or/CC
cures/NNS for/IN the/DT disease/NN without/IN citing/VBG
a/DT specific/JJ case/NN are/VBP not/RB relevant/JJ ./.
索引项权重的差异

检索系统的性能不仅跟Topic相关,很大程
度上与整个文档集相关。
Topic447
engine
engineering; engineer; engineered
engin
 engine/NN

engineering/NN; engineering/VBG; engineered/VBD
实验结果分析

对单一词性\同一词形,词性标注不会造成影响

对同一词形、不同词性的词,通过词性标注能够
对它们进行区分,减少了噪音信息匹配的可能性,
使检索系统性能得到提高。

词语之间的同源性,导致词汇语义层面相关。词
性标注的加入将它们分离为不同的索引项分量,
成为了Topic向量或Document向量中独立的维。这
样就降低了Topic向量与Document向量中相关词匹
配的可能性,也会导致检索系统性能的下降。
结语

在信息检索中引入词性标注信息会对特定
Topic及文档集下的检索效果有所改进,但
是改进的效果不明显。

词性标注对于信息检索系统效果的影响明
显弱于选择不同的索引项权重对其产生的
影响。
将语义信息加入信息检索

经验教训
敬请指正!