Transcript 3.刘树林

Query-Title
语义一致识别算法
刘树林
中国科学院自动化研究所 模式识别国家重点实验室
目录
 问题及算法概述
 相似度打分
 Query和Title扩展
 分类及过滤
 测试结果
问题及算法概述
 基于机器学习的方法

各种分类算法

机器翻译
 大赛的特殊性

标注数据少
 我的算法

直接计算query和title之间的相似度,根据相似度进行分类
问题及算法概述-数据准备
 停用词表
 自定义分词词典
 抓取title所在网页
 统计短查询词相关性
问题及算法概述-问题分类
 问题分析
对query和title分别进行分词及词性标注,并按照词性将词语分为以下几类(见表1)
标识
PER
LOC
ORG
TIM
NUM
NN
ADJ
VB
STR
PUC
STOP
WORD
类别
人名
地名
机构名
时间词
数词
普通名词
形容词
动词
字符串
标点
停用词
其它词
 计算相似度
对每个(query,title)对进行相似度计算
相似度计算
 词与词的相似度
利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法,使用人大夏天实现的开源工具包
Xsimilarity
任何两个词语的相似度都被映射到[0,1]
 问题:
1. 该算法无法识别反义信息。
若不相关的词相似性为0,那么反义词相似性应该为负数,但是该算法只能将相似度映射到 [0,1]
纠正方法:加入反义词典进行校正。遗憾的是,没有找到类似的词典,因此算法没有解决这一问题。
2.该算法带来的噪音。
该词汇相似度计算方法,对相关的词相似度得分过高。
解决方法:根据词性不同,后期校正相似度。对{PER,LOC,ORG,STR}的相似度进行了后续处理。
相似度计算
利用query和title分词序列构建带权二分图
在二分图上求解最大匹配
最大匹配扩展
上例求出来的最大匹配为:
(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(null,用)
扩展后的匹配:
(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(用,用)
相似度计算
计算最大匹配加权和

(𝐻 𝑝𝑜𝑠𝑖 × 𝑆𝑖𝑚 𝑞 𝑦 𝑖 , 𝑡𝑖 )若y[i]=-1,则Sim(q[y[i], ti])=0,
 Query-title相似度
 Sim =
(op1+op2)×Sum_max
𝑜𝑝1×𝑆𝑢𝑚𝑞𝑢𝑒𝑟𝑦 +𝑜𝑝2×𝑆𝑢𝑚𝑡𝑖𝑡𝑙𝑒
 其中op1、op2为参数,用于调整query和title的相对重要程度
Query扩展和title扩展
 Query扩展
对于只有一个查询词的情况进行扩展
 Title扩展
利用原页面中的相关问题进行扩展
分类及结果过滤
 选出语义相同候选答案
 过滤错误

剔除答案类别不同的(query, title)

剔除关键词差异大的(query, title)

关键词词性限制:{NN,PER,LOC,ORG,STR,TIM,NUM}
测试结果
 谢谢!