Transcript 3.刘树林
Query-Title
语义一致识别算法
刘树林
中国科学院自动化研究所 模式识别国家重点实验室
目录
问题及算法概述
相似度打分
Query和Title扩展
分类及过滤
测试结果
问题及算法概述
基于机器学习的方法
各种分类算法
机器翻译
大赛的特殊性
标注数据少
我的算法
直接计算query和title之间的相似度,根据相似度进行分类
问题及算法概述-数据准备
停用词表
自定义分词词典
抓取title所在网页
统计短查询词相关性
问题及算法概述-问题分类
问题分析
对query和title分别进行分词及词性标注,并按照词性将词语分为以下几类(见表1)
标识
PER
LOC
ORG
TIM
NUM
NN
ADJ
VB
STR
PUC
STOP
WORD
类别
人名
地名
机构名
时间词
数词
普通名词
形容词
动词
字符串
标点
停用词
其它词
计算相似度
对每个(query,title)对进行相似度计算
相似度计算
词与词的相似度
利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法,使用人大夏天实现的开源工具包
Xsimilarity
任何两个词语的相似度都被映射到[0,1]
问题:
1. 该算法无法识别反义信息。
若不相关的词相似性为0,那么反义词相似性应该为负数,但是该算法只能将相似度映射到 [0,1]
纠正方法:加入反义词典进行校正。遗憾的是,没有找到类似的词典,因此算法没有解决这一问题。
2.该算法带来的噪音。
该词汇相似度计算方法,对相关的词相似度得分过高。
解决方法:根据词性不同,后期校正相似度。对{PER,LOC,ORG,STR}的相似度进行了后续处理。
相似度计算
利用query和title分词序列构建带权二分图
在二分图上求解最大匹配
最大匹配扩展
上例求出来的最大匹配为:
(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(null,用)
扩展后的匹配:
(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(用,用)
相似度计算
计算最大匹配加权和
(𝐻 𝑝𝑜𝑠𝑖 × 𝑆𝑖𝑚 𝑞 𝑦 𝑖 , 𝑡𝑖 )若y[i]=-1,则Sim(q[y[i], ti])=0,
Query-title相似度
Sim =
(op1+op2)×Sum_max
𝑜𝑝1×𝑆𝑢𝑚𝑞𝑢𝑒𝑟𝑦 +𝑜𝑝2×𝑆𝑢𝑚𝑡𝑖𝑡𝑙𝑒
其中op1、op2为参数,用于调整query和title的相对重要程度
Query扩展和title扩展
Query扩展
对于只有一个查询词的情况进行扩展
Title扩展
利用原页面中的相关问题进行扩展
分类及结果过滤
选出语义相同候选答案
过滤错误
剔除答案类别不同的(query, title)
剔除关键词差异大的(query, title)
关键词词性限制:{NN,PER,LOC,ORG,STR,TIM,NUM}
测试结果
谢谢!