非规范化文本处理

Download Report

Transcript 非规范化文本处理

非规范化文本处理
张奇
复旦大学
1
非规范文本处理
• 非规范文本现象频繁出现
 向大妈学广场舞,跟土豪做朋友,已经成为全世界小
伙伴的新潮流。
 李教授非常professional,我们很fan他。
 中国石油天然气有限公司中石油。
 累觉不爱
2
我们的工作
 利用动态特征对中英文混合文本进行联合分词和词性
标注 (EMNLP 2012)
 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)
 中英语混合文本规范化 (WSDM 2014)
3
中英文混合文本词性标注
• 英文单词或者字母经常出现在中文文本中
– 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、
“iPhone”、“GDP”、“Android”
– 出现在日常的对话沟通中,包括电子邮件和即时通讯软件
– 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词
• 例子
– 提着行李在time square (NN) 的星巴克蹭网。
– 于是整个场面被我hold (VV)住了。
– 你微博忘记At (VV)他了。
4
中英文混合文本词性标注
• 难点
– 如何确定词性标记集?英文还是中文?
– OOV如何处理?
– 英文单词词性可以转换:我们出去Happy一下。
5
基于动态特征的序列标注方法
• 词性标注  序列标注问题
– {B, I, E, S}
– {B-NN, I-NN, E-NN, S-NN, ...}.
静态特征
6
动态特征
• 使用词级别的特征,以帮助提高中文词性标注的准确率
• 结合字符级别的特征和在解码阶段动态产生的动态的词级
别特征,如词的内容、长度、词性等
动态特征
可在纯中文语
料上训练!
如果当前字是 “ Apple”, 则:
POS−1=CC
POS−2=NR
WORD−1=“和”
LEN−2=2
7
实验
•
•
•
•
模型:序列标注模型
标注算法:Viterbi
训练算法:在线PA
标记集:{B, I, E, S}
𝒚 = 𝑎𝑟𝑔 max 𝐹(𝒘, 𝜙(𝒙, 𝒚))
𝒚
8
识别命名实体简称
• 命名实体简称示例
– 北京大学 北大
– 中国石油天然气集团公司 中石油
– 中国国际航空公司 国航
• 简称在文本中的比例
– 新闻文本:20%的句子含有简称
– UGC:更多
• 现有方法
– 基于数据的方法:需要大量(平行)语料
– 基于序列标注的方法:难以对长距离依赖关系建模
9
利用一阶谓词模型识别实体简称
• 将简称的生成建模为字的删除和保留操作
• 将语言特征和操作间关系用逻辑公式表示
• 用MLN进行参数学习和预测
1


P ( x) 
exp   w i n i ( x ) 
1 . 5  x Smokes ( x )  Cancer ( x )
Z
 i

1 . 1  x , y Friends ( x , y )   Smokes ( x )  Smokes ( y ) 
Two constants: Anna (A) and Bob (B)
Friends(A,B)
Friends(A,A)
Smokes(A)
Smokes(B)
Cancer(A)
Friends(B,B)
Weight of formula i
No. of true
groundings
of formula i
in x
Cancer(B)
Friends(B,A)
10
构建一阶谓词公式
• 局部特征
– 词汇特征:字或词的上下文,如
• character(i,c+) ^ entityType(t+)  drop(i)
• character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j)  drop(i)
– 距离和位置特征,说明实体的哪个部分可以省略
• character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i)
– 后缀特征,说明简称中可以没有后缀
• character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or
sufOrg(j) or sufGov(j))  drop(i)
• 全局特征:表示可以同时删去若干个字
– character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^
cwMap(i + 1, j)  drop(i + 1)
11
实验
• 训练和测试数据
– 利用正则表达式从百度百
科抓取
– 利用搜索引擎抓取
• 输入 “复旦大学 简称”
– 含有5万多简称/实体对
• 工具
– 中文分词:FudanNLP
– MLN:thebeast
12
中英文混合文本规范化
• 微博中英语单词分类统计
• 采用分而治之策略加以处理
– In-vocabulary English words:翻译成中文
– Out-of-vocabulary English words :分类,如人名,机构
名……
13
词语翻译
翻译模型:从训练数据中计算:GIZA++
语言模型:神经语言模型
14
未登录词分类
• 假设1: 属于相同类别的词语有相近的上下文
• 假设2: 词语及其属性描述倾向于共现
• 采用Label propagation算法进行迭代
15
实验结果
测试数据
1000条微博
1200个英文词语
词语翻译
未登录词分类
16
CIKM 2014
•
•
General Chairs:
– Jianzhong Li: Harbin Institute of Technology, China
– X. Sean Wang: Fudan University, China
PC Chairs
– (DB Track) Min Wang, Google
– (IR Track) Ian Soboroff NIST & Torsten Suel NYU Poly
– (KM Track) Minos Garofalakis, Tech Univ. Crete
Abstract Submission June 4, 2014
Paper Submission
June 11, 2014
Acceptance Notification August 8, 2014
会议地点:上海富豪环球东亚大酒店,中国
上海市衡山路516号
CIKM Cup
17
WSDM 2015
复旦皇冠酒店
18
Questions?