非规范化文本处理

Transcript 非规范化文本处理

非规范化文本处理
张奇
复旦大学
1
非规范文本处理
• 非规范文本现象频繁出现
 向大妈学广场舞，跟土豪做朋友，已经成为全世界小
伙伴的新潮流。
 李教授非常professional，我们很fan他。
 中国石油天然气有限公司中石油。
 累觉不爱
2
我们的工作
 利用动态特征对中英文混合文本进行联合分词和词性
标注 (EMNLP 2012)
 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)
 中英语混合文本规范化 (WSDM 2014)
3
中英文混合文本词性标注
• 英文单词或者字母经常出现在中文文本中
– 作为产品名、机构名、术语、缩略语、简称等，如“eBay”、
“iPhone”、“GDP”、“Android”
– 出现在日常的对话沟通中，包括电子邮件和即时通讯软件
– 新浪微博抽样统计说明，14.8%微博含有至少一个英文单词
• 例子
– 提着行李在time square (NN) 的星巴克蹭网。
– 于是整个场面被我hold (VV)住了。
– 你微博忘记At (VV)他了。
4
中英文混合文本词性标注
• 难点
– 如何确定词性标记集？英文还是中文？
– OOV如何处理？
– 英文单词词性可以转换：我们出去Happy一下。
5
基于动态特征的序列标注方法
• 词性标注  序列标注问题
– {B, I, E, S}
– {B-NN, I-NN, E-NN, S-NN, ...}.
静态特征
6
动态特征
• 使用词级别的特征，以帮助提高中文词性标注的准确率
• 结合字符级别的特征和在解码阶段动态产生的动态的词级
别特征，如词的内容、长度、词性等
动态特征
可在纯中文语
料上训练!
如果当前字是 “ Apple”, 则：
POS−1=CC
POS−2=NR
WORD−1=“和”
LEN−2=2
7
实验
•
•
•
•
模型：序列标注模型
标注算法：Viterbi
训练算法：在线PA
标记集：{B, I, E, S}
𝒚 = 𝑎𝑟𝑔 max 𝐹(𝒘, 𝜙(𝒙, 𝒚))
𝒚
8
识别命名实体简称
• 命名实体简称示例
– 北京大学北大
– 中国石油天然气集团公司中石油
– 中国国际航空公司国航
• 简称在文本中的比例
– 新闻文本：20%的句子含有简称
– UGC：更多
• 现有方法
– 基于数据的方法：需要大量（平行）语料
– 基于序列标注的方法：难以对长距离依赖关系建模
9
利用一阶谓词模型识别实体简称
• 将简称的生成建模为字的删除和保留操作
• 将语言特征和操作间关系用逻辑公式表示
• 用MLN进行参数学习和预测
1


P ( x) 
exp   w i n i ( x ) 
1 . 5  x Smokes ( x )  Cancer ( x )
Z
 i

1 . 1  x , y Friends ( x , y )   Smokes ( x )  Smokes ( y ) 
Two constants: Anna (A) and Bob (B)
Friends(A,B)
Friends(A,A)
Smokes(A)
Smokes(B)
Cancer(A)
Friends(B,B)
Weight of formula i
No. of true
groundings
of formula i
in x
Cancer(B)
Friends(B,A)
10
构建一阶谓词公式
• 局部特征
– 词汇特征：字或词的上下文，如
• character(i,c+) ^ entityType(t+)  drop(i)
• character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j)  drop(i)
– 距离和位置特征，说明实体的哪个部分可以省略
• character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i)
– 后缀特征，说明简称中可以没有后缀
• character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or
sufOrg(j) or sufGov(j))  drop(i)
• 全局特征：表示可以同时删去若干个字
– character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^
cwMap(i + 1, j)  drop(i + 1)
11
实验
• 训练和测试数据
– 利用正则表达式从百度百
科抓取
– 利用搜索引擎抓取
• 输入 “复旦大学简称”
– 含有5万多简称/实体对
• 工具
– 中文分词：FudanNLP
– MLN：thebeast
12
中英文混合文本规范化
• 微博中英语单词分类统计
• 采用分而治之策略加以处理
– In-vocabulary English words：翻译成中文
– Out-of-vocabulary English words ：分类，如人名，机构
名……
13
词语翻译
翻译模型：从训练数据中计算：GIZA++
语言模型：神经语言模型
14
未登录词分类
• 假设1：属于相同类别的词语有相近的上下文
• 假设2: 词语及其属性描述倾向于共现
• 采用Label propagation算法进行迭代
15
实验结果
测试数据
1000条微博
1200个英文词语
词语翻译
未登录词分类
16
CIKM 2014
•
•
General Chairs：
– Jianzhong Li: Harbin Institute of Technology, China
– X. Sean Wang: Fudan University, China
PC Chairs
– (DB Track) Min Wang, Google
– (IR Track) Ian Soboroff NIST & Torsten Suel NYU Poly
– (KM Track) Minos Garofalakis, Tech Univ. Crete
Abstract Submission June 4, 2014
Paper Submission
June 11, 2014
Acceptance Notification August 8, 2014
会议地点：上海富豪环球东亚大酒店，中国
上海市衡山路516号
CIKM Cup
17
WSDM 2015
复旦皇冠酒店
18
Questions?

非规范化文本处理

Transcript 非规范化文本处理

Directory