The Construction of Chinese Sentence

Download Report

Transcript The Construction of Chinese Sentence

1
汉语树库研究综述
2
构建句类依存树库的理论探讨
3
汉语句类依存树库构建实践
4
对汉语显性轻动词句的分析
汉语树库研究综述
•
•
•
•
•
•
宾州汉语树库PennCTB
台湾中研院Sinica树库
清华大学汉语树库TCT
哈工大依存树库HIT-IR-CDT
山西大学汉语框架网络CFN
应用领域:机器翻译、信息检索、信息抽
取、问答系统等
标记集
• 词性:名词 (N) , 动词 (V) , 形容词 (ADJ )等
标记;
• 短语类型:名词短语 (NP) , 动词短语 (VP) ,
介词短语 (PP)等标记;
• 语法功能(句法关系、依存关系):主语
(SBJ) , 宾语 (OBJ) , 状语 (ADV)等标记;
• 语义角色:位置 (LOC) , 方式 (MNR) , 目的
(PRP)等标记。
汉语树库标注知识对比
词类
短语类
型
PennCTB
33
23
26
X
X
Sinica
46
O
X
63
9
X
X
24
X
X
O
框架
元素
X
TCT
26
CDT
28
CFN
O
语法 语义角 特征标
功能
色
记
16成
27
分标记
X
O
二、构建句类依存树库的理论探讨
树库构建的意义与目标
首先,在理论层面利用句类依存树深化汉
语句法语义的形式化分析;
“既然我们的普遍共识是,汉语的词性和
其次,尝试解决汉语多动词句的句法语义
句法功能是不像英语中那样严格对应的,
分析难点;
那么一个以词性为基础,以主谓宾等句法
功能为架构的汉语树库,真的能够全面而
最后,在应用层面深化HNC句类理论在机器
真实地反映汉语的语言现实吗?”
翻译领域的应用。
——董振东2011“下一站在哪里”
构建句类依存树库的理论背景
1.HNC三大语义网络
基本概念、基元概念以及逻辑概念语义网络
……
结合与分离
调和
效应
转移
帮助
依存与排斥
关系
支持与反对
支持
支持
主宰与从属
过程
状态
使用与舍弃
反对
拥有与失去
作用
适应与干扰
HNC基元概念语义网络图示
中立
……
2.HNC句类分析理论
作用句、过程句、转移句、效应句、关
系句、状态句和判断句七大句类共57组基
本句类。
中国今天公布了打击走私的巨大成果。
TA
T3C
YB
YC
公布:信息的转移T3J=TA+T3+TB+T3C
效应的显隐Y30J=YB+Y+YC
句类代码:T3Y30*21J=TA+T3Y30+YC
三、汉语句类依存树库构建实践
1.概念类别标注集
从HNC语义网络中归纳了便于操作的十一大类93小
类概念类别:动态概念v、静态概念g、属性概念u、
值概念z、效应概念r、人p、物w、基本物pw、基本
概念j、语言逻辑概念l以及语习概念f。
例1:中国/pj2 今天/j1 公布/v 了/hv 打击/v 走私/v 的/l42
巨大/u 成果/r 。/pun
例2: 此外/lb ,/pun 委员会/pe 还/uv 相继/uv 派/v 团/pe
赴/v 台/pj2- 访问/v ,/pun 与/l02 台湾/pj2- 工商界/pj01
进行/vv 了/hv 广泛/u 的/l42 接触/v 和/l41 交流/v 。/pun
2.句类关系标注集
两大类六小类:(1)句类核心成分
A.v类概念自身的语义类别
B.v与相关广义对象语义块之间的关系
中国今天公布了打击走私的巨大成果。
T3Y30*21J=TA+T3Y30+YC
(2)句类非核心成分
C. 特征语义块Ek的复合构成
D. 时间、地点、方式、工具、参照等辅语义块
E. 语义块核心成分的修饰性成分
F. 句子的附加成分
3.标注工具开发
4.可视化显示
四、对汉语显性轻动词句的分析
•
•
•
•
•
light verb
Jesperson, O. (1954): have a rest, take a sneak
Grimshaw & Mester(1988),Chomsky:隐性轻动词
汉语中的三类轻动词:
①有语音形式的轻动词:如“进行”、“加以”、“
予以”、“给予”、“作”等,形式动词、泛动类动
词、虚化动词、先导动词;
• ②没有语音形式的空位动词;
• ③事件性谓词(eventuality predicate):如语义算子
DO、BECOME、CAUSE等
PennCTB例:该处现正就六宗较严重的
山泥倾泻事件进行详细调查。
Sinica并要求各主要阿拉伯国家先进行多次
磋商以确保高峰会顺利成功。
VP(addition:Cbcb:並|Head:VF2:要求
|goal:NP(quantifier:Nes:各|property:VH11:主要
|property:Nca:阿拉伯|Head:Nac:國家)|theme:VP(time:Dd:
先|Head:VC2:進行|goal:NP(quantifier:DM:多次
|Head:Nv1:磋商))|purpose:VP(purpose:Cbca:以
|Head:VE2:確保|goal:S(theme:NP(Head:Nac:高峰
會)|Head:VH11(Head:VH11:順利|Head:VH11:成功))))
哈工大依存树库:
对已投入市场的,应全部进行检测,
对不合国家强制性标准规定的,一律没收销
毁;
句类依存树库的分析标注:
两岸可先就正式结束敌对状态进行谈判。
可视化显示
FrameNet的分析佐证
•
•
•
•
•
•
•
•
•
•
•
The senator paid me a compliment on my work.
(The support verb is pay.)
<KDG rdf: ID=“9637615”>
<support>pay</support>
<governor>compliment</governor>
<frame rdf: resource=“Compliment”>
<speaker>senator</speaker>
<addressee>me</addressee>
<reason>on: work</reason>
</frame>
</KDG>