Invited Talk by Dr. Changning HUANG, Domestic Chinese

Download Report

Transcript Invited Talk by Dr. Changning HUANG, Domestic Chinese

国内中文树库需加强
谓词-论元结构描写
黄昌宁
清华大学计算机科学与技术系
[email protected]
提纲(第一部分)
•宾州树库简介
•X-标杠模式
•谓词-论元结构的标注实例
•国内外中文树库的对比
•讨论
宾州英文树库(PTB)
• 1989-1992: 宾州英文树库(PTB-I)
◇支配及约束(GB)理论,X-标杠理论
◇华尔街日报真实语料: 100万词次
• 1993-1994: 宾州英文树库(PTB-II)
(Marcus et al.1994)
◇增加谓词-论元结构的标注
◇空语类(empty category)和同指索引
(co-indexing)
宾州中文树库(CTB)
• 1998-2000:宾州中文树库(CTB-I)
◇重要目标:谓词-论元结构的描写
◇新华通讯社新闻稿: 规模10万词次
• 2007:宾州中文树库(CTB 6.0)
◇增加人民日报、香港新闻电讯和台
湾期刊等语料,规模增加到73万词次
X-标杠模式
• 说明语(又称标定语)、附加语和补足语只是出现
在短语某一特定位置上的短语名称。
• 在句法中,通过词项投射和填位过程生成出来
的二阶短语必须符合如下X-标杠模式:
XP
(YP)
说明语
(ZP)
附加语
X'
X'
(WP)
补足语
X
中心语
CTB规范定义的三种语法关系
(1) 中心语-补足语关系(complementation)
a. 中心语居首:
b. 中心语居尾 :
XP
XP
X
YP
…
ZP
YP
ZP
…
(2) 中心语-附加语关系(adjunction)
XP
YP
…
XP
…
ZP
X
CTB规范定义的三种语法关系
(3) 并列关系(coordination)
a: 词语层并列 :
b: 短语层并列 :
XP
XP
X
{CONJ}
X {CONJ} …
XP
{CONJ}
XP {CONJ} …
• 依据X-标杠模式,CTB使每个短语节点所统辖的
括号对或子树只表示一种抽象的语法关系。
• CTB严格区分述语动词的补足语和附加语,使谓
词-论元结构的识别建立在可靠的句法基础上。
CTB例1:表的表示
例1:浦东积极、及时地制定和推出法规性文件。
(IP (NP-PN-SBJ (NR 浦东))
(VP (DVP (ADVP (AD 积极) 【ADVP: DEV的补足语】
(PU 、)
(AD 及时))
(DEV 地))
【DEV: DVP的中心语】
(VP (VP (VV 制定)
【RNR: 右节点爬升】
(NP-OBJ (-NONE- *RNR*-1)))
(CC 和)
(VP (VV 推出)
【VV:VP的中心语】
(NP-OBJ-1 (NN 法规性)
(NN 文件))))))
【NP-OBJ-1: VV的补足语】
CTB例1:树的表示
例1:浦东积极、及时地制定和推出法规性文件。
IP
VP
NP-PN-SBJ
VP
DVP
VP
VP
ADVP
NP-OBJ-1
NP-OBJ
NR
浦东
PU AD
AD
积极 、 及时
DEV VV
地 制定
–NONE*RNR*-1
VV
CC
和 推出
NN
法规性
NN
文件
CTB例1:语义角色标注
IP
REL-1,2:ARG0
VP
REL-1,2:ARGM-MNR
DVP
VP
NP-PN-SBJ ADVP
VP
VP
REL-1
REL-2
REL-1,2:ARG1
NP-OBJ
NR
AD
浦东 积极
PU
AD DEV VV
、 及时
地 制定
NP-OBJ-1
–NONE-
CC
VV
*RNR*-1
和
推出
NN
NN
法规性
文件
CTB例2:宾语控制动词“批准”
例2:国务院批准这些城市成立边境经济合作区。
IP
NP-PN-SBJ
VP
NP-OBJ-1
DP
NP
IP
NP-SBJ
VP
NP-OBJ
NR
国务院
VV
批准
DT
这些
NN
城市
-NONE*PRO*-1
VV
设立
NN
边境
NN
经济
NN
合作区
CTB例2:语义角色标注
例2:国务院批准这些城市成立边境经济合作区。
IP
REL-1:ARG0
VP
NP-PN-SBJ REL-1
REL-1:ARG1
REL-2:ARG0
REL-1:ARG2
IP
NP-OBJ-1
VP
NP-SBJ
DP
NP
REL-2
REL-2:ARG1
NP-OBJ
NR
国务院
VV
批准
DT
NN
这些 城市
-NONE*PRO*-1
VV
NN
NN
NN
设立 边境 经济 合作区
CTB例3:话题句
例3:各种收费已在一个月前宣布。
IP
NP-TPC-2
DP
NP-SBJ
VP
NP
ADVP
PP-TMP
VP
LCP
DT
NP-OBJ
CLP
NP
QP
DT
各
M
种
NN -NONE收费 *pro*
AD
已
P CD
在 一
NP
CLP
M
个
NN
月
LC
前
VV
宣布
-NONE*T*-2
CTB例3:语义角色标注
IP
ARG1
NP-TPC-2
DP
NP
NP-SBJ
VP
ARGM-ADV
ARGM-TMP
ADVP
PP-TMP
VP
REL
LCP
DT
NP-OBJ
CLP
NP
QP
NP
CLP
DT
各
M
种
NN -NONE- AD P
收费 *pro* 已 在
CD
一
M
个
NN
月
LC
前
VV
宣布
-NONE*T*-2
概率型上下文无关语法(PCFG)
• PCFG是一种表层的树库语法(Treebank Grammar)
• 它以删除空语类和功能标记的树库作为训练样本
(IP (NP-TPC-2 (DP (DT各)
(CLP (M 种)))
(NP (NN 收费)))
(NP-SBJ (-NONE- *pro*))
(VP (ADVP (AD 已))
(PP-TMP (P 在)
(LCP (NP (QP (CD 一)
(CLP (M 个)))
(NP (NN 月)))
(LC 前)))
(VP (VV 宣布)
(NP-OBJ (-NONE- *T*-2)))))
删除空语类和功能标记
(IP (NP-TPC-2 (DP (DT各)
(CLP (M 种)))
(NP (NN 收费)))
(NP-SBJ (-NONE- *pro*))
(VP (ADVP (AD 已))
(PP-TMP (P 在)
(LCP (NP (QP (CD 一)
(CLP (M 个)))
(NP (NN 月)))
(LC 前)))
(VP (VV 宣布)
(NP-OBJ (-NONE- *T*-2)))))
删除后的树库样本
(IP (NP (DP (DT各)
(CLP (M 种)))
(NP (NN 收费)))
(VP (ADVP (AD 已))
(PP (P 在)
(LCP (NP (QP (CD 一)
(CLP (M 个)))
(NP (NN 月)))
(LC 前)))
(VP (VV 宣布))))
讨论:黎锦熙定义的补足语
• (黎锦熙 1924:27)补足语总共有五种,都是用
来补足句中谓语(动词)所没有完全表达出来的
意思的,所以叫补足语。(简称足语,和后附于
动词或形容词的‘副词性附加语’即一般所谓
补语的性质不同,成分不同。)
• 黎氏句本位思想:要在句子的整体视野下考察
句子的语法结构,否则句子意思是不完整的。
• 从本质上讲,词组本位用上下文无关的眼光看
待短语和句子的结构,因此它不描写跨短语或
跨小句的谓词-论元关系。
讨论:黎著中的补足语例句
• 黎氏把宾语和补足语都定义为动词的连带成分。
如同动词(系词和动词“有”)后的名词性成分
:
○工人是劳动者。
○空气也有重量。
• 后来被称为递系句和兼语句的句型,黎氏当时称
之为特定外动词及其连带成分所形成的句型:
○工人请我报告。
○工人推举张同志作代表。
○我爱他们诚实。
讨论:用“补足语”取代“补语”
• 国内语法学界把补语定义为动词后面的副词性附加
语,而补语和补足语的英译名都是complement。“
前主后宾,前状后补”是结构主义留给我们的遗产
吗?
• 吕叔湘在“现代汉语语法(提纲)”(未发表)中主张完
全抛弃“补语”的国内通行含义,重新将“补语”
用于类似于“补足语”的含义。
(《吕叔湘全集》第十三卷:452-475)
• CTB在大规模树库中完全不用“补语”这个概念,其
利弊得失可供我们自由评说。
北京大学中文树库(詹卫东 2008)
例4:赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(小句兵)
zj
!vp
wfs
!vp
dj
!v
np
!vp
!np
np
!n
!n
pp
!p
!vp
vp
!vp
!v
!vp
np
np
ude1
!n
赞扬
侨胞
台胞
为
支援 祖国
的
!vp
!vp
ule
!v
np
!vp
!n
!v
社会主义
np
建设
做出
ap
!a
了
重要
!np
!n
贡献
。
北京大学中文树库(PKU)
• 詹坦言,北京大学和清华大学提出的句法标住体系
,“主要是以结构主义语法理论为背景”,由于
PKU的加工规范“不假设深层结构,因而也没有深
层结构成分的标记”;并且“从资料的易维护性和
易扩展性考虑”,“主张分层分级标注”短语的内
部结构类型、语义角色等信息,“而不实行宾州树
库那样将这些信息都以树节点标签的形式来反映”
。
(詹卫东 2008)
• 生成语法后期已放弃深层结构的假设,而且改变了
前期把句法和语义割裂开来的错误做法,这一时期
的重要进步是:用空语类和同指索引描写句子中的
远距离依存关系。国内树库建设出现某些疏漏的主
要原因是:对当代语言学理论存有不同认识。
例4的CTB格式(兼语句)
例4:赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(詹卫东 2008)
IP
NP-SBJ
-NONE-
VP
v
W。
NP-OBJ
n
n
IP
NP-SBJ
VP
-NONE-
PP-PRP
VP
p
IP
NP-SBJ
-NONE-
v
VP
V
NP-OBJ
DNP
*pro* 赞扬
侨胞 台胞 *PRO* 为
*pro*
as
支援
NP-OBJ
ADJP
NP
a
vn
重要
贡献
NP
NP
dec
n
n
祖国 的 社会主义
vn
建设
做出
了
。
结束语
• 国内中文树库对促进汉语句法分析技术的
进步作出了巨大的贡献,然而它们在谓词论元结构描写方面的疏漏也是明显的。
• 树库建造离不开语言学理论的指导,我们
在语言理论上的落后应当引起足够重视。
• 今后构建的中文树库应在句法、语义两个
层面上加强谓词-论元结构描写;现有树库
则可通过适当改造来加深句法描写深度。
谢谢!