陈保亚 - 北京大学计算语言学教育部重点实验室

Download Report

Transcript 陈保亚 - 北京大学计算语言学教育部重点实验室

词的初始分布特征的提取和词组的分布功能推导
陈保亚
北京大学中文系/中国语言学研究中心
[email protected]
20111122
北京大学计算语言所报告
主要思路
• 回顾词类划分所遇到的问题
• 词类划分的根本目的:语类推导
• 避开分类的体系问题,直接从分布开始推
导
• 从最少的初始条件开始,提取分布特征
• 语类推导和分布特征推导的比较
三种分类标准的回顾
• 意义
• 形态
• 功能与分布
意义分类的第一个困难:不容易把握
• 战斗
战争
意义分类的第二个困难:不反映组合条件
金
银
铜
铁
锡
*金是金属 *银是金属 铜是金属 铁是金属 锡是金属
*一块金
*一块银
一块铜
一块铁
一块锡
*买金
*买银
买铜
买铁
买锡
形态标准的困难一:不充分性
• 不是所有的语言都有形态
• 形态丰富的语言中,不是所有的单位都有
形态变化
对功能与分布的不同理解
• 结构关系的分布
• 鉴定字框架的分布
依靠结构关系分词类:循环论证问题
• 主谓关系和述宾关系一般没有标记。很多情况下,偏正
结构的标记和述补结构的标记也不出现。因此判定下面
的结构关系需要依据词类:
• 下午有课(前项为名词)
• 经常有课(前项为副词)
• 写清楚(后项为形容词)
• 写小说(后项为名词)
• 这样就出现了循环。本来是要通过词在句子成分环境中
的分布来归纳词类,但却预先利用到词类的概念。
结构关系分词类:体系问题
• 下面的词组,由于体系不同,结构关系有
不同理解:
• 下午有课(主谓或状中)
• 走三天(述宾或述补)
• 这些结构关系常常用来描述词的分布,出
现分歧。
选择鉴定字的先决条件:先有分类
• 目前的鉴定字方法是根据心目中暗含的分
类来找鉴定字。
• 比如,通常的做法是首先根据“不”在实
词中区分谓词和体词。为什么不用
“个”?显然已经先有了谓词和体词的分
野。为什么不用“了”?因为“不”最能
概括谓词和体词这一既定的分野。
分布分类面临的另一个问题:每个词都有自己的分布
吃
买
写
研究
区别
姓
动词
动词
动词
动词
动词
动词
形容词? 名词
区别词
名词 副词
名词
分布特征推导方案
分类的主要目的:有效组合与类推
•
主张分类的学者大多数认为分类的目的是为了语法研究。具体指什么研究目前还没有
一个统一的解释。我个人认为,分类必须满足语类的组合条件和推导性。
•
一个有效的语类组合推导模型应该满足三个目标:
•
•
•
X类词和Y类词能否组合
XY之间有什么组合关系
XY词组属于什么语类(以便进一步推导[XY]Z的类
•
•
•
•
比如:
N+N=NP(桌子椅子/学生家长)
A+N=NP(大苹果)
V+N=VP/NP (烤红薯)
•
分类不是任意的。分类必须满足语类的组合与推导。因此分类不应该漫无边际的细化
以至于没有概括性,也不应该太粗以至于无法推导词组的语类,比如上面的V+N有两种
结构关系和分布,需要细分词类。
特征组合推导模型
• 语类组合推导模型必须从词类出发来确定组合条件和词组
的语类和结构关系。高名凯先生认为汉语没有词类,如何
解决语类组合推导模型需要解决的问题?
• 我们可以考虑一个分布特征组合推导模型,这样的模型也
需要满足三个目标:
• 具有分布特征A的词X和具有分布特征B的词Y能否组合
• XY词组的分布特征是什么
• XY之间的结构关系是什么
• 下面我们来看看特征组合推导模型可以发展到什么地步。
初始分布特征:谓述与指称
• 朱先生在上个世纪80年代初提出了陈述和指称的观
点。这个观点有两个问题需要解决:
• 1、为什么把陈述和指称作为词类划分的重要的基础;
• 2、如何判定陈述和指称。
• 朱先生的陈述和指称跟逻辑学、哲学中的一些初始概
念有关系。下面我们从这个角度开始展开。
言有所为
• 词组在言谈、运思活动中的分布是不一样的:
•
•
•
•
便宜土豆(一斤/便宜土豆;*不/便宜土豆)
土豆便宜( *一斤/土豆便宜;土豆不便宜)
买土豆 ( *一斤/买土豆;不/买土豆)
烤土豆 (一斤/烤土豆;不/烤土豆)
• 如何判定词组在分布上的差别,是交际或运思必须
要面临的问题。我们需要从词的分布规律找出词组
的分布规律,这就是分布或词类初始性的体现。
真值的重要性
• 在逻辑学中,凡命题(proposition)都是有真值的。比较:
•
•
老师了解学生
老师不了解学生
逻辑学
语言学
概念
词
命题
句子
推理
句群、语篇
• 在逻辑学中,命题是推理的基本单位。在语言学中,句子是交际和运
思的基本单位。命题最本质的特征就是要有真值,体现在语言中就是
肯定和否定。
肯定与否定
• 交际和运思要有命题句才能充分展开。命
题句通过有条件的变形可以进一步形成祈
使句、疑问句、感叹句等形式。判定哪些
是命题句就成了首要任务。肯定和否定是
判定有真值的命题句的最重要的方式。
• 命题有真假两种取值,在句子中体现为肯
定和否定。
否定的承载
• 在有真值的简单否定句中,只有某些词能独立
承载否定
• 老师不了解学生----不了解
• 学生不理解老师----不理解
• 这说明有些词是判定一个句子能否获得真值的
关键。由此我们为朱德熙先生关于陈述和指称
的区分找出了一个依据。
陈述特征的主要判定方式:否定
• 于是分布特征可以首先分出谓述特征(陈述特征)和指称
特征。在能够独立成句的词中,即一般所谓的实词中,能
独立承载否定形式的词具有谓述特征,否则只有指称特征。
• 承载否定形式的主要格式:
•
•
•
•
不去 (不A)
去不去(A不A)
没去(没A)
去没去(A没A)
• 主张汉语必须划分词类的学者通常根据“不”划分谓词和
体词,从这里的分析看是有根据的。
• (特殊处理:非人)
谓述特征的系连
• 一般地说,由于有些词已经自带了一定的量或某种限定,
如“冰凉、漆黑”,再否定的话在语义上不太协调,但可
以通过系连的方式来判定是否有谓述特征。
• 借助建立在真值上的谓述特征,可以判定核心词以及大量
基本词是否带有谓述。
• 有些连接词框架只允许带谓述特征的词或词组出现:
•
• 不但天气热,而且空气潮湿
•
• 这些命题的连接还可以还原到具有谓述特征的词:
•
• 不但热,而且潮湿
• 有了谓述连接词。我们可以通过系连的方式由
已知谓述词断定其他谓述词:
•
• 不但窄,而且漆黑
• 不但糊涂,而且叽叽喳喳
• 不但干净,而且雪白
•
• 于是“漆黑、雪白、透亮、飞快”等都能够判
定为具有谓述特征的词。
更多分布特征的提取
• 特征组合推导原则:
• 相同的分布特征组合只能推导出相同的结
构分布特征和结构关系。
• 如果不满足这个条件,就还需要提取更多
的特征
支配、体饰与谓饰(1)
•
•
•
•
•
大红薯
买红薯
烤红薯(不烤红薯/三个烤红薯)
从成分的分布特征看,前一个成分有谓述特征,
后一个成分有指称特征,但整个词组可以有两
种特征,谓述特征和指称特征。
• 要有效地完成特征组合推导,还需要从谓述特
征中独立出修饰特征、支配特征。
支配、体饰与谓饰(2)
•
•
•
•
•
•
如果考虑非独立词,分布特征还要增加。比较:
经常工作(不经常工作)
局部工作(*不局部工作)
“经常工作”有谓述特征,“局部工作”没有谓述
特征,这两者的差别在于“经常”和“局部”,可
见修饰特征要分成两种,一种是谓饰特征,一种是
体饰特征。郭锐(2002)从表述功能上分出体饰和
谓饰,从这里的特征组合推导上可以找到依据。
引介特征
• 比较:
• 从北京
• 去北京
• “从北京”有谓饰特征,“去北京”有谓述特
征。如果支配特征不分成两种,则不能充分区
别这里的特征推导。于是我们再提取一个引介
特征。
提取特征的限度
• 以上在不考虑结构标记的情况下,提取了
几个基本分布特征。要全面描写组合规则
和推导规则,需要提取更多的基本分布特
征。只要达到组合推导目的,特征的提取
就终止。剩下的组合规则应该是语义上
的,比如“吃鸡、喝水”的选择限制。
基于组合推导的分布特征标注举例
•
•
•
•
•
•
•
•
•
•
以上部分词的分布特征标注为:
大:谓述、体饰、谓饰(大干一场)
买:谓述、支配
烤:谓述、体饰、支配
经常:谓饰
局部:体饰、
从:引介
工作:谓述、指称、体饰
胜利:谓述、指称、体饰、谓饰
(如果实词都可以作主语或话题,不作分布特征提取)
特征组合推导表
前项分布特征
后项分布特征
实例
结构分布特征
结构关系
体饰
指称
大苹果/恶性肿瘤 指称
定中
支配
指称
买苹果
谓述
述宾
谓饰
谓述
经常工作
谓述
状中
指称
谓述
苹果大
谓述
主谓
引介
指称
把苹果
谓饰
介宾
分布歧义
• 如果前后两项所含的分布特征有两种或两种以上
的可组合性,词组的分布和内部结构关系就有歧
义:
• 烤白薯
前项
后项
实例
结构分布特征
结构关系
体饰
指称
大苹果/烤白薯
指称
定中
支配
指称
买苹果/烤白薯
谓述
述宾
两种模型的比较
• 特征组合推导模型需要提取基本分布特征,并给每
个词标注有哪些分布特征。
• 语类组合推导模型要借助词类,在词类划分的时
候,哪个词归哪个类,也必须要获得该词的详细
分布特征信息,而且还要进一步分类。在词组中,
还要检查两个词之间可能有哪些分布特征可以组
合(烤白薯)。由此可见,语类组合推导模型比
特征组合推导模型多一项工作,而且这项工作是
高度复杂的,体现在100年来汉语词类划分的各种
方案和争论中。
划分词类的难点
• 划分词类的困难不在于一个词有很多种分布特征,而在于
分布特征不整齐。比如谓述词:
吃
买
写
研究
区别
姓
谓述
谓述
谓述
谓述
谓述
谓述
支配
支配
支配
支配
支配
支配
体饰
体饰
指称
指称
指称
谓饰
• 如果有大量词都只有谓述、支配特征,分类就容易,否则
就要考察和处理不一致分布的情况。
分类的价值
• 如果分布整齐,就有利于分类。
• 一旦获得了内部成员分布整齐的词类,在标注上
就可以简化。比如,我们可以在语法手册中详细
描述区别词的分布特征:
• 区别词:体饰特征;----的
• 在词库中,我们只需要标注某个词为“区别
词”,就提供了足够的语类信息。相同词类的词
具有相同的组合规则和语类推导规则。
分布和词类
• 从以上分析可以看出,在没有词类但有分布特征
的前提下,从词的分布特征到词组的分布特征推
导(递归性)仍然可以展开,传统的结构关系的
推导也可以展开。
参考文献
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Croft, W.,1991,Syntactic Categories and Grammatical Relations .,Chicago : University of Chicago Press
陈保亚,1985.2,《论句法结构》, 《西南师范大学学报》。
陈保亚,1999,《20世纪中国语言学方法论》,山东教育出版社
陈保亚,2009,《当代语言学》,高等教育出版社
陈小荷,1999.3,《从自动句法分析角度看汉语词类问题》,《语言教学与研究》
高名凯,1948,《汉语语法论》,上海开明书店出版
高名凯,1960,《关于汉语实词分类问题》,语言学论丛第四辑
郭锐,1993.10,《关于汉语词类划分的一些理论问题》,第四届现代语言学研讨会论文
郭锐,2002,《现代汉语词类研究》,商务印书馆
海里斯,1946,From morpheme to utterance,Language 22, 166-183. 译文载《语言学资料》1963.6
吕叔湘,1954,9-10,《关于汉语词类的一些原则性问题》,《中国语文》
邱立坤,2004,《现代汉语偏正式动名短语研究》,北京大学硕士论文
沈家煊,1997.4,《形容词句法功能的标记模式》,《中国语文》
汪锋,2010,《与汉语词类相关的几个基本概念》,《语言学论丛》62-76.,商务印书馆
王洪君,1994.2,《从字和字组看词和短语》,《中国语文》
亚里士多德,古希腊,《解释篇》,
袁毓林,2006.3,《对“词类是表述功能类”的质疑》,《汉语学报》
詹卫东,2000,《面向中文信息处理的现代汉语短语结构规则研究》,清华大学出版社
朱德熙,1960,《关于划分词类的根据》,语言学论丛第四辑
朱德熙,1983.1,《自指和转指:汉语名词化标记“的、者、所、之”的语法功能和语义功能》,《方言》
朱德熙,1985,《语法答问》,商务印书馆
朱德熙、卢甲文、马真,1961.4,《关于动词形容词“名物化”的问题》,《北京大学学报》