成长中的成语知识库

Download Report

Transcript 成长中的成语知识库

第十四届中国少数民族语言文字信息处理学术研讨会
汉语成语知识库介绍*
俞士汶1
1
2
朱学锋1 王雷1,
2
计算语言学教育部重点实验室(北京大学)
北京大学外语学院
2013年9月13日 西北民族大学(甘肃兰州)
*
相关研究得到国家自然科学基金项目(项目号:61272221,61170163)
和 863项目(2012AA011101)的支持。
北京大学计算语言学研究所
1
http://icl.pku.edu.cn
提 要





引言:成语在现代汉语中的使用情况
北大成语知识库的建设理念
成长中的北大成语知识库
有关成语与成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
提 要





引言:成语在现代汉语中的使用情况
北大成语知识库的建设理念
成长中的北大成语知识库
有关成语与成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
引言:成语在现代汉语中的使用情况
现代汉语中的一类特殊词语——特点何在?
定义:人们长期以来习用的、简洁精辟的定型词组或短语
(《现代汉语词典》)。
成语有广义与狭义之分, “习用”亦有演变过程。
结构:四字格居多,其中又以“2+2”的联合结构居多。
生龙活虎、龙腾虎跃、龙飞凤舞、前呼后拥
非此结构者:一衣带水,感同身受
语义:“简洁精辟”导致较普通词语难懂。书面语言用字
较多(罄竹难书)。有些可根据字面意义推断(后来居上),
有些必须知道来源或典故才能懂得意思(朝三暮四、杯弓蛇
影)。时代感分明(锱铢必较—斤斤计较——克克计较?)。
情感:褒贬清晰(精雕细刻、粗枝大叶),感情表达强烈。
隐喻:生动形象(旌旗蔽日),寓意深刻(琴瑟和谐)。
北京大学计算语言学研究所
http://icl.pku.edu.cn
引言:成语在现代汉语中的使用情况
现代汉语中的一类特殊词语——特点何在?
使用:中国国家语言文字工作委员会自2006年起,
每年发布的《中国语言生活状况报告》,都包含
各种媒体使用成语的情况。如在2011年的10亿汉
字的语料中,成语出现近200万次,覆盖率为
0.32% 。
实例:最近完成3篇短文,题目分别是
前人种树,后人乘凉(汉语拼音方案发布55周年感言)
千里之行,始于足下(北大计算中心成立50周年感言)
另辟蹊径,独具匠心 (南师大《语言科技文库》中一本书
之书评, 5000字短文,用了8个成语。)
就有理解与运用的问题。
北京大学计算语言学研究所
http://icl.pku.edu.cn
提 要





引言:成语在现代汉语中的使用情况
北大成语知识库的建设理念
成长中的北大成语知识库
有关成语与成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
自然语言处理系统和语言知识库
……
应用程序1
应用程序2
平台 / API
……
语言知识库1 语言知识库2
语言知识库3
语言知识库4
语言知识库是自然语言处理系统不可或缺的组成部分,成败的关键。
在语言知识库搭建的平台上可以上演威武雄壮生动活泼的应用系统
的剧目。
北京大学计算语言学研究所
http://icl.pku.edu.cn
CLKB的发展历程
2011
CLKB项目启动
中国教育部科
中国教育部科 技进步一等奖
技进步二等奖
中国电子学会
科学技术奖
一等奖
中国国
家科技
进步奖
二等奖
今年教师节北京大学
北大文理结合的研究基础
给本项目颁发
对汉语母语知识和文化的认知优势
“首届产学研工作
特别贡献奖”
北京大学计算语言学研究所
8
http://icl.pku.edu.cn
CLKB 的广泛应用
自由下载以万计
北京大学计算语言学研究所
协议用户遍天下
http://icl.pku.edu.cn
双语语料库
多语言概念词典
词义标注语料库
中文概念词典
基本标注语料库
专业术语库
短语结构库
现代汉语语法信息词典
北京大学计算语言学研究所
10
http://icl.pku.edu.cn
新的生长点
阳光雨露:各项基金与业界同仁的支持
虚词用法库
成语知识库
概率语法词典
沃土CLKB
语料库
概念词典 语法词典
北京大学计算语言学研究所
隐喻知识库
语义词典
http://icl.pku.edu.cn
成语知识库的建设理念——面向语言能力提升
《国家中长期语言文字事业改革和发展规划纲要
(2012—2020年)》将“提高国民语言文字应用
能力”作为主要任务之一。
人的语言能力与机器语言能力
机器对成语的理解(包括确切翻译)是文本内容理
解的一个重要组成部分。
成语的正确理解和恰当运用是人和机器的语言能力、
文化素养的重要反映(罄竹难书)。
成语数量庞大,毕竟有限,
基于成语知识库,绝大部分成语的理解(翻译)问
题就会迎刃而解。对成语的运用亦可提供参照。
ICL/PKU建成了一个成语知识库,并基于该成语知
识库开展了多词表达、比较语言学、隐喻计算、
计算机辅助翻译等方面的研究。
北京大学计算语言学研究所
http://icl.pku.edu.cn
提 要





引言:成语在现代汉语中的使用情况
北大成语知识库的建设理念
成长中的北大成语知识库
有关成语与成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的北大成语知识库
第一阶段 (1986年— )《现代汉语语法信息词典》GKB的组成
部分
GKB是一部面向语言信息处理的大型电子词典。它按照语法
功能和意义相结合的准则收录了7.3万余词语。依照语法功
能分布的原则,建立了词类体系,完成了这7.3万词语的归
类。并在此基础上,分 类描述每个词语的各种语法属性。
引自中国工程院编《20世纪我国重大工程技术成就》之第二项汉字信息处
理与印刷革命(暨南大学出版社2002年第一版31页)
清华大学出版社出版了介绍这部电子词典的专著
《现代汉语语法信息词典详解》第一版1998年,第二版2003年
获1998年度教育部科技进步奖二等奖
当前GKB收了8万余汉语词语,其中成语库和习用语库共有9千
多。
北京大学计算语言学研究所
http://icl.pku.edu.cn
GKB中成语库的样例
词语
全拼音
同 粘 子 句 定 状 谓 补 主 宾
形 着 类 首 语 语 语 语 语 语
阿谀谄媚
e1yu2chan3mei4
IV
定
阿谀逢迎
e1yu2feng2ying2
IV
定 状 谓
阿谀奉承
e1yu2feng4cheng2
IV
定 状 谓
主 宾 这个人善于~/~让人瞧不起
阿谀顺旨
e1yu2shun4zhi3
IV
定 状 谓
主 宾 她讨厌~/这人~/他~地点头
北京大学计算语言学研究所
谓
备注
宾 上下级交往,不能~/他很
会运用~的手段/领导同志
需要认真的批评,不需要~
宾 这个人~
http://icl.pku.edu.cn
依据句法功能的成语子类划分准则
北京大学计算语言学研究所
http://icl.pku.edu.cn
基于句法功能的成语子类的划分
北京大学计算语言学研究所
http://icl.pku.edu.cn
关于成语子类划分的讨论
——与韩国姜柄圭博士讨论
2013年8月1日来信质疑
动词功能成语、名词功能成语都能理解,但是修饰功能成语
(IM)与副词功能成语(ID)、区别词功能成语(IB)稍微
模糊。修饰功能是否包含副词功能和区别词功能?例如:
“得意洋洋”既可以作为定语,也可以作为状语(“得意洋
洋地说”;得意洋洋的样子)。
还有,形容词功能成语与补语功能成语的层次是否不一样?
又如“不折不挠 ”(“参天耸立, 不折不挠,对抗着西北
风”。 “尽管有些为难,他却不折不挠”。“不折不挠的意
志” ) 好像有动词性特点。为什么把它分为修饰功能成语?
北京大学计算语言学研究所
http://icl.pku.edu.cn
关于成语子类划分的讨论
——与韩国姜柄圭博士讨论
2013年8月3日回信摘要:成语不是按语法功能划分出来的,
是现代汉语中一类特殊的词语。为了句法分析的需要,GKB
对所收的成语按其常用的语法功能划分子类。“得意洋洋”
确实既可以作为定语,也可以作为状语(得意洋洋地说;得
意洋洋的样子),如果仿照基本词类的处理方法,就要划归
两个子类,要设两个记录。权衡利弊,GKB没这么做,而是
另设了一个“修饰功能成语”子类。形容词是可以做补语,
还可以作谓语、定语等等。有些成语,如“五体投地”(佩
服得五体投地)、 “滚瓜烂熟”(背得滚瓜烂熟),基本上
只做补语,将其独立出来,另设了一类“补语功能成语”。
汉语动词功能最泛。可以作谓语、主语、宾语、定语等等。
根据实例,“不折不挠”可以划归动词。研制GKB之初,没
有现在这么多语料可以利用。难免有瑕疵。
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库
第一阶段 (1986年— ): 《现代汉语语法信息词典》
第二阶段 (2004年— ):在“综合型语言知识库”的规划下,
单独建库。
 收入成语(广义的,包括没有典故的习惯用语)36000多条。
 除 GKB 原有的“主语”、“谓语”、 “句首”等 句法属
性信息外,增设了11个新的属性字段:
成语、级别、变体、近义、反义、直译、意译、英语近似、
译者、释义、词频、来源。共计23个属性字段。
 特别是“直译”、“意译”、“英语近似” 字段既重要,
又难填。
 现已完成1万多条成语的属性值填写,其中2600多条记录的
英语字段是王雷博士自己翻译的。
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库
成语:自暴自弃
直译: to expose and throw oneself away
意译: to abandon oneself to despair
英语近似: to cut off one's nose to spite one's face
近义:妄自菲薄、自惭形秽
反义:妄自尊大、自高自大、自命不凡
成语:开门揖盗
直译: to open the door and invite robbers
意译: to invite disaster by letting in evildoers
英语近似: Opportunity makes the thief
近义:自讨苦吃、引狼入室
反义:关门打狗
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库
第一阶段 (1986年— ): 《现代汉语语法信息词典》
第二阶段 (2004年— ):“综合型语言知识库”
第三阶段 (2010年— ):“历代语言知识库建置”计划
2010年加入“历代语言知识库建置”计划起,成语知识库的发
展有了更开阔的视野,更加重视成语知识库在汉语教学特别
是东亚地区的汉语教学领域所能发挥的潜能。进展如下:
(1) CIKB与历代语言知识库中的另一成果“诗词曲典故资
料库”进行连接,相互参照。
实现成员的优势互补,提高知识库整体品格。
倾城倾国——倾国风流、一顾倾城、名花倾国、倾人城、倾城
色、倾城国等等。
成语与典故的对应使两个自立的知识库交相辉映,可以让人同
时领悟成语与典故的含义,不仅有助于理解使用成语的汉语
文本的内容,还能增强赏析中国古典文学瑰宝的能力。
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库
第一阶段 (1986年— ): 《现代汉语语法信息词典》
第二阶段 (2004年— ):“综合型语言知识库”
第三阶段 (2010年— ):“历代语言知识库建置”计划
进展如下:
(1) CIKB与“诗词曲典故资料库”进行连接。
(2) 建构汉语成语教学网站。即罗凤珠老师设计并实施的
「成語典故分階多語教學網站」。
内容:2000条成语,英、日、韓文翻譯、詞性與讀音標記、
變體、近義與反義成語、成語釋義、出處、例句等成語知識,
與由元智大學所建置的典故知識庫對應。
教学理念:体现了分阶段,多语言,多功能的先进理念。
新认识:如两岸读音的差异——“从容不迫”、“不可收拾”
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库
第一阶段 (1986年— ): 《现代汉语语法信息词典》
第二阶段 (2004年— ):“综合型语言知识库”
第三阶段 (2010年— ):“历代语言知识库建置”计划
进展如下:
(1) CIKB与“诗词曲典故资料库”进行连接
(2) 成語-典故之分階段多語言教學網站
(3) 汉语成语教学、科研实践活动
王雷著《汉英对照中国成语1000》
王雷, 俞士汶,朱学锋,罗凤珠. 汉语成语知识库与汉语
教学. 第八届中文电化教学国际研讨会,中文教学现代化学
会主办. 会议地点: 上海,2012年8月8-11日.
国际中国语言学学会第21 届年会(IACL 21)之工作坊
——历代语言知识库的建构与应用(2013年6月5日-7日)。
北京大学计算语言学研究所
http://icl.pku.edu.cn
北京大学计算语言学研究所
http://icl.pku.edu.cn
北京大学计算语言学研究所
http://icl.pku.edu.cn
成长中的成语知识库——成语知识库的建构方法
成语知识库也是一项已历时27年的大型语言工程 。
CLKB建构的全过程都采用人机互助的方法。自动建构本质上
是机器辅助构建,尽可能采用适用的成熟的软件技术,如数
据库技术,机器学习技术等等,可以保证工程的规模和进度。
成语知识库又是一项知识密集型的高级语言工程 。
单纯依赖自动技术建构的语言知识库的质量不能满足应用的需
要,因此必须投入相当多的人力,必须投入高水平的专家的
力量。专家的知识和奉献才是语言知识库质量的保证。对此,
我们始终保持清醒的认识,坚持不懈。
北京大学计算语言学研究所
http://icl.pku.edu.cn
主要内容





现代汉语中的成语及其特点
现代汉语成语知识库的建设理念
成长中的北大成语知识库
有关成语和成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
成语知识库的研究课题
小视野:成语的理解与运用
既面向机器,又面向人,以面向人的研究为基础,两者相
互促进。
理解与运用的困难所在?
大视野:紧扣历代语言知识库
对历代语言知识深层次研究的启示与贡献:语言演化与社
会环境变迁的交互影响。
成语可否作为切入口?
小视野与大视野也是互相补足的。
北京大学计算语言学研究所
http://icl.pku.edu.cn
成语理解与运用的困难所在
含不常用字:另辟蹊径,高屋建瓴,
言简意赅,
锱铢必较,罄竹难书……
含费解的词:膏火自煎,乌合之众,独具匠心,
固若金汤, 司空见惯,格物致知……
一知半解,似是而非:一丝不苟,感同身受,司空见惯
(十忽一丝,十丝一毫,十毫一厘,十厘一分,十分一寸,十寸一尺,十尺一丈)
褒贬:洛阳纸贵
↔ 罄竹难书
一丝不苟 ↔ 斤斤计较 / 锱铢必较(褒贬两用)
语义变化:金屋藏娇
使用依赖语境:坚如磐石 ↔ 固若金汤
非字面义,与典故有密切关系:胸有成竹,金
屋藏娇,朝三暮四,杯弓蛇影,班门弄斧……
北京大学计算语言学研究所
http://icl.pku.edu.cn
成语与典故的关联有待挖掘与表达
典故:诗文里引用的古书中的故事或词句(《现代汉语词典》)。
所謂典故,一般辭書的解釋是:「詩文等作品中引用的古代故事和有來歷出處的詞語」,
分為「語典」、「事典」及「語事混合典」三種。語典指變化前人詞語,但沿用前人
詩意的寫法;事典指引用古代故事或某人生平事蹟以豐富詩意的寫法;語事典混合使
用是指融合前人用過的典故之用語及同一個典故故事的用法。不同的詩人引用相同典
故時,或直接使用前人使用過的詞語與詞義,所以詞義相同,用詞也相同或相似;或
因詩句中所側重的詞義不同,致使用詞或相同或不同。也有典故出處不同,詩句中所
取的詞義相同或相近,用詞不同。(引自台湾罗凤珠老师的一篇文章)
成语
有的来源于典故(故事):金屋藏娇,叶公好龙。
有的直接取自于典故(词句),一日三秋。
(彼采萧兮,一日不见,如三秋兮!)
北京大学计算语言学研究所
http://icl.pku.edu.cn
成语与隐喻
调查成语中的隐喻表现手法
学海文林,狐假虎威,龙腾虎跃, 花容月貌
对现代汉语中隐喻识别、理解与生成的启示
作用
知识的海洋,他是老狐狸, 歌坛腾飞,姑娘花一样
成语与隐喻的多语言表达
北京大学计算语言学研究所
http://icl.pku.edu.cn
语言演化与社会环境变迁的交互影响
度量衡制度改变的影响:
锱铢必较,半斤八两,斤斤计较,尺短寸长,丝毫不差
生活用具变化的影响:
光阴似箭(白莎:光阴犹如子弹)
同室操戈(同室操刀)
化干戈为玉帛(要大炮,不要黄油)
社会生态变化的影响:
三从四德
新“三从四德”:老婆出门要跟“从”,老婆命令要服“从”,
老婆讲错要盲“从”;老婆化妆要等“得”,老婆花钱要舍
“得”,老婆生气要忍“得”,老婆生日要记“得”。
北京大学计算语言学研究所
http://icl.pku.edu.cn
可否预测新成语的出现?通俗化趋势?
《中国语言生活状况报告》2011年前50个高频成语:
前所未有, 见义勇为, 坚定不移, 全力以赴, 脱颖而出,
众所周知, 无论如何, 丰富多彩, 一如既往, 不可思议,
愈演愈烈, 引人注目, 实事求是, 层出不穷, 与时俱进,
不可或缺, 与众不同, 独一无二, 供不应求, 千方百计,
名副其实, 深入人心, 显而易见, 出人意料, 可想而知,
当务之急, 淋漓尽致, 截然不同, 不约而同, 息息相关,
雪上加霜, 如火如荼, 不得而知, 小心翼翼, 不知不觉,
迫不及待, 一应俱全, 意想不到, 源源不断, 水涨船高,
突如其来, 毋庸置疑, 想方设法, 莫名其妙, 沸沸扬扬,
拭目以待, 全心全意, 耳熟能详, 风口浪尖, 成千上万。
《新华成语词典》,商务印书馆,2002
--------------------------------------------------------------------调查研究, 自力更生, 艰苦奋斗
北京大学计算语言学研究所
http://icl.pku.edu.cn
成语知识库的研究课题
支持成语知识库继续发展的新计划:
1)国家自然科学基金项目“隐喻识别与理解的理
论与方法研究”(2012年-2015年,王治敏博士
主持,俞士汶参加)
2)国家自然科学基金项目“汉语全文词义标注关
键技术研究”(2013年-2016年,曲维光教授主
持,朱学锋参加)
3)北京大学计算语言学教育部重点实验室开放课
题“汉语和英语多词表达中的隐喻研究”(2013
年起,王雷主持)。
4)争取973课题“融合三元空间的中文语言知识与
世界知识获取和组织(2014CB340504)”的支持。
北京大学计算语言学研究所
http://icl.pku.edu.cn
主要内容





现代汉语中的成语及其特点
现代汉语成语知识库的建设理念
成长中的北大成语知识库
有关成语和成语知识库的研究课题
结语与致谢
北京大学计算语言学研究所
http://icl.pku.edu.cn
结语与致谢
座右铭:“路漫漫其修远兮,吾将上下而求索”。
感谢第十四届中国少数民族语言文字信息处理学术研讨会
和于洪志教授、赵小兵教授的邀请,让我们获有机会
来到美丽的兰州,与大家交流,十分荣幸。
谢谢大家耐心听讲。
欢迎大家访问
北京大学计算语言学教育部重点实验室 www.icl.pku.edu.cn/klcl/
北京大学计算语言学研究所 www.icl.pku.edu.cn
北京大学软件与微电子学院语言信息工程系
北京大学计算语言学研究所
www.ss.pku.edu.cn
http://icl.pku.edu.cn