HNC理论概要

Download Report

Transcript HNC理论概要

HNC的语言模型
苗传江
2006年8月22日 北京师范大学
提纲
 1.
HNC说略
 2.
HNC的目标和基本内容
 3.
HNC的语义网络
 4.
HNC的概念表述模式
 5.
HNC的语句表述模式
 6.
HNC的知识表示体系
 7.
HNC的语言理解技术
 8.
小结
1. HNC说略
 Hierarchical Network of Concepts
(概念层次网络)
 一个关于NLU的新理论
(Natural Language Understanding, 自然语言理解)
 一种表述和处理自然语言的新模式
 基于概念和语义的语言理论
 中国科学院声学研究所黄曾阳先生创立
 发展历程
 1989~1993
 1994~1996
 1997~2000
 2001~
理论创立
理论实验
技术实现
技术应用
 影响和地位



业界关注
三大流派之一
应该带来语言学的一场革命
 黄曾阳先生与HNC




家学渊源
多学科优势
闭关面壁
学术风格
 我与HNC
2. HNC 的目标和基本内容
目标:
以概念联想脉络为主线,建立一种模拟大脑
语言感知过程的自然语言表述模式和计算机理解
处理模式,使计算机获得消解模糊的能力。
 自然语言的五重模糊





发音模糊
音词转换模糊
词的多义模糊
语义块构成的分合模糊
指代冗缺模糊
 消解模糊


语言理解的首要任务
对NLU当前阶段的定位
 如何获得消解模糊的能力?消解模糊靠什么?
 NLU的必由之路


模拟大脑语言感知过程
建立概念联想脉络
 大脑感知或理解语言的实质
概念联想脉络激活、扩展、浓缩、转换与存储
的全过程运作
 概念联想脉络与语言概念空间
 HNC的两个基本假设

第一假设:
所有的自然语言空间对应着同一的语言概念空间。

这是对语言本体的认识,也是对“自然语言理解”的理解。

语言概念空间的同一性是第一位的,差异性是第二位的。

补充1:语言概念空间并非概念空间的全部。

补充2:语言概念空间的历时性变化是局部的、缓慢的。

第二假设:
语言概念空间是一个四层级的结构体。


这是关于语言概念空间结构特征的假设。
语言概念空间的四个层级:





基层
第一介层
第二介层
上层
概念基元 空间/世界/符号体系
句类 空间/世界/符号体系
语境单元 空间/世界/符号体系
语境框架 空间/世界/符号体系
四层级构成语言思维的载体,简称概念层次网络(HNC),
因为语言概念空间的基本特征是它的层次性和网络性。
 HNC第二假设隐含着三项“无限与有限”的假
设:

语言概念无限而语言概念基元有限;

语句无限而语句的概念类型(句类)有限;

语境无限而语境单元有限。
 HNC的具体目标就是为语言概念空间的四个层
级设计符号体系,建立表述模式。
 进展:前两个层级的模式已基本完善,后两个
层级的模式取得了一定进展。
前两个层级的进展可概括为5个方面:

设计了对语言概念空间进行总体描述的语义网络

建立了自然语言概念体系的表述模式

建立了自然语言语句的表述模式

形成了提纲挈领式的知识表示体系

形成了称为句类分析的自然语言理解处理技术
HNC的基本内容
句类分析系统
知 识 库
概念和语句表述模式
语义网络
3. HNC的语义网络
 对自然语言概念体系的总体描述
 语言概念空间的框架结构
 建立概念联想脉络的基础
 HNC语义网络概览

抽象概念的三大聚类




基元概念
基本概念
逻辑概念
具体概念


基本物
挂靠近似表达
 HNC语义网络的特点





概念化
基元化
层次化
网络化
不是词义分类系统
 HNC语义网络的思想来源

国内



训诂学
汉语“字义基元化、词义组合化”现象
国外



Quillian语义网络(semantic network)
Fillmore格语法(case grammar)
Schank概念从属理论(conceptual dependency)
4. HNC的概念表述模式
 词汇层面的概念联想脉络
 对词汇语义的形式化描述
 HNC符号
HNC符号示例
思考 v80
产生 v311
情感 g713
思维 g80
消除 v312
爱 vg7135
想法 r80
推动 v361
爱情 gr71359
力 g008
抑制 v362
保护 v3219
力量 gz00
调节 v360
照顾 v653219
力度 z00
年 wj10维护 v93219
弱 u00c21
月 wj10-0
保卫 vc3219
强 u00c22
日 wj10-00 写作 va31
萌芽 gv10ac41 体 j20作家 pa31
成长 v10ac42 面 j20-0
治疗 va82
成熟 vu10ac43 线 j20-00
处方 gwa82
衰亡 v10ac44 点 j20-000 药物 wa82
达成 vc249a$(v308|(jlv001/v810))
立法 v9311&ga5
违法 vd002|ga5
承担 v901
责任 rc010
圆满 u30a
完成 v30a8
精力 gz655098
旺盛 zu5098e71
幸福 gu50a9ae81
生活 gv50a9
 关系即意义
 消解模糊示例
召开 vc3959+va01
会议 gc39e219
回忆 vg6802
会意 v8108
精力 gz655098
旺盛 zu5098e71
经理 pea20/p44e61
经历 vr65108
 以关联性代替任意性,显现词义之间的概念关联。
 首要目的和价值不是给出概念的精确表示,而是给
出概念联想脉络的线索。
 每一个符号基元都具有确定的意义,可以充当概念
联想的激活因子。
 具有语义完备性,能够与自然语言的任何词语建立
起语义映射关系。
5. HNC的语句表述模式
 句子层面的联想脉络
 建立了句子的语义结构表示式
 发现了句子语义的57种基元类型
 可以描述任何句子的语义结构
 基本句类及其表示式示例
 主动反应句
X21J = X2A + X21 + XBC
反应者+反应+反应引发者及其表现
张三反对李四的看法。

信息转移句
T3J = TA + T3 + TB + T3C
转移发出者+转移+接收者+转移内容
张三告诉李四王五结婚了。
 基本句类是句子语义的基元类型
老张表扬了小王的工作成绩。
X21T3*^21J = TAX2A + X21T3 + XBC
 句类表示式是



句子语义的基本框架
语句理解的启发性知识
句子的深层结构
 确定句类表示式是语句理解的基本任务
 句类和语义块是对句子的语义描述

与句法结构无关





特征语义块有复合构成




主席团坐在台上。< > 台上坐着主席团。
张三打了李四。< > 张三把李四打了。< > 李四被张三打了。
张三打了李四。< > 张三讨厌李四。< > 张三支持李四。
张先生喜欢李小姐的个性。 < > 张先生喜欢李小姐的妹妹。
胡锦涛将对俄罗斯进行友好访问。
很多人对北京的交通状况持悲观态度。
语义块可以分离

李四被张三打断了腿。

中国正在对国有企业进行产业结构调整。
句蜕要还原为句子

这些话语似乎表示了他对奴隶的同情。
6. HNC的知识表示体系
 区分概念、语言、常识及专业三个层面
 定位于消解语言模糊
 以概念联想脉络为主线,以句类知识为纲领,把语法、
语义、语用和世界知识综合起来进行抽象与提炼
 概念化、数字化,不是用自然语言描述自然语言
 HNC汉语词语知识库示例:
词形: 起诉
概念类别: v;ug
HNC符号: va5a
句类代码: T3R011*322
格式: !113;!320
@S: TB:pea56 RB2:pe;p
@CA: {ug,Q H:gw|书;状;}
T3R011*322J = TA + T3R011 + TB + RB2
7. HNC的语言理解技术
H
N
C
理
解
处
理
系
统
的
基
本
框
架
预处理
基本词库
语义块感知和句类假设
句类检验
语义块构成分析
语境生成
隐知识揭示
短时记忆
要点主题分析
概念知识库
词语知识库
句类分析三部曲:
 语义块感知和句类假设

lv感知;v排除排队
 句类检验

预期匹配
 语义块构成分析

同行优先准则
刘嘉玲正式向上海中级人民法院起诉汕头雅丽丝实业公司。
 以语义为主导
 自上而下和自下而上相结合
 分析结果及其应用
以搜索“布什访问俄罗斯 ”为例
布什访问俄罗斯
布什出访俄罗斯
布什对俄罗斯进行国事访问
布什抵达俄罗斯开始为期五天的访问
访问俄罗斯的布什总统接见了莫斯科的美商代表
8. 小结
 HNC建立了基于概念联想脉络的语言模型,揭
示出自然语言总体上是well-defined的。
 HNC的语言模型可以使计算机实现对大脑语言
感知过程的初步模拟,获得相当强的消解模糊
能力,从而迈上自然语言理解的第一个台阶。
 HNC的语言模型提供了观察自然语言的望远镜
和显微镜,为语言研究开辟了新天地。
附:资源
 黄曾阳. 1998. HNC(概念层次网络)理论. 北京: 清华大学出版社
 黄曾阳. 2004. 语言概念空间的基本定理和数学物理表示式. 北京:
海洋出版社
 苗传江. 2005. HNC(概念层次网络)理论导论. 北京: 清华大学
出版社
 晋耀红. 2006. HNC(概念层次网络)语言理解技术及其应用. 北
京: 科学出版社
 苗传江, 杜燕玲(主编). 2004. 第二届HNC与语言学研讨会论文集.
北京: 海洋出版社
 张全, 萧国政(主编). 2001. HNC与语言学研究. 武汉: 武汉理工大
学出版社
 http://www.hncnlp.com/
 http://www.hncit.com/
敬请批评指正,
谢谢!