PowerPoint 演示文稿
Download
Report
Transcript PowerPoint 演示文稿
文字信息国际标准
进展,问题与思考
张轴材
语言文字应用研究所 客座研究员
ISO/IEC IRG
汉字组 召集人
书同文数字化技术有限公司 CEO
[email protected]
2003-11-05 长沙 全国语言文字信息化工作会议
为什么此处只谈文字信息化?
对语言信息化标准的进展缺乏了解
个人充其量只有一些“数量文字学”
的概念
字词语,字是基础;
文字信息化是语言信息化的基础
文字信息化的最基本的任务
建立传统的真实世界的文字(古今中
外)与计算机世界(虚拟世界)的联系:
编码汉字-汉字编码 Character Encoding
≠IME
编码汉字是文字在计算机内最基本
的表达形式
文字编码特点
按文字编码,而不是按语言、国度、
地域编码;CJK汉字统一编码。
按抽象字形编码,而不是按字音、字
义编码,也不是按具体造型编码。
体系结构与过去ISO 2022迥然不同
在基本多文种平面,16比特全编码
UCS/Unicode 完全不同于 Code Page !!!
ISO 2022 vs. UCS 16-Bit
Full Encoding 编码结构
文字信息标准化的集中体现
ISO/IEC 10646 & Unicode
80 年代末启动
ISO/IEC 10646-1:1993 = GB 13000
ISO/IEC 10646-1:2000
+ CJK_A,蒙, 藏,彝,朝…
ISO/IEC 10646-2:2001
+ CJK_B, Tai Le, Yijing…
ISO/IEC 10646-2003 = Unicode 4.0
Amendment 1 to 10646-2003 开始
Amendment Now ?
未出版就开始作补编?
! 好像 IT 的特点。
文字的信息技术标准像软件一样,版
本不断更新。(e-Publishing的驱动力)
标志着文字的信息化步伐加快,正向
深度和广度进军。对此要有足够的认识。
不能拘泥于旧式的老套套、老本本。
Yes
广
度- 文种的扩充
古波斯文
古希腊文
古希腊音乐符
巴斯巴文
西双版纳傣文
国际音标IPA 扩充
古汉字:隶,篆,甲骨,…
深 度
文字属性(Characteristics)的扩充
SC2 职能的扩大 (SC20 Character
Ordering 纳入SC2 )
UCA : Unicode 4.0 Collation
Algorithm 理序算法
深 度
国际基本汉字子集 International Basic
CJK Ideograph Subset,结合国家规范汉字表
定义之。(IRG#21)
WG2 决议:SuperCJK Database 纳入字典
指针:康熙字典、汉语大字典、大汉和、大
字源。Signifying / Signified 能指/所指明晰
化 。例:U+082B8 signifies 艺,芸,藝。指
向了最主要的形音义属性。
深 度
从汉字的“水平认同”走向“垂直关
联”
简繁异体汉字的关联(有方向性、耦
合强度、时间性、合法性等问题,略)
中文域名的简繁异关联已经提上日程
清华大学= 清華大學= 淸蕐大學
深 度
Selector 异体字选择符
USI=Unique Sequence Identifier 具有
特异性的序列标识符,亟待研究
…
Variant
问 题
全球化步伐加快,我体制跟不上
美国-微软-Unicode形成强势难敌
我缺乏有效参与:Tai Lue, Phags-Pa
与IT界结合不紧密,未形成合力
长“坐而论”,偶“起而行”。
思 考
一个文字发源于、应用于一个国家,
但是它并不只属于这个国家。这个文字
信息的标准化步伐并不完全以我们的意
志为转移。
只有积极地参与、介入国际标准的开
发,才能处于主导的地位。
思 考
国家信息化,电子政务、电子政务、
电子商务、数字图书馆、电子出版、电
子教育,语言文字信息化是先行官,文
字信息标准化是基础。
紧紧把握文字标准化的要点,做好高
层协调、多方协作;掌握文字信息的核
心资源、推动文字技术的核心技术开发。
思 考
高度重视汉字属性-知识库的建设
(Attributes - Characteristics) 发掘汉
字的深层内涵,引导语文信息化发展。
文字信息标准化工作从IT界为主应当
尽快转向文字工作者为主;
对以藏文为代表的民族文字信息化的
走向做出果断的、正确的决策。
最主要的建议
期望国家语委真正担当起语言文字信
息标准化的领导者的角色。
抓大放小,有所不为,保证重点。组
织落实、任务落实、项目落实、经费落
实。
谢谢!问题?
IRG: www.cse.cukh.edu.hk\~irg
UniHan: www.unihan.com.cn
Email: [email protected]
国家语言文字资源建设—汉字属性数据库 HADB
语
词
字
语
语属性:音频义,同反义
CJK汉字
词属性:音频义,同反义
CJKA
CJK B
n-Gram
n-Gram属性
CJK C
CJK D
词
汉字
形 音 义 码 频 序简 繁 异
属性Characteristics
汉字属性数据库HADB
vs.
汉字知识平台HKP
HADB 是HKP的基础:
Hanzi Knowledge Platform
语言工作的编纂平台
HADB 是链接传统字书、辞书的纽带
HADB是挂接语料库的桥梁
汉字知识平台HKPAuthoring Tool
E-字书集
DictBank
Full Text Retrieval
Engine
例证提取
询经问典
HADB
汉字属性库
语料库
CorpusSet
OCR Engine
Operating System & Data Base Manager
ISO/IEC 10646 GB 13000
• GB 13000 ≠GB 18030
• GB 18030 = GBK 再扩充
文字定义 (Script≠Language)
Script : A set of graphic
characters used for the written
form of one or more languages
用于一种或多种书面形式的语
言的图形字符的集合
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩
汉字
统一编码
CJK Unification
中日韩汉字
统一编码
CJK Unification
中日韩汉字
统一编码
简繁不认同
CJK Unification
中日韩
汉字
统一编码
结构不同
不认同
CJK Unification
源字集
分离者
不认同
CJK Unification
源字集分离者不认同
CJK Unification Rule
中日韩汉字认同规则
汉
字
编码的+未编码的
以CJK + CJK_A为基础
以国际基本汉字子集BIIS ∋国家规范汉
字为重点
加入CJK_B
以后加入CJK_C
古汉字
汉字系其他字
形 – 字形,字种及其代表
典型字样
中日韩、大陆港澳台特征
部首0 +(部首1)
康熙部首
汉语大字典 200部首
部首外笔画数
总笔画数
笔顺序列
音
汉语拼音+调 (+n 多音)
注音BoPoMoFo+调 (+n 多音)
反切
CTS : Character To Speech
单字发声引擎
Katakana 日文发音
义
现代字义
古代字义
主要/次要字义
在主要字典中的义项
摩登新义:“酷”,“靓”
港台变义
日文字义
码
ISO/IEC 10646 Code=Unicode
GB 2312
GBK
Big5 – CNS 11643
ShiftJIS – JIS
HKSAR Code
电报码
K,V,……
频
平衡语料中字频
• 古籍语料中字频
• 现代社会生活“当今字频”
•
古籍字频
书同文公司八亿古籍语料统计
图表1(1-100)
覆盖率(Coverage)
40%
35%
30%
25%
20%
15%
10%
5%
0%
34.25%
30.34%
25.82%
19.90%
28.22%
35.97%
32.36%
22.99%
16.15%
11.00%
0.00%
0
10
20
30
40
50
60
70
80
字头(Hanzi)
90 100
古籍字频
图表2(100-500)
覆盖率(Coverage)
70%
67.19%
62.72%
65%
60%
56.83%
55%
48.71%
50%
45%
40%
65.08%
59.99%
53.15%
43.15%
35.97%
35%
100
150
字头(Hanzi)
200
250
300
350
400
450
500
古籍字频
图表3(500-1000)
覆盖率(Coverage)
85%
78.97%
80%
74.00%
75%
70%
65%
80.96%
76.66%
70.88%
67.19%
500
600
700
800
900
字头(Hanzi)
1000
古籍字频
图表4(1000-10000)
覆盖率(Coverage)
99.10%
97.55%
95%
99.73%
99.43%
98.55%
100%
99.62%
99.81%
95.66%
91.65%
90%
85%
80.96%
80%
1000
2000
字头(Hanzi)
3000
4000
5000
6000
7000
8000
9000
10000
古籍字频
图5(10000-30136)
覆盖率(Coverage)
100.00%
99.96%
99.95%
99.93% 99.95%
99.80%
99.97%
99.98%
99.98%
99.89% 99.91%
99.90%
99.85%
99.97%
99.86%
99.81%
字头(Hanzi)
10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000
古籍字频统计 样张
古籍字频-中日韩标准对古籍的覆盖率
99.28%
使
用
字
·
覆
盖
率
95.57%
KBGTJ
95.26%
使用字
覆盖率
91.91%
19172
72.57%
12940
6208
5680
4607
370 1.39%
Go
GBK
Jo
Jo+
字符集
Ko
Big5
古籍字频- 随机查询、关联查询
国家语委十五科技攻关重点项目之一
书同文公司开发辅助软件
古籍字频查询示例
例:查询前若干个高频字
例:关联字字频查询
序 Ordering & Collating
•
在指定集合中
• 以总笔划为序,横竖撇点折……
•
以拼音为序
• 综合理序(一二三四五怎么排序?)
简繁异-单字关联
关联属性:简繁?正异?新旧?古
今?通假?中日?正讹?避讳?……
耦合强度
转换方向-对应方向:语境相关
语词背景 Context
代码转换vs.简繁转换
大量的异体字相互关联 Variants
Inherently Associated Each Other
簡體-繁體關係:简/簡
正體-異體關係:修/俢 兔/兎 刃/刄
正字-訛(譌)字:久/乆 派/泒 叐/犮
通假-被通假:詳/佯
古今字:镸/長
新舊字形:青/靑 說/説 媪/媼
中日:売/卖 図/图 单/単
形近異義字:义/叉 刺/剌 諫/諌
避諱字:弘/
玄/
燁/
胤/
异体字存在于多个代码页
• Many Code Pages - Before
團団 JIS
團
团
GB
團
Big5
KSC
异体字被归纳在一个统一的体系内
• Many Code Pages - Before
• Single Code Set – Now !
团-團-団
Unicode/CJK
檢索字串 匹配數目 查詢時間
(ms)
無
有
荊 荊
軻 軻
荆
轲
無
有
無
有
1
42
130 316
例:文字关联帮助读者检索
說
说
説文
再例:文字关联帮助读者检索
渕
淵
小渊
词、语
现代词库 10万?
古汉语词库20万?
新词 (按揭,丁克,Kiosk)
同义词库(不一定符合传统语言学,孙
中山=孙逸仙=孙文, OpenType = Open
Type)
专业词库
nGram
不一定具有语言学的意义,但对信息技
术有利。
例:Bigram “子曰”的高频度,有利于
排除“子日”,“于曰”…