《国际标准ISO/IEC 10646中的汉字》 进展、规则与程序 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组前召集人 书同文数字化技术有限公司 CEO [email protected] 2004-07-27 青岛 全国语言文字标准化工作会议 声 明 语言文字外行,越俎代庖者  无职无衔,并无权威性  一切都是FYI : For Your Information Only 仅供参考  欢迎打断冗言,随时提问! 

Download Report

Transcript 《国际标准ISO/IEC 10646中的汉字》 进展、规则与程序 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组前召集人 书同文数字化技术有限公司 CEO [email protected] 2004-07-27 青岛 全国语言文字标准化工作会议 声 明 语言文字外行,越俎代庖者  无职无衔,并无权威性  一切都是FYI : For Your Information Only 仅供参考  欢迎打断冗言,随时提问! 

《国际标准ISO/IEC 10646中的汉字》
进展、规则与程序
张轴材
语言文字应用研究所 客座研究员
ISO/IEC IRG
汉字组前召集人
书同文数字化技术有限公司 CEO
[email protected]
2004-07-27 青岛 全国语言文字标准化工作会议
声 明
语言文字外行,越俎代庖者
 无职无衔,并无权威性
 一切都是FYI : For Your Information Only
仅供参考
 欢迎打断冗言,随时提问!

提
纲
进展
2. 规则
3. 程序
4. 体会
1.
1. 进
展(字符集标准)
从小字符集向大字符集过渡
 从单文种向多文种过渡
 从按国家/地域/语言编码向按文字编码过
渡
 从Code Page向Unicode过渡
 新一代的代码系 NT: New Technology

文字信息标准化的基础
ISO/IEC 10646 & Unicode
80 年代末启动
 ISO/IEC 10646-1:1993 = GB 13000 CJK
 ISO/IEC 10646-1:2000
+ CJK_A,蒙, 藏,彝,朝…
 ISO/IEC 10646-2:2001
+ CJK_B, Tai Le, Yijing…
 ISO/IEC 10646:2003 = Unicode 4.0
 Amendment 1 & 2 to 10646-2003

文字编码特点
按文字编码,而不是按语言、国度、
地域编码;CJK汉字统一编码。
 按抽象字形编码,而不是按字音、字
义编码,也不是按具体造型编码。
 体系结构与过去ISO 2022迥然不同
 在基本多文种平面,16比特全编码

进
展
最主要的文种已经编码:对中国而言,汉蒙藏
维哈朝彝壮傣…
 绝大多数汉字已经编码

– 康熙字典绝大多数字头 但



有重复2000多组
CJK_C1 72个
未编码 36个
– 汉语大字典全部字头

正在向深度和广度发展
广
度- 文种的扩充
古波斯文
 古希腊文
 古希腊音乐符
 八思巴文
 西双版纳傣文
 国际音标IPA 扩充
 古汉字:隶,篆,金文,甲骨文,…

广度- 文种的扩充

决议WG2M45.16(八思巴文)
根据ISO/IEC 10646: 2003第1补篇的投票意见,
和N2745(中国蒙古联合提案)、N2719
(Andrew C. West)、N2771(Andrew C.
West)的详细说明,WG2接受八思巴文专题
组的建议(N2829)。WG2同意将八思巴文
从ISO/IEC 10646: 2003第1补篇提出,而收入
第2补篇之中。WG2邀请各国家成员和联络
员对N2829遗留的问题反馈意见。
IPA & Tai Lue


决议WG2M45.4C和决议WG2M45.5C(国际音标扩
充)
我国提出的24个国际音标扩充符号全部为WG2接受,
并经进入ISO/IEC 10646: 2003第1补篇。
决议WG2M45.3(西双版纳傣文)
根据ISO/IEC 10646: 2003第1补篇的投票意见,和
N2748(中国)、N2761(爱尔兰)的详细说明,
WG2接受西双版纳傣文专题组的建议(N2825),
WG2同意N2825对编码方案和字符名称的修改,并同
意将其命名为“New Tai Lue”。
深
度 – 以汉字为例

CJK_C1继续编码,+两万汉字
 IICore 汉字国际基本子集批准进入AMD
 IRG 工作范围扩大到
– CJK 笔划
– 古汉字
亟待发展 - 异体字
 算符
 八卦、64卦…

IICore:
International Ideograph Core





决议WG2M45.11和WG2M45.32(CJK国际子集)
决议WG2M45.11:参考了提案N2780,WG2决定创建一个新的
集合,定名为IICORE(即CJK国际子集),并收录于ISO/IEC
10646: 2003第1补篇。
决议WG2M45.32:WG2决定,为了保证当前IICORE的稳定性,
未来对IICORE的修订应作为全新的集合并另行命名。且新的集
合必须是当前IICORE的超集,并向上兼容。
说明:
CJK国际子集收录汉字共有9811个,其中我国提出的汉字有
5825个。这些汉字属于已经在ISO/IEC 10646编码的CJK统一汉
字及其扩充,并将在ISO/IEC 10646的附录A《所有子集的图形
字符集合》中予以标记。提出这个汉字清单的目的是鼓励小型
汉字信息处理设备(如手机等手持式设备)实现商尽快对较大
的汉字编码字符集(近10,000汉字)予以实现。
例:用书同文查频软件
查询国际基本子集IICore覆盖率
Category
2000-2002
当代报刊语料
古籍语料
A
B
C
小计
99.88435%
00.09022%
00.01760%
99.99217%
96.54797%
00.59051%
00.01902%
97.15750%
古籍字频-中日韩标准对古籍的覆盖率
99.28%
95.57%
KBGTJ
95.26%
使用字
覆盖率
91.91%
使
用
19172
字
·
覆
72.57%
12940
盖
率
6208
5680
4607
370
Go
GBK
Jo
Jo+
1.39%
字符集
Ko
Big5
深

度 – 以汉字为例
决议WG2M45.34和SC2M13-05(IRG工作范
围的扩大)
决议WG2M45.34:参考了IRG决议M22.9,
WG2建议SC2批准扩大IRG的工作范围,新的
工作范围将包括古汉字和CJK 笔画的研究。
决议SC2M13-05:参考了WG2决议M45.34,
SC2批准IRG的工作范围扩大,新的工作范围
将包括古汉字和CJK 笔画。
深
度 – 以汉字为例
文字属性(Characteristics)的扩充
 SC2 职能的扩大 (SC20 Character
Ordering 纳入SC2 )
 UCA : Unicode 4.0 Collation
Algorithm 理序算法

深
度 – 以汉字为例
WG2 决议:SuperCJK Database 纳入字典
指针:康熙字典、汉语大字典、大汉和、大
字源。Signifying / Signified 能指/所指明晰
化 。例:U+082B8 signifies 艺,芸,藝。指
向了最主要的形音义属性。
深
度 – 以汉字为例
从汉字的“水平认同”走向“垂直关
联”
 简繁异体汉字的关联(有方向性、耦
合强度、时间性、合法性等问题,略)
 知识关联的日益增长的需求

深
度 – 以汉字为例
Selector 异体字选择符
 IDL: Ideograph Description Language
…
 Variant
深

修订认同规则
–
–
–
–

度 – 以汉字为例
N2533 first stroke ?
N2533A
N2534
N2535 Unification Rules
解决中国自己的问题!迫在眉睫。
– 类推简化字编码规则
– 非简化字正形问题
深


度 – 以汉字为例
多字形字表 for CJK_B
决议WG2M45.33(CJK汉字来源信息的书面
形式)
WG2接受N2830的提议,对CJK统一汉字中尚
未具备书面形式来源信息的汉字,按照
“CJK统一汉字区”的形式予以补充。进而,
WG2要求IRG为2005年1月会议准备一份包括
实现计划建议的评估报告。
CJK , CJK_A, CJK_B
2. 规则 – 以汉字为例

ISO/IEC JTC 1/SC 2/WG 2 N2652R
Title: Principles and Procedures for
Allocation of New Characters and Scripts
and handling of Defect Reports on
Character Names (例:IPA, IICore)
 Annex S:汉字认同规则
3. 国际标准化程序

建立新标准:
– CD : Committee Draft
– DIS : Draft International Standard
– IS : International Standard

在已有标准基础上补充更新:
–
–
–
–

pDAM: Proposed Draft Amendment
FPDAM: Final …
DAM: Draft Amendment
AMD : Amendment
提交、表决与Disposition – 三个重要环节
4. 体会杂谈(1)


进则尽忠,退则思过之感悟
标准的辩证法
– 标准文本不是真理的标准,实践才是检验标准的标准!
例:10646





短信的空中代码
PC OS, NT, Windows 2000
XML
OEB : Open E-Book Specs
4KQS, 4BCK, 基本光盘库,地方志,…
再例:PostScript vs. HTML, MARC vs. Dublin Core
EVD vs DVD vs HVD
– 标准的稳定性与“与时俱进”,软件似的Versioning
– 标准必有主次之分,基础与非基础,战略与战术,…字词语,字为基
– 靠权力制定标准,还是靠知识?权力+知识,有识有权才对社会有所
贡献
4. 体会杂谈(2)
没有平坦的大道,没有捷径。例:“小儿科”18年。
 尽早瞄准国际标准的大目标,避免闭门造车 (例:IPA,
古壮字)
 学科之间的合作,文理合作。标准化工作本身要数字
化;语言文字工作者与IT工作者密切配合、相互学习
至关重要。
 标准化工作者一定要防止本本主义,要参加标准相关
的科技、工程实践,而且是前沿的、先进的实践。
 最危险的是搞小圈子,排斥不同意见专家的参与。

4. 体会杂谈(3)
坚持原则,学会妥协、折衷
TC: Technical Committee
Trade-off & Compromise
例:康熙字典序vs. JIS 序
 学点 Politic (外战开始内行,内战仍然外行)

–
–
–
–
–

Lobby
结盟,联合提案
要求休会
运用表决权 No with conditions , Tai Lue, Pasig-pa, Font Policy
缓兵之计 算符
立足于自己的艰苦、扎实的工作
– HanziDB
– CJK_B KX, HYDZ
– Taboo 避讳字
谢谢!问题?
IRG: www.cs.cuhk.edu.hk\~irg
UniHan: www.unihan.com.cn
Email: [email protected]
国家语言文字资源建设—汉字属性数据库 HADB
语
词
字
语
语属性:音频义,同反义
CJK汉字
词属性:音频义,同反义
CJKA
CJK B
n-Gram
n-Gram属性
CJK C
CJK D
词
汉字
形 音 义 码 频 序简 繁 异
属性Characteristics
汉字属性数据库HADB
vs.
汉字知识平台HKP
HADB 是HKP的基础:
Hanzi Knowledge Platform
语言工作的编纂平台
 HADB 是链接传统字书、辞书的纽带
HADB是挂接语料库的桥梁

汉字知识平台HKPAuthoring Tool
E-字书集
DictBank
Full Text Retrieval
Engine
例证提取
询经问典
HADB
汉字属性库
语料库
CorpusSet
OCR Engine
Operating System & Data Base Manager
ISO/IEC 10646  GB 13000
• GB 13000 ≠GB 18030
• GB 18030 = GBK 再扩充
文字定义 (Script≠Language)
Script : A set of graphic
characters used for the written
form of one or more languages
用于一种或多种书面形式的语
言的图形字符的集合
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩汉字统一编码
CJK Unification
中日韩
汉字
统一编码
CJK Unification
中日韩汉字
统一编码
CJK Unification
中日韩汉字
统一编码
简繁不认同
CJK Unification
中日韩
汉字
统一编码
结构不同
不认同
CJK Unification
源字集
分离者
不认同
CJK Unification
源字集分离者不认同
CJK Unification Rule
中日韩汉字认同规则
汉
字
编码的+未编码的
 以CJK + CJK_A为基础
 以国际基本汉字子集BIIS ∋国家规范汉
字为重点
 加入CJK_B
 以后加入CJK_C
 古汉字
 汉字系其他字

形 – 字形,字种及其代表
典型字样
 中日韩、大陆港澳台特征
 部首0 +(部首1)

康熙部首
 汉语大字典 200部首




部首外笔画数
总笔画数
笔顺序列
音
汉语拼音+调 (+n 多音)
 注音BoPoMoFo+调 (+n 多音)
 反切
 CTS : Character To Speech
单字发声引擎
 Katakana 日文发音

义
现代字义
 古代字义
 主要/次要字义
 在主要字典中的义项
 摩登新义:“酷”,“靓”
 港台变义
 日文字义

码

ISO/IEC 10646 Code=Unicode
 GB 2312
 GBK
 Big5 – CNS 11643
 ShiftJIS – JIS
 HKSAR Code
 电报码
 K,V,……
频
平衡语料中字频
 • 古籍语料中字频
• 现代社会生活“当今字频”
•
古籍字频
书同文公司八亿古籍语料统计
图 表 1( 1-100)
覆 盖 率 (C ove ra ge )
40%
34.25%
35%
30.34%
30%
25.82%
25%
19.90%
20%
15%
35.97%
32.36%
28.22%
22.99%
16.15%
10%
11.00%
5%
0.00%
0%
0
10
字 头 ( H anzi)
20
30
40
50
60
70
80
90
100
古籍字频
图 表 2( 100-500)
覆 盖 率 (C ove ra ge )
70%
67.19%
62.72%
65%
65.08%
60%
56.83%
59.99%
55%
48.71%
50%
45%
53.15%
43.15%
40%
35%
35.97%
100
150
字 头 ( H a nzi)
200
250
300
350
400
450
500
古籍字频
图 表 3( 500-1000)
覆 盖 率 (C ove ra ge )
85%
78.97%
80%
74.00%
75%
70%
65%
80.96%
76.66%
70.88%
67.19%
500
字 头 ( H a nzi)
600
700
800
900
1000
古籍字频
图 表 4( 1000-10000)
99.73%
覆 盖 率 (C ove ra ge )
99.43%
98.55%
100%
99.10%
99.81%
99.62%
97.55%
95%
95.66%
91.65%
90%
85%
80.96%
字 头 ( H a n zi)
80%
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
古籍字频
图 5( 10000-30136)
覆 盖 率 (C ove ra ge )
100.00%
99.96%
99.95%
99.93%
99.89%
99.90%
99.85%
99.80%
99.97%
99.97%
99.98%
99.98%
99.95%
99.91%
99.86%
99.81%
字 头 ( H a n zi)
10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000
古籍字频统计 样张
古籍字频-中日韩标准对古籍的覆盖率
99.28%
95.57%
KBGTJ
95.26%
使用字
覆盖率
91.91%
使
用
19172
字
·
覆
72.57%
12940
盖
率
6208
5680
4607
370
Go
GBK
Jo
Jo+
1.39%
字符集
Ko
Big5
古籍字频- 随机查询、关联查询
国家语委十五科技攻关重点项目之一
书同文公司开发辅助软件
古籍字频查询示例
例:查询前若干个高频字
例:关联字字频查询
序 Ordering & Collating
•
在指定集合中
• 以总笔划为序,横竖撇点折……
•
以拼音为序
• 综合理序(一二三四五怎么排序?)
简繁异-单字关联
关联属性:简繁?正异?新旧?古
今?通假?中日?正讹?避讳?……
 耦合强度
 转换方向-对应方向:语境相关
 语词背景 Context
 代码转换vs.简繁转换


大量的异体字相互关联 Variants
Inherently Associated Each Other
簡體-繁體關係:简/簡
正體-異體關係:修/俢 兔/兎 刃/刄
正字-訛(譌)字:久/乆 派/泒 叐/犮
通假-被通假:詳/佯
古今字:镸/長
新舊字形:青/靑 說/説 媪/媼
中日:売/卖 図/图 单/単
形近異義字:义/叉 刺/剌 諫/諌
避諱字:弘/
玄/
燁/
胤/
异体字存在于多个代码页
• Many Code Pages - Before
團団 JIS
團
团
GB
團
Big5
KSC
异体字被归纳在一个统一的体系内
• Many Code Pages - Before
• Single Code Set – Now !
团-團-団
Unicode/CJK
檢索字串 匹配數目 查詢時間
( m s)
無
有
荊 荊
軻 軻
荆
轲
無
有
無
有
1
42
130
316
例:文字关联帮助读者检索
說
说
説文
再例:文字关联帮助读者检索
渕
淵
小渊
词、语
现代词库 10万?
 古汉语词库20万?
 新词 (按揭,丁克,Kiosk)
 同义词库(不一定符合传统语言学,孙
中山=孙逸仙=孙文, OpenType = Open
Type)
 专业词库

nGram
不一定具有语言学的意义,但对信息技
术有利。
例:Bigram “子曰”的高频度,有利于
排除“子日”,“于曰”…