信息时代汉字的标准化和共通化

Transcript 信息时代汉字的标准化和共通化

信息时代汉字的标准化和共通化
冯志伟
汉字效用递减律
7000通用汉字覆盖率和不足率
• 汉字数
增加字数
覆盖率
不足率
1000
90%
10%
2400
1400
99%
1%
3800
1400
99.9%
0.1%
5200
1400
99.99%
0.01%
6600
1400
99.999%
0.001%
• 从中可以看出，1000个汉字的覆盖率为90%，
以后每增加1400字，覆盖率百分比的最后一个
9字之后便增加一个9字。覆盖率达到99.999%
的6600个汉字，就构成了现代通用汉字的主体，
覆盖率达到99.9%的3800个汉字，就包含了全
部现代常用汉字。
• 随着汉字频度的减少，其效用递减。
四种汉字代码
• 汉字输入码：为了将汉字输入计算机而编制的代码。
• 汉字内部码：计算机内部处理汉字信息时所采用的代码，其形式
取决于机器本身。为了提高机器处理汉字效率，汉字内部码一般
采用机器原有的代码结构，码长都尽可能短，而且等长。许多汉
字计算机，在输入汉字之后都要进行一次将汉字输入码变成汉字
内部码的转换。
• 汉字输出码：计算机将汉字信息处理的结果输出打印或显示时所
用的代码，一般也取决于具体的机器或设备。
• 汉字交换码：用于计算机之间汉字信息交换的代码。它处于一台
计算机的出口与另一台计算机的入口之间。除了保证一字一码之
外，还要与有关的国际标准和国家标准保持一致。
一台具体的计算机的交换码可以和输入码、内部码、输出码一
致，也可以不一致，这同样取决于汉字信息处理系统设计与应用
的具体情况。但是，在一般情况下，一台计算机的输入码、内部
码和输出码是随着计算机的不同而不同的，而交换码就必须整齐
统一，才便于与其它的计算机进行信息交换。
《信息交换用汉字编码字符集-基
本集》（GB2312-80）
• 汉字标准交换码共分两级。第一级为常用字，有3755字，按汉语
拼音字母顺序排列，第二级为次常用字，有3008字，按部首排列。
• 字体以中国文字改革委员会1964年编印的《简化汉字总表》以及
中华人民共和国文化部和中国文字改革委员会联合发布的《第一
批异体字整理表》为准。
• 字形以中华人民共和国文化部和中国文字改革委员会1965年联合
发布的《印刷通用汉字字形表》为准。
• 除汉字之外，该标准还收集了一般符号202个（其中包括间隔、
标点符号、运算符号、单位符号、制表符号等），序号60个，数
字22个，拉丁字母52个（包括大小写），日文假名169个（包括
大小写），汉语拼音符号26个，汉字注音符号37个，连同汉字一
起，共有7445个图形符号。这个代码表最多可收8836个图形字符，
现在尚留有一些空白位置，供进一步扩充之用。
繁体字和简体字对应编码
• 六个字符集
–
–
–
–
–
–
基本集（GB 2312-80）
第一辅助集（GB 12345-90）
第二辅助集（GB 7589-87，收简体字7237个）
第三辅助集（GB/T 13131-91）
第四辅助集（GB 7590-87，收简体字7039个）
第五辅助集（GB/T 13132-91）。
• 基本集和第二、第四辅助集是简体字集，第一、第三、
第五辅助集是繁体字集。
• 在这六个字符集中，简体字与繁体字存在着明确的一一
对应关系：基本集中的简体字与第一辅助集中的繁体字
对应，第二辅助集中的简体字与第三辅助集中的繁体字
对应，第四辅助集中的简体字与第五辅助集中的繁体字
对应，并且对应的简体字和繁体字在相应的字符集中同
码。个别的汉字在简繁体之间存在着一对多的关系，作
为特殊情况处理。
《15×16、24×24、32×32汉字
点阵字模集及字模数据集》
• 所谓点阵字形，就是以点的形式来表现的字符或汉字的形态。
• 15×16点阵字形，可以表示《信息交换用汉字编码字符集·基本
集》中的绝大部分汉字。由于15×16的点阵字形只能表示横向笔
画和竖向笔画都不超过八笔的汉字。如果一个汉字的横向笔画或
者竖向笔画超过了八笔（如“量、酬”等字），在点阵字模就容
纳不下。在《基本集》中，这样的汉字共有138个，只好压缩笔
画做变通处理。15×16点阵字形适于屏幕显示，作校对之用。
• 24×24点阵字形，可以全部表示《基本集》中的6763个汉字的笔
形结构，用不着压缩笔画，而且能够保持横细竖粗的宋体风格，
适用于针式打印、喷墨打印，是一种很有使用价值的点阵字形。
• 32×32点阵字形比24×24点阵字形更能体现宋体风格，能完整地
表现汉字的笔锋，使撇笔和捺笔自然婉转，舒畅流利，字体质量
较高。
高精度点阵汉字标准
•
•
•
•
•
•
•
•
•
•
•
•
GB/T 14242-1993 信息交换用汉字64×64点阵黑体字模集及数据集
GB/T 14243-1993 信息交换用汉字64×64点阵楷体字模集及数据集
GB/T 14244-1993 信息交换用汉字64×64点阵仿宋体字模集及数据集
GB/T 14245-1993 信息交换用汉字64×64点阵宋体字模集及数据集
GB/T 14717-1993 信息交换用汉字128×128点阵宋体字模集及数据集
GB/T 14718-1993 信息交换用汉字128×128点阵黑体字模集及数据集
GB/T 13443-1992 信息交换用汉字128×128点阵楷体字模集及数据集
GB/T 13444-1992 信息交换用汉字128×128点阵仿宋体字模集及数据
GB/T 14719-1993 信息交换用汉字256×256点阵宋体字模集及数据集
GB/T 14720-1993 信息交换用汉字256×256点阵黑体字模集及数据集
GB/T 13445-1992 信息交换用汉字256×256点阵楷体字模集及数据集
GB/T 13446-1992 信息交换用汉字256×256点阵仿宋体字模集及数据集
矢量汉字的字模集及数据集
• GB/T 13844-1992图形信息交换用矢量汉字单线宋体字
模集及数据集
• GB/T 13845-1992图形信息交换用矢量汉字宋体字模集
及数据集
• GB/T 13846-1992图形信息交换用矢量汉字仿宋体字模
集及数据集
• GB/T 13847-1992图形信息交换用矢量汉字楷体字模集
及数据集
• GB/T 13848-1992图形信息交换用矢量汉字黑体字模集
及数据集
汉字的共通化问题
• 在汉字文化圈内，使用汉字的地区和国家还有台湾、
韩国、日本、新加坡、马来西亚。除了新加坡和马来
西亚同中国大陆一样使用简体字之外，这些地区和国
家使用的汉字并不完全相同。在信息化的时代，汉字
的差异给信息交流带来不便，这就有必要研究汉字的
共通化问题。
• 研究汉字共通化问题，首先要尽快摸清现行汉字差异
的程度，分析产生差异的原因，在共识的基础上加强
合作，确定整理汉字的统一标准，制定各方都能接受
的、符合汉字演变规律的科学方案，首先在信息处理
领域内实现汉字的统一编码，然后再逐渐地统一字形，
在国际范围内促进汉字的规范化和标准化。
中国制订的《信息处理文本通信
用编码字符集》（GB 8586）
• 该标准的字符集由GB 2312-80（基本集）和一
个汉字通信子集组成。
• 汉字通信子集收集的汉字、表示日期和时间的
图形字符等共705个，其中有：第二辅助集中
的汉字520个，第四辅助集中的汉字92个，表
示日期和时间的图形字符69个，《第一批异体
字整理表》淘汰的用于人名、地名等的异体字、
汉字部件等23个。
• 通信子集只限于在通信网中使用，与其它系统
进行数据交换时仍要转换为汉字标准交换码。
台湾制定的汉字字符集标准
• 《中文资讯交换码CCCII》，
• 《通用汉字标准交换码 TCA-CNS 11643》。
CCCII字符集
• 常用字集收4808个常用字，作为CCCII第一册，发布于
1980年4月；
• 备用字集收6025个次常用字、5364个罕用字、2112个
异体字以及3531个其它资讯用字，共17032字，作为
CCCII的第二册，发布于1981年2月；
• 罕用字集收12924个罕用字、314个次常用字及7345个
其它资讯用字，共20583字，作为CCCII第三册，发布
于1987年5月；
• 异体字集收异体字11517个，发布于1981年2月。
• 全部汉字首先按《康熙字典》部首排序，其次按部首
外笔画数排序，最后按笔顺排序。
TCA-CNS 11643
共收汉字13051个，于1986年发布。整个编码空间分16
个字面：
• 第一字面收常用汉字5401个，包括CCCII中的常用字
4808个、中小学课本上的常用字587个以及6个异体字；
• 第二字面收次常用汉字7650个；
• 第三至十一字面为标准保留区；
• 第十二至十六字面为用户定义区，第十四字面已收罕
用字6319个。
• 每个字面上的汉字按先笔画后部首的顺序排列。
JIS X 0208-1983和JIS X 0212-1990
（日本汉字字符集）
• JIS X 0208-1983 是日本国家交换码标准，共收字符
6877个，分为84区
– 1至15区是拼音字符及符号区，收一般图形字符、数字、拉丁
字母、日本平假名、片假名、希腊字母、西里尔字母、制表
符号等共524个字符；
– 16至84区是汉字区，收日本汉字6353个，汉字分为两级，一
级汉字2965个，按音排列，二级汉字3388个，按形排列。
– 另有1959个空白码位是保留区。
• JIS X 0208-1990
• .JIS X 0212-1990 是日本的第二个汉字编码字符集标准，作为日
本汉字交换码辅助集。
• 该字符集共收图形字符6067个，其中非汉字字符266个，日本汉
字5801个，按部首排序。另有1829个空白码位作保留区，940个
空白码位作用户自定义之用。
韩国字符集
• 字符集中同时收汉字字符和谚文字符。
• 韩国于1987年制定了韩国标准编码字符集KS C 56011987，共有8224个字符
– 1至15区是拼音文字和符号区，收986个字符；
– 16至40区是谚文字符区，收谚文字符2350个；
– 42至93区是汉字字符区，收汉字4888个，其中有268个多音字
分配了一个以上的码位，出现重复编码；
– 41区和94区共188个码位，是用户自定义区。
• 韩国于1991年制定了编码字符集的辅助集KS C 56571991，增收汉字2856个。
中日韩汉字字符集比较
• 中国国家语言文字工作委员会曾将GB 2312和JIS 0208
中的汉字做过比较。
– GB汉字6763个，JIS汉字6353个，它们之间相同的汉字为1851
个，相近的汉字为1393个，相同和相近的汉字总数为3244个。
– 从GB方面看，有48%的一致，从JIS方面看，有51%的一致。
• 有人曾将韩国文教部规定的大中学用汉字1800字与GB
12345中的繁体字做过比较，发现1800字中的1791个汉
字均可在GB 12345中找到，占99.5%。
• 这些比较研究说明，中、日、韩的汉字标准，存在着
大面积的相互覆盖，它们为中、日、韩汉字的统一编
码提供了相当充足的事实根据。
《信息技术通用多八位编码字符
集（UCS）》
• 国际标准化组织（ISO）于1984年开始研究、制定《信
息技术通用多八位编码字符集（UCS）》国际标准，
即ISO/IEC 10646。
• 1993年5月，该标准的第一部分：体系结构与基本多文
种平面（即ISO/IEC 10646.1）正式发布。前后经历了
九年的时间。
• 它对UCS的总体体系结构和基本多文种平面（Basic
Multilingual Plane，简称BMP）做了规定。
–
–
–
–
在BMP内，A区用于字母文字、音节文字和各种符号的编码；
I区用于中、日、韩（CJK）统一的表意文字编码；
O区留作未来标准化之用；
R区作为BMP的限制使用区，用于专用字符、变形显现和兼容
字符的编码。
中日韩汉字统一编码
• I区中的表意文字采用中、日、韩汉字统一编码方式；
• 以现有的各标准字符集为源字符集，将其中的汉字按
统一的认同原则进行认同和甄别后，生成涵盖各源字
符集；
• 按东亚著名的四大字典（《康熙字典》、《大汉和字
典》、《汉语大字典》、《大字源》）的页码/字位综
合排序的CJK汉字统一字汇和字序，构成UCS中的表意
文字部；
• 共包括20902个汉字字符。
国际标准字符集编码原则
• 第一，按文字（script）编码，而不是按语言、国度、
地域和专业编码：在汉字文化圈内，汉字经历了许多
世纪的字形演变和字义漂移，它们原来的形状和含义
都已经发生了变化，但是，它们在字形、字音和基本
含义方面仍然存在着相似性，它们事实上就是一种超
越语言的“广义汉字”，因此，统一编码时不考虑语
言、国度、地域和专业的不同。
• 第二，不允许（或尽量避免）重复编码。
• 中、日、韩汉字的统一编码遵循了这两条原则，这是
解决表意文字编码时大字量小空间矛盾的最佳方案。
源字符集的确定
• 统一编码是在中日韩原有的汉字编码字符集的基础之上进行的，
为中日韩汉字统一编码所选用的源字符集有十三个，包含六万多
个已经编码的汉字。
• 这十三个源字符集是：
类集号
G0
G1
C G3
G5
G7
G8
J
字符集标准
GB 2312-80（基本集）
GB 12345-90（辅一）
GB/T 13131-91（辅三）
GB/T 13132-91（辅五）
现代汉字通用字表（7000字表）
GB 8565-89（文本通信用）
字符个数
6763
独立字2352
7237
7039
独立字41+1
独立字290
T1
T2
Te
台湾TCA-CNS 11643/第1字面
台湾TCA-CNS 11643/第2字面
台湾TCA-CNS 11643/第14字面
5401+9
7650
6319+239+10
J0
J1
日本JIS X 0208-90
日本JIS X 0212-90
6353+1
5801
K K0
韩国KS C 5601-87
4888
K1
韩国KS C 5657-91
2856
此外，还收纳了少量的香港用字（58个）、韩国文吏读字（92字）和台湾CCCII中的独特字
（200多个）。
汉字认同（1）
• 汉字认同要处理横跨几个标准的变体汉字，在认同过
程中，要力求保留任一标准之内允许的相同变异误差，
当两个字形只具有微小的差异时，只赋以一个代码，
否则，就赋以不同的代码。
• 汉字认同规则在相当程度上考虑了中国对通用汉字编
码的提议ISO/TC1/WG2/N489和日本JIS的出版规则。
• 汉字认同规则
– 汉字认同指的是表义文字字形（ideograph）的认同，而不是
字音、字义的认同，也不是具体造型（font）的强求一律，字
形结构相同，只是笔画小有差异的字，就予以认同所谓“笔
画小有差异”是指以下的情况
•
•
•
•
•
•
笔形变化的差异；
笔画类型的差异；
笔画曲率的差异；
笔画长度的差别；
断笔与连笔；
笔画增减一笔。
汉字认同（2）
• 汉字认同规则(续前)
–
–
–
–
偏旁部首有细微差别（不包括简化字的偏旁）的字，予以认同；
因简化造成的字形差异，不认同；
同一字因结构方式不同而形成的变体，不认同；
不作垂直认同，在同一集属下（例如，同在G属下，或同在K属下），即
使字形非常接近，也不可认同，因为它们在同一集属下，已经分别编码。
– 非同源字（non-cognate）不认同，也就是说，在文字的演变过程中互不相
干的汉字不认同。
• 汉字认同中充分考虑到了中国大陆的简体字，对于目前正在开发
中的GB标准辅助集具有现代简体字的对应字，分别给予编码，
共2000字左右。
• 认同的结果表明，中、日、韩各源字符集之间，的确存在着大面
积的相互覆盖。J、 K 与C（G， T）间不同的汉字只有744个。
• “认同”是一种求大同存小异的正确途径，它既未修改也未曾消
灭任何文字，因而也未触动任何国家和地区的文字政策，不涉及
文化与法律的问题。
字汇的确定
• 经过认同与甄别，六万多个源字符集中的汉字，可以归
纳为28000多个“认同汉字”，其中20902个汉字已经正
式收入国际标准，成为UCS的表意文字区（I区）。
• 其余的8000个汉字，是G3、G5、Te中的独特字，现已
作为扩充需求之一提交给国际标准化组织。
• 已经收入UCS的20902个CJK汉字，从中国大陆的角度
看，有17124个汉字来源于GB；从中国台湾的角度看，
有17258个汉字来源于TCA-CNS；从日本的角度看，有
12157个汉字来源于JIS；从韩国的角度看，有7476个汉
字来源于KSC。
• CJK汉字统一编码完全可以满足中国（包括大陆和台
湾）、日本和韩国汉字信息处理的需要。这是国际大协
作的重大成果，是国际信息处理中的重要里程碑。
字符的排序与字码的确定
• 字符的排序
– 如何决定CJK统一编码汉字的字序，曾一度成为一个很大的难题，
这是因为：
• 第一，在不同的国家和地区，汉字的读音差别很大，即使在同一国
家和地区，也存在许多一字多音的汉字，因此，按读音排序是绝对
不行的。
• 第二，如果按部首排序，虽然是一种可能的方式，但是，不同国家
和地区出版的字典，它们之间的部首集、部首序和汉字的入部规则，
甚至笔画的顺序都存在着差异。因此，完全按部首排序也有很大困
难。
– 经过各国专家的研究和协商，他们本着求同存异精神，首先追
求共识而不是追求完善，最终确定了按东亚著名的四大字典的
页码/字位综合排序的方案。
• 字码的确定：CJK统一编码的汉字，在UCS中的表意文
字区（I区）中连续编码，码位从4E00到9FA5。
重大的成果
• 中日韩汉字统一编码结束了长期以来汉字编码标准各
自为政的局面，解决了困扰汉字信息处理技术进一步
发展的一个重大瓶颈问题，它不仅可以用于中、日、
韩汉字的代码表示（representation），而且，还可以用
于汉字的传输（transmission）、交换（interchange）、
处理（processing）、存储（storage）、输入（input）
和显现（presentation）。
• 这个统一编码的国际标准，对于促进汉字信息处理的
深入发展，进而推进整个信息产业的进步必然产生深
远的影响。
与CJK有关的中国国家标准
• GB 13000.1-1993 《信息技术通用多八位编码
字符集(UCS) 第一部分：体系结构与基本多文
种平面》；
• GB 16793-1997 《信息技术通用多八位编码字
符集（I区）汉字24点阵字型宋体》；
• GB 16791-1997 《信息技术通用多八位编码字
符集（I区）汉字48点阵字型第1部分宋体》，
GB 18030-2000 《出版用汉字字符集》（含2.7
万汉字）。
谢谢！
• Thank you!

信息时代汉字的标准化和共通化

Transcript 信息时代汉字的标准化和共通化

Directory