文字コードと図書館

Download Report

Transcript 文字コードと図書館

符号化文字集合規格の体系と
その進化
芝野耕司
ISO/IEC JTC1/SC2 (Coded Character Sets)委員長
東京外国語大学
1
内容






符号化文字集合の種類
SC2規格の進化Old BibleからNew Bible
へ
The Old Bible: ISO R 646
文字集合の拡張
文字の同定
The New Bible: ISO/IEC 10646
2
符号化文字集合規格の種類

図形文字




符号拡張



ISO/IEC 646
ISO/IEC 8859
ISO/IEC 10646
ISO/IEC 2022
ISO/IEC 10646
制御機能


ISO/IEC 6429
ISO/IEC 10646
3
ISO符号化文字集合の進化
From Old Bible to New Bible
Old Bible
CCITT#2
ASCII63
•情報処理交換
用
•小文字を除く
ISO R 646-1967
•82 字の共通文字
•12 字の各国又は
適用業務向け文字
•版の適合性
•BS、CR、SPを用
いた文字合成
•32 字の制御文字
ISO 6937
ISO 2022
•646の版をもとし
た符号拡張
•1文字を取り替
えるシングルシ
フト
•表を全部取り替
えるロッキングシ
フト
•ヨーロッパ用
•字送りなしのア
クセントによる合
成
ISO 8859
•合成なし
•Latin 1 – 西ヨー
ロッパ
Latin 2 – 東ヨー
ロッパ
ISO/IEC 10646
New Bible
4
The Old Bible: ISO R646-1967 6 and 7 bits coded character
sets for Information Processing interchange

基本ラテン文字の符号化






94 字の図形文字、 82 字が
共通
情報処理と情報交換の共
通コード
図形文字の一意な符号化
各国又は適用業務毎の版
BS、CR、SPによる合成
異なった文字をも統合
5
文字集合の拡張
Set of 94 Characters is too small



ほとんどのヨーロッパの言語にとっても94
字は少なすぎる!
文字合成が必要
符号拡張が必要
6
文字合成
タイプライタから活版へ

タイプライタモデル

646


6937



BS, SP, CRを用いた重ね打ちによる合成
字送りなしのアクセント文字による合成
アクセント、親字の順
活字モデル

10646


親字,アクセントの順
複数のアクセントをつけることが可能
7
ISO 2022 符号拡張法

ISO 646の版のための符号拡張法を
規定



1バイト2バイトの混在環境では必須


2022 は,混在を許すが保証はしない
適合性で共通のエスケープシーケン
スの利用を規定


シングルシフトでの1文字の切り替え
版を取り替えるロッキングシフト
最小のエスケープシーケンスを推奨
複雑で実装コストが高い

完全な実装は殆どない
8
ISO 8859
From 8859 Brief History

ISO 646の版の問題




8859の設計原理




They do not provide all graphic characters which
may be needed,
for some characters, specifically for accented
letters, it is necessary to resort to BACKSPACE
sequences,which creates problems when processing
data containing such composite characters,
interchange among different versions is practically
limited to the 82 common characters.
The same for all users of a given area,
provide single-byte coding of all graphic characters
thus permitting easy processing,
takes into account character sets used in the
industry.
8859 限界
9
The New Bible: ISO/IEC 10646





ヨーロッパの8859
世界の10646
8859と同じ設計原理
RLGなどが開発に参画
SC2が全分野の符号化文字集合の開発
を担当

1997年にISO TC46(Documentation)から
SC2に符号化文字集合を移管
10
10646の適用範囲


この規格群は,は国際符号化文字集合(UCS)
を規定する。この規格群は,世界の言語(用字)
を書き表した形(表記形)及び記号の表現・伝
送・交換・処理・蓄積・入力・表示に利用できる。
ISO/IEC 10646 specifies the Universal MultipleOctet Coded Character Set (UCS). It is applicable
to the representation, transmission, interchange,
processing, storage, input, and presentation of the
written form of the languages of the world as well
as of additional symbols.
11
10646の全体構造
12
BMPの構造
13
10646の適合性

文字合成に関する水準




水準1 合成なし
水準2 合成でなければ表せない文字が表
現可能に
水準3 すべての合成が可能
集合の部分化
14