文字コードに関する最新動向

Download Report

Transcript 文字コードに関する最新動向

漢字コードについて
平成10年5月25日
Windows NT 漢字処理技術協議会
WG2(コード&キャラクターセット)リーダー
NEC オフィスシステム
伊藤 英俊
内容
コード問題についての整理
・ コード系のおさらい
・ 漢字コードについての世の中の議論
JIS漢字コード拡張計画の進捗状況
・ いわゆる第3・第4水準の標準化
作業の現状
コード系のおさらい
・ ISO 2022系
複数の
1バイト7ビットコード/8ビットコード
2バイト7ビットコード/8ビットコードを
「指示」(エクスケープシーケンス)と
「呼出し」(シフトコード)を用いて
同一システムで混在使用
ISO 2022 Code Extention Technique
JIS X 0202 符号拡張技法
ISO 2022系コード
1バイトコード
7単位
010
001
b7~b5 b4~b1 0 0 0
0000
b7 b6 b5 b4 b3 b2 b1
1
1
制 SP
御
キ 図形キャラクタ
ャ ローマ文字
ラ
ク
DEL
タ
1111
010
001
000
1
SO
SI
1
1
制 SP
1
御
キ 図形キャラクタ
ャ
仮名
ラ
ク
DEL
タ
ISO 2022系コード
1バイトコード
8単位
b8 b7 b6 b5 b4 b3 b2 b1
010
001
000
b8~b5 b4~b1 0 0 0
0000
1111
1
1
1
1
制 SP
未定義
御
キ 図形キャラクタ 未 図形キャラクタ
ャ ローマ文字 定
仮名
ラ
(GL)
(GR)
義
ク
タ
未定義
DEL
(CO)
ISO 2022系 2バイトコード
b8
b1 b8
b1
第1バイト
b8
0
b7~b5 b4~b1
000 0000
~
1111
111
000
1
第2バイト
b8=0
b8=1
制
御
コ
ー
ド
スペース
図形キャラクタ
GL
94×94
=8836
デリート
未定義
図形キャラクタ
0000
~
111 1111
GR
制御コード
未定義
未定義
未
定
義
JIS X 0208-1990
情報交換用漢字符号
1
1
8
9
15
16
点
非漢字524字
(未定義)
第1水準漢字 2965字
区
47
48
第2水準漢字 3390字
84
85
94
(未定義)
94
JIS X 0212-1990
情報交換用漢字符号-補助漢字
点
1
94
1
非漢字
15
16
(1区、3~5区、8区、12~15区は未定義)
漢字
区
245字
5801字
77
78
(未定義)
84
85
94
ISO 2022 コード拡張技法の概念図
GL
LS0
G0
GR
LS3
LS2 LS1R
LS1
概念であって
厳密でないので注意
G1
LS3R
LS2R
G2
呼出し
(シフトコード)
G3
指示
(エスケープシーケンス)
X0208
X0212
X0201
ESC I F
ESC I1 I2 F
F:ファイナルキャラクタ=図形文字セットのID
コード系のおさらい
・ シフトJIS
ISO 2022系のコードで1バイトコードと
2バイトコードを「指示/呼出し」なしで
混在使用するため1バイトエリアと
2バイトエリアが重ならないよう
2バイトエリアをシフトしたもの
簡便だが拡張性に乏しい
(ex.X0212補助漢字は使えない)
シフトJISコード
1バイト見て、1バイトエリアか2バイトエリアか知る
2バイトのエリアなら次のバイトと合わせて1字のコード
1バイト
エリア
2バイト
エリア
21
21
英
7E
数
7E
81
9F
1バイト
エリア
2バイト
エリア
カ
40
FC
ナ
40
FC
E0
FC
コード系のおさらい
・ ISO 10646 UCS、Unicode
従来のISO 2022とは異なり2オクテット
(10646は2および4オクテット)の
単一コード系
ISO 2022との互換はない
非漢字は各国文字に個別コードを付与
漢字はC、J、K、各国漢字を統合化
ISO/IEC 10646-1:1993 UCS
(JIS X 0221-1995)
群7F
群01
群00
点 256
区
面 00
256
ISO/IEC 10646-1:1993 UCS
(JIS X 0221-1995)
群
面
区
点
UCS4
群00/面00:
BMP(基本多言語面)=UCS2
=
Unicode
BMP(基本多言語面)
00
FF
A領域 (アルファベット記号類)
19,903
40
I領域 (CJK統合漢字)
20,992
A0
O領域 (未定義)
E0R領域 (PUA、互換文字等)
PUA(私用領域)はE000~F8FFの6400字分
CJK統合漢字
コード系についての世の中の議論
・ Unicode批判を客観的に整理
1.使える文字が限定される
′
1.コード枠に制限がある
(注.UTF16の回避策)
2.漢字を統合したのが問題
3.制定の経緯が気にくわない
民主主義(多数決論理)の悪用に
よる多国籍企業の横暴
4.従来の国内規格との互換性がない
欧米企業には都合よい規格
(現代の黒船、日本への経済侵略)
批判についての私の意見
1.使える文字が限定
文字についての把え方の議論が不足
異なり字(親字)か異体字の不足か?
解決策は別
′
1.コード枠に制限
学術研究用(例:古代文字も必要)には
別の規格でよい
一般用規格のスーパーセットならなお可
2.漢字統合の問題
やり直せるならやり直せば!
やり直せないようなら利用方法を考えよう!
批判についての私の意見
3.制定の経緯の問題
感情論を言ってても仕方ない
4.従来規格と非互換
承知で(多数決)で決めたのだから仕方ない
フル変換は覚悟の上だろう
5.その他
皆、自分の立場でしか意見を言っていない
解決策の提言がない
漢字コードについての私の意見、提言
分野によってニーズは異なる
・学術研究分野:古代文字までコード化が必要
・戸籍処理:誤字、俗字の類いの異り字、
異体字もDB上で区別が必要
異体字はプレゼンテーションレベルの問題
という考えは違う
・一般OA:たまに使う異り字、異体字は
外字処理で可能
経済性も大事
漢字コードについての私の意見、提言
異体字を指定できるスキームが必要
例えば異体字ファンクションと異体字番号で指定
ex. 渡辺
異体字
ファンクション
異体字
番号
渡邊
異体字は登録制で台帳管理
フォントを実装すれば渡邊が出るし
フォントがなくても渡辺の異体字で
あることは明白
異体字かどうかの判断規準(現在の包摂規準
とは目的が別)作りと常設管理機関が必要
JIS第3、第4水準標準化の進捗状況
スケジュール
・昨年度(1997)初めから検討開始
本年度中(1998)にJIS原案完成目標
・本年9月~12月に公開レビュー予定で準備中
・現在の状況は下記Webで公開中
http://jcs.aa.tufs.ac.jp/jcs/new-jis/
JIS第3、第4水準標準化の進捗状況
目的
・現代日本語を符号化するために十分な
文字集合を提供すること
・JIS X 0208と同時に用い、JIS X 0208を
補完するものであること
目標は約5000字の漢字と記号類
・現状の使用環境で直ちに実装できること
JIS第3、第4水準標準化の進捗状況
現状(Web公開内容から再編集)
・漢字
資料を入手し資料間の1字毎の照合を実施中
既にかなりの部分は終っており、
その異り字数は約7200字
分野
典拠資料/調査対象資料
人名
NTTハローページ(1997/2)、NTT契約者名簿
地名
町字ファイル外字(国土地理協会)、
町字ファイル書き換え文字
1万分の1地図/2万5千分の1地図(国土地理院)
法例
現行法律・政令・省令外字
JIS第3、第4水準標準化の進捗状況
分野
典拠資料/調査対象資料
一般
新首字、熟語専用字の一方だけX0208にあるもの
日本国語大辞典(新版)外字(小学館)
広辞苑外字(岩波書店)、大辞林外字(三省堂)
共同通信社外字
学術
文部省学術用語集、切韻印目(鉅宋広韻による)、
韻鏡三十六字母
小・中・高校検定済全教科書1500冊
新潮文庫の100冊/明治の文豪/大正の文豪(新潮社)
大正新修大蔵経所収漢字(大蔵出版社)
中国医学古典用外字(日本内経医学会)
その他 IBM選定文字、JIPS(日本電気)拡張文字、
(不明) JEF(富士通)拡張文字
JIS第3、第4水準標準化の進捗状況
・非漢字
資料を入手し検討中
・アイヌ語表記の仮名
・鼻濁音表記の仮名
・歯科記号
JIS第3、第4水準についての問題点
人名漢字が増えても
戸籍処理上の問題解決にはならない
シフトJISに適用すると
・現在のAPのほとんどは動作しないと思われる
中国でGBKが実装されて大騒動発生と
同じパターン
・ユーザー外字が使えない
漢字コードについて
終