201007_-_character_encoding

Download Report

Transcript 201007_-_character_encoding

文字エンコーディング
2010年7月
目次
文字セット
文字コード
文字エンコーディング
文字セット
漢字、ひらがな、カタカナ、英数字、記号など
の文字の集まりのこと
「文字集合」とも呼ばれる
国や言語によってさまざまな文字セットがある
文字セットによって含まれる文字が異なる
JIS漢字コード – ひらがなや漢字など
ASCII – 英数字、記号など
Unicode – 世界の主要言語の文字
文字セット(例)
ASCII
A
JIS漢字コード
あ
う
山
“
い
あ
い
川 ア
1
Unicode
a
翻
A
川
う
a
И
1
山
ɛ
“
ア
é
翻
文字コード
それぞれの文字や記号に割り当てられた固
有の数字のこと
文字セットによって、同じ文字に対して異なる
数字が割り当てられる場合がある
ASCII
JIS漢字コード
2422
あ
(存在しない)
2522
ア
(存在しない)
41
A(半角) (存在しない)
Unicode
3042
30A2
0041
(16進数で表記)
文字エンコーディング
 文字コードをコンピュータが利用できるデータに変換
(符号化)する方式
 「文字符号化方式」とも呼ばれる
 JIS漢字コードおよびASCIIを符号化する方式
Shift_JIS
EUC-JP
ISO-2022-JP
 Unicodeを符号化する方式
UTF-8
UTF-16
文字エンコーディング(例)
JIS漢字コード+ASCII
文字コード Shift_JIS
2422
82A0
あ
2522
8341
ア
A
41
41
EUC-JP
A4A2
A5A2
41
ISO-2022-JP
2422
2522
41
Unicode
あ
ア
A
文字コード
3042
30A2
41
UTF-8
E38182
E382A2
41
UTF-16
3042
30A2
0041
注意
この資料は文字コードの概念を説明するため
のものです
分かりやすく説明するため、詳細を割愛して
います
詳細についてはウィキペディアの下記のペー
ジを参照してください
「文字コード」
「文字集合」
「文字符号化方式」