第2章 [PPT - 講義用WWWサーバ

Download Report

Transcript 第2章 [PPT - 講義用WWWサーバ

「情報」 (中村)
オリジナル
PPT
(2009/04/26)
1
第2章情報の表現ーー記号・符号化
整数の表現-2進法10進法16進法
10 進法
2 進法
16 進法
グレイ符号
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
10
11
100
101
110
111
1000
1001
1010
1011
1100
1101
1110
1111
10000
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
10
17
10001
11
00000
00010
00011
00010
00110
00111
00101
00100
01100
01101
01111
01110
01010
01011
01001
01000
10000
11001
グレイ符号
1. 値が隣接する符号間
のハミング距離を常に1
とした符号。
2.通常の2進数の表現
では1ビット反転するだ
けで大きな違いが出て
きてしまうのを防ぐ。
3.パタン生成や機械の
制御コード,遺伝子の変
異を模した計算などにも
用いられる。
構成法は HTML で説明
3
文字・記号とコード化の種類
■ASCIIコード
(American Standard Code for Information Interchange)
1963年にアメリカ規格協会(ANSI)で定められた、一般的な数字
と文字の情報交換用の文字コード。
7ビット128文字で構成されている。
・94文字がアルファベット・数字・記号等の印刷可能な文字。34
文字が空白文字と制御記号。滅多に文字化けしない。
・実際には7ビットに、1 ビットのパリティビット加えた 8 ビット (1 バ
イト) で扱われる。
それゆえ、メモリなどの容量を示すのにバイトが使われる。(基
本的に文字数をそのまま表すから。)
4
ASCII コード
a  (0110 0001)
b  (0110 0010),
c  (0110 0011)
これらの8ビットの 0, 1 の列の内、最後の7ビットで文
字を表現し、ゆえに、7ビット列のすべての 0, 1 の並
びのパターンの数は、2の7乗つまり128通りあるか
ら、ASCII コードで別々に表現可能な文字の数は12
8個である。計算機内では余分な 1 ビットを加えて、8
ビット= 1 バイト (byte) で表現している。 ( 1 byte =
ASCII 文字 1 文字)
■ JISコード:日本語のように漢字も含めて扱おうとすると、12
8通りでは足りない。そこで日本では JIS(日本工業規格)によっ
て漢字を表わすコードが定められている。そこでは漢字を 16
ビット(2バイト)で表わす。
16ビットの列は、2の16乗=65536通りあるので、ひらかな、
カタカナと日常に必要とされる程度の漢字をそこに割り当てて、
表現できる。 JIS コードを持つ漢字のうち、比較的良く使われ
る漢字を第一水準(2965字)、その他を第二水準(3388字)と区
別してある。
例 漢字(全角文字)のJIS コードの例。
JIS コードの 16ビット列は、通例4けたの16進数の列とし
て表記される。次がその例。左が16進数の4つ組、右がそ
のビット列。
中 --> 4 3 6 6 = (0100 0011 0110 0110)
村 --> 4 2 3 C = (0100 0010 0011 1100)
6
■Shift
JISコード
Microsoftによって考案された、日本で一番使用されている
日本語文字コード。
主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用さ
れる。
半角カナを扱うことが可能。
ASCII部分は、7bitのJIS X 0201のローマ字で表現しているた
め、
・バックスラッシュ(半角の\)⇒円記号(\)
・ティルダ(~)⇒オーバースコア( ̄)の違いがある。
■ JISコード ASCII で表現される文字は、英字、数字、他
に ? # などのいくつかの記号である。日本ではこれにカタカ
ナを加えてJIS コードとしている。
7
■EUC-JPコード
主に UNIX、Linux で広く使用される。半角カナを扱うことが可能。
■Unicode
すべての文字を16ビット(2バイト)で表現し、1つの文字コード体系
で多国語処理を想定した文字コード。
2バイト表記の場合、最大65536文字の表現の為、漢字圏の言語
は全てをサポート出来ない問題がある。
JavaではUnicodeをデフォルトのデータ型としている。
情報棟ではUTF-8 を使っている。
8
2.2.1 図記号と
記号論
提喩とは
全体と部分の関係で構成された比喩。
(a) 全体の呼称を提示してひとつの名称にかえる
-「花」で「さくら」を表す類
(b) 一つの名を提示して全体を表す。
-「パン」で食物全体をさす類。ナイフ,フォークの図でサービ
スエリアを表現する類。
9
ソシュールの言語学
・「もの」がありそれに名前を付けただけたものが言語であるという
言語観を「名称目録的言語観」「カタログ言語観」という。ソシュー
ルはこれを否定した。
・「ことばとは「ものの名前」ではない。」
・フランス語の mouton は英語の sheep とほぼ同じだが、料理して
卓上に供されたものを英語では mouton と言うように、意味の幅
が違う。
・言語活動はちょうど星座を見るように、もともとは切れ目の入って
いない世界に人為的に切れ目を入れて、まとまりをつけることであ
る。(分節と呼ぶ)
・言葉が与えられることによって、はじめて(意識の上での)認識が
可能になる。
10
スペクトルごとの色の名前
英語
purple
blue
green
yell-ow
orange
red
ショナ語(ローデシア)
cipswuka
citema
cinena
cipswuka
バッサ語(リベリア)
hui
ziza
11
記号(言語)の恣意性
「ある言葉が指すものは、世界にある実物ではない。
その言葉が世界から勝手に切り取ったものである(分
節)。言葉が何を指すかは社会的・文化的に決まって
いるだけである。自然自身の中にそれを必然とする
根拠があるわけではない。こういう特徴をソシュール
は言語の「恣意性」と呼んだ。」
Desk
外来語が入ってくる前には、
日本にはデスクもテーブルも
存在しなかった!
机
Table
12
記号(言語)の恣意性
「ある言葉が指すものは、世界にある実物ではない。その言葉
が世界から勝手に切り取ったものである(分節)。言葉が何を
指すかは社会的・文化的に決まっているだけである。自然自
身の中にそれを必然とする根拠があるわけではない。こういう
特徴をソシュールは言語の「恣意性」と呼んだ。」 (橋爪大三郎
「はじめての構造主義」講談社現代新書,1988)
13
象徴
(symbole)
違う
記号=(シニフィアン、シニフィエ)
意味するものSignifian
シニフィアン、
実体
実体
物理的必然性
がある
意味されるものSignife シ
ニフィエ、
Man
Ferfi
男性
Hommes
Woman
..
No
女性用
Damen
対応は恣意的で、物理的必然性がない。それぞれの言語、
社会の構造の中でのみ意味を持つ。ことばこそ記号論で
言う記号の代表例である。
14
2.2.1 図記号-記号と意味
記号論
「あるものが別のあるものを表すという規
定に含まれる2つのあるものの間の相互
依存関係。この2つの項を「記号表現(シ
ニフィアン)」と「記号内容(シニフィエ)」と
呼ぶことにする」
(池上嘉彦「記号論への招待」岩波新書
1984)
15
・「概念はあらかじめ与えられているのではなく、語の持つ意味
の範囲は言語システムごとに違う。概念はそれが実定的に含
む内容ではなく、システム内の他の項との関係によって欠性的
に定義される。より厳密に言えば、ある概念の特性とは、「他の
概念ではない」ということに他ならない。(「一般言語学講義」)
言語は、言語活動の社会的部分であり、個人の外にある部分
である・・・個人は独力でこれを作り出すことも変更することもで
きない・・・それは共同生活の成員の間に取りかわされた一種
の契約の力によって始めて存在する
(田中克彦「言葉とは何か」ちくま新書)
16
構造主義:
私たちはつねにある時代、ある地域、ある社会集団に属して
おり、その条件が私たちのものの見方、感じ方、考え方を基
本的なところで決定している。だから、私たちは自分が思っ
ているほど自由に、主体的にものを見ているわけではない。
むしろ私たちは、ほとんどの場合、自分の社会集団が受け
容れたものだけを選択的に「見せられ」「感じさせられ」「考え
させられている」。自分の属する社会集団が無意識的に排
除してしまったものは、そもそも私たちの視界に入ることがな
く、私たちの思索の主題になることもない。
(「寝ながら学べる構造主義」)
17
• 「言語や記号のシステムの中では、差異(対立)しか
存在しない。たとえば、日本語の母音のあいうえお
の「あ」は「いうえお」と異なるということだけがその本
質であるから。」
• 差異、対立の構造だけがシステムの全てであれば、
個々の言葉、記号の意味は胡散霧消する。
18
参考文献:ソシュールの言語学と構造主義
田中克彦「言語学とは何か」岩波新書 (1993) ☆☆☆
田中克彦「ことばと国家」岩波新書 (1981)
内田樹「寝ながら学べる構造主義」 文春新書(H14) ☆☆☆
橋爪大三郎「はじめての構造主義」講談社現代新書 (1988)
池上嘉彦「記号論への招待」岩波新書 (1984) (面白くない本)
贈り物は孤立している。
恩恵も感謝も贈り物にかかわりをもたない。
魂は贈り物に感染しない。
(ロラン・バルト「表徴の帝国」ちくま学芸文庫 p.103.)
(表徴の帝国=記号の王国=日本)
19
2.3.1 アナログ表現とデジタル表現
デジタル表現 デジタル量による表現
• 標本化 一定時間感覚ごとの計測。時
間の離散化(ディジタル化)
• 量子化 測定値をある間隔ごとに表現す
る。
測定量の離散化(ディジタル化)
標本化定理
20
アナログ表現とディジタル表現の実際
• (左の図)気温のアナログ表現-観測の標本化
• (右の図)気温のディジタル表現-標本化と観測値の量子化
• アナログ量をディジタル量に変換する際には,情報を離散化する間
隔を選択し,表現する必要がある
– 量子化 観測値を離散的に取る 例 東京の
気温26度C
– 標本化 観測の時間間隔を離散的にする
例 1時間ごとの気温をはかる
21
量子化と標本化の実際
• 情報の用途によって間隔の詳細度を決める
– コンピュータディスプレイ装置
• 赤(R)緑(G)青(B)を混色したRGB形式を用いている
• 各々256種類の異なる色で表現
• 256×256×256=16,777,216色を表示できる
• 音楽CDのデジタル化
– 人間の鑑賞が目的なので,聴覚で知覚できない高い周波数まで
記録する必要はない。人の可聴域 20Hz – 15000,20000 Hz.
– 標本化
• 標本化の基準:44.1kHz
• 1/44100=0.0000227秒間隔で音の情報を標本化
– 量子化
• 量子化のために16ビットを用いて、音の振幅を65536(2の16乗)
個の段階に分割している。周波数の対数を 65536 分の一に分
けているはずだと思う。(Weberの法則)
– 人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化に
なっている
22
標本化定理 f(t) が W以上の周波
数成分を持たないとき
( i  0 ,  1,  2 ,.....) での
時刻 i / 2W 観測値
xi  f (
i
2W
)
から
もとの信号関数が一意に復元できる
sin(  ( 2Wt  i ))

f (t ) 
x
i  
i
 ( 2Wt  i )
23
・ナイキスト周波数
標本化するときの時
間間隔 t に対して、1/2t をナイキスト周波
数と呼ぶ。ナイキスト周波数は、復元でき
る周波数の上限を表す 。
例 4000Hz で標本化したとき、2000Hz
の情報までは復元できる。
24