1 - 講義用WWWサーバ

Download Report

Transcript 1 - 講義用WWWサーバ

第2章
情報の表現
記号・符号化
コンピュータでの数の表現
• 「0」と「1」の2種類の記号を用いたビット列で
表現される
• 表現できる数値はコンピュータに依る
– 表現できる正の整数、整数
• 16ビットのシステム:0~65535まで
-32768~32767まで
• 32ビットのシステム:0~4294967295まで
-2147483648~ 2147483647まで
文字・記号とコード化の種類(1バイト文字=半角文字)
■ASCIIコード(1バイト文字=半角文字)
(American Standard Code for Information Interchange)
1963年にアメリカ規格協会(ANSI)で定められた文字コード。
7ビット128文字で構成されている。94文字がアルファベット・数字・
記号等の印刷可能な文字。34文字が空白文字と制御記号。
滅多に文字化けしない。
・実際には7ビットの先頭に 0 をつけて 8 ビット (1 バイト) で扱われ
る。
Def. 1バイト=8ビット
それゆえ、メモリなどの容量を示すのにバイトが使われる。(基本
的に文字数をそのまま表すから。)
3
整数の表現-2進法10進法16進法
10 進法
2 進法
16 進法
グレイ符号
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
10
11
100
101
110
111
1000
1001
1010
1011
1100
1101
1110
1111
10000
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
10
17
10001
11
00000
00001
00011
00010
00110
00111
00101
00100
01100
01101
01111
01110
01010
01011
01001
01000
10000
11001
10進法と16進法
の表記の比較
A45F = 42,079
44,604 = FA3C
漢字のJISコード
6C6F 跫
5F25 潺
グレイ符号
構成法は HTML で説明
4
必要なメモリの容量を見積もってみよう。 1冊200ページ
からなり、1ページに20行、1行に45文字で 1 冊の日本
語の本を収納するのに 計算上、1文字2バイト必要と考え
て
200 ページ * 20 行 * 45 文字 * 2 バイト
= 360 * 10 の 3 乗 バイト = 360 k Byte (キロバイト)
のメモリ容量が必要と考えられる。これと同じサイズの本を
10万冊蔵書にもつ図書館があるとすれば、その図書館
の本の全体を記録するのに、計算上
36 G Byte (ギガバイト)
必要だということになる。現在のパソコンのハードディスク
の容量が40から60ギガバイト程度だということを考えると、
逆に、いかに大きな容量のメモリが身近に使えるように
なっているかが分かる。
5
2.1 情報の表現—その形態
• 情報の説明の仕方の違い
– 手続き的表現 <- 手続き的プログラミング言語
• 時間をおった手順を説明
– 宣言的表現 <- 関数的プログラミング言語
• 対象間の関係や対象の属性を説明
• 情報の表現のされ方の違い
– 記号表現
Schnnon流の情報理論
• 与えられた記号の集合と解釈するための規則体系
– パターン表現
• 構成要素間の時空間パターン
・情報
(1) ある事柄についての知らせ。
(2) 判断を下したり、行動を起こすために必要な知識。
「広辞苑第4版」より
・Information n.
telling; things told; knowledge (COE)
・Information n.
1.facts provided or learned about something or
someone
2.what is conveyed or represented by a particular
arrangement or sequence of things
(OED)
7
情報 (新明解国語辞典(第四判)三省堂)
ある事柄に関して伝達 (入手) されるデータ (の内容). [通常は送り
手・受け手にとって何らかの意味を持つ (形に並んでいる) データ
を指すが、データの意味内要そのものを指すこともある。さらに、
そのデータをもとにして適切な判断を下したり行動をとったりする
という判断材料としての側面に重点を置く場合が多い。また、個別
のデータが生のままの未整理段階にとどまっているというニュアン
スで用いられることもあり、知識に比べて不確実性を包含した用
語]
8
• データ
(1) 推論の基礎となる事実。
(2) ある事柄に関して集めた個々の事実を広義
の記号(=数字、文字、符号、音声など)で表
現したもの。
(3) 計算機では計算機で処理できる対象をすべ
て指す。
プログラムそれ自体もデータであるが、狭義
では除外する。
「新明解国語辞典第四版」三省堂より p.868
9
モデルの表現形式の例(1)
• 表(table)
– こみいった事柄を整理できる
– 歴史年表/貸借対照表/成績表など
– 計算機上の表計算ソフトの利用も一般的
• 図
– 何らかの目的で描いた2次元図形
– 人間の思考・推論を支援/拡張する
– 設計図/地図など
– 広義には絵画/スケッチなども含める
モデルの表現形式の例(2)
• グラフ
– ノード(node)とエッジ(edge)から構成される
– ラベル付きグラフ
• ラベル付きのエッジで構成されるグラフ
– 有向エッジ,弧
• 方向を持つエッジ
– 道路ネットワーク/組織図/pert図/意味ネットワー
クなど様々な領域で幅広く用いられる
• 無向グラフ
5
1
1
4
2
5
3
6
• 有向グラフ
3
6
2
点(頂点)集合={1,2,3,4,5,6}
辺(枝)集合
4
記号表現
• 記号表現
– 事物/事象,心的概念を抽象化したもの
• 記号表現の実際の形式
– 図記号(ピクトグラム),数の表現など
• 記号の2側面以下の言葉は構造主義の用
語である
– 意味するもの(シニフィアン)
– 意味されるもの(シニフィエ)
サービスエリアの図記号
• 抽象化された図形によるデザイン
– 瞬時に表示内容を認識できる
– ナイフとフォークのように物理的実体に直接関係がある
ものは、記号論では「記号」と呼ばず「シンボル」と呼ん
で区別する
車両通行禁止の標識(日本)
すべての車両通行禁止(欧州)
二輪車以外の車両通行禁止(欧州)
• 記号の恣意性  これは本来、構造主義の用語
である。上のように絵が違う意味を持つということ
とは、やや違う。
ASCII コード a  (0110 0001) b  (0110 0010),
c  (0110 0011)
これらの8ビットの 0, 1 の列の内、最後の7ビットで文
字を表現し、ゆえに、2の7乗つまり128通りあるから、
計算機内では余分な 1 ビットを加えて、8 ビット= 1 バ
イト (byte) で表現している。
( 1 byte = ASCII 文字 1 文字)
■ JISコード (1バイト文字=半角文字)
ASCII で表現される文字は、英字、数字、他に ? # などの
いくつかの記号である。日本ではこれにカタカナ(半角カナ)
を加えてJIS コードとしている。
2バイト文字(全角文字)(日本語の表記)
■ JISコード:日本語で漢字も含めて扱おうとすると、128通り
では足りない。そこで日本では JIS(日本工業規格)によって漢
字を表わすコードが定められている。そこでは漢字、ひらがな、
カタカナを 16ビット(2バイト)で表わす。
16ビットの列は、2の16乗=65536通りあるので、ひらかな、
カタカナと日常に必要とされる程度の漢字をそこに割り当てて、
表現できる。 JIS コードを持つ漢字のうち、比較的良く使われ
る漢字を第一水準(2965字)、その他を第二水準(3388字)と区
別してある。
例
漢字(全角文字)のJIS コードの例。
JIS コードの 16ビット列は、通例4けたの16進数の列として表記され
る。次がその例。左が16進数の4つ組、右がそのビット列。
中 --> 4 3 6 6 = (0100 0011 0110 0110)
村 --> 4 2 3 C = (0100 0010 0011 1100)
17
■Shift
JISコード
Microsoftによって考案された、日本で一番使用されている
日本語文字コード。
主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用さ
れる。パソコンで使われている。
半角カナを扱うことが可能。
ASCII部分は、7bitのJIS X 0201のローマ字で表現しているた
め、
・バックスラッシュ(半角の\)⇒円記号(\)
・ティルダ(~)⇒オーバースコア( ̄)の違いがある。
18
■EUC-JPコード
主に UNIX、Linux で広く使用される。
情報棟の UNIX サーバでは EUC が使われている。その
ため日本語をファイル名に使えない。
■Unicode
すべての文字を16ビット(2バイト)で表現し、1つの文字
コード体系で多国語処理を想定した文字コード。
2バイト表記の場合、最大65536文字の表現の為、漢字
圏の言語は全てをサポート出来ない問題がある。
JavaではUnicodeをデフォルトのデータ型としている。
情報棟iMac端末では Shift-Jis を使っている。
19
第2章・補足
ソシュールの言語学
構造主義と記号論
記号の恣意性
象徴
(symbole)
記号=(シニフィアン、シニフィエ)
意味するものSignifian
シニフィアン、
Man
Ferfi
男性
Hommes
Woman
..
No
女性
Damen
物理的必然性
がある
意味されるものSignife
シニフィエ、
実体
実体
対応は恣意的で、物理的必然性がない。それぞれの言語、
社会の構造の中でのみ意味を持つ。普通の「言語」こ
そ、記号論で言う記号の代表例である。
21
ソシュールの言語学
・「もの」がありそれに名前を付けただけたものが言語であるという
言語観を「名称目録的言語観」「カタログ言語観」という。ソシュー
ルはこれを否定した。
・「ことばとは「ものの名前」ではない。」
・フランス語の mouton は英語の sheep とほぼ同じだが、料理し
て卓上に供されたものを英語では mouton と言うように、意味の
幅が違う。
・言語活動はちょうど星座を見るように、もともとは切れ目の入っ
ていない世界に人為的に切れ目を入れて、まとまりをつけること
である。(分節と呼ぶ)
・言葉が与えられることによって、はじめて(意識の上での)認識が
可能になる。
(個人的に:伝達が可能になる?)
22
記号(言語)の恣意性
「ある言葉が指すものは、世界にある実物ではない。
その言葉が世界から勝手に切り取ったものである(分
節)。言葉が何を指すかは社会的・文化的に決まって
いるだけである。自然自身の中にそれを必然とする
根拠があるわけではない。こういう特徴をソシュール
は言語の「恣意性」と呼んだ。」
Desk
外来語が入ってくる前には、
日本にはデスクもテーブルも
存在しなかった!
机
Table
23
スペクトルごとの色の名前
英語
purple
blue
green
yellorange red
ow
ショナ語(ローデシア)
cipswuka citema
cinena
cipswuka
バッサ語(リベリア)
hui
ziza
24
構造主義:
私たちはつねにある時代、ある地域、ある社会集団に属し
ており、その条件が私たちのものの見方、感じ方、考え方を
基本的なところで決定している。だから、私たちは自分が
思っているほど自由に、主体的にものを見ているわけでは
ない。むしろ私たちは、ほとんどの場合、自分の社会集団が
受け容れたものだけを選択的に「見せられ」「感じさせられ」
「考えさせられている」。自分の属する社会集団が無意識的
に排除してしまったものは、そもそも私たちの視界に入るこ
とがなく、私たちの思索の主題になることもない。
(内田樹「寝ながら学べる構造主義」文春新書)
25
参考文献:ソシュールの言語学と構造主義
田中克彦「言語学とは何か」岩波新書 (1993) ☆☆☆
田中克彦「ことばと国家」岩波新書 (1981)
内田樹「寝ながら学べる構造主義」 文春新書(H14) ☆☆☆
橋爪大三郎「はじめての構造主義」講談社現代新書 (1988)
池上嘉彦「記号論への招待」岩波新書 (1984) (面白くない本)
贈り物は孤立している。
恩恵も感謝も贈り物にかかわりをもたない。
魂は贈り物に感染しない。
(ロラン・バルト「表徴の帝国」ちくま学芸文庫 p.103.)
(表徴の帝国=記号の王国=日本)
26
アナログ表現とデジタル表現
• アナログ表現
– ある情報を連続量(アナログ量)として表すこと
– 無限の精度を必要とするため,データの複製は
元のデータの近似にしかならない
• デジタル表現
– ある情報を離散的に表すこと(デジタル量)
• ある情報に対して一定の間隔の尺度を導入し,その尺
度の値に近似して表現する
– 複製時にデータが劣化しにくい
– 情報コンテンツの著作権保護への問題をもたら
す
アナログ表現とディジタル表現の実際
この絵はまずい
量子化 観測値を離散的に取る
例
気温を 0.1 度単位ではかる
標本化 観測の時間間隔を離散的にする
例 1時間ごとの気温をはかる
• (左の図)気温のアナログ表現-観測の標本化
• (右の図)気温のディジタル表現-標本化と観測値の量子化
28
量子化と標本化の実際
• 情報の用途によって間隔の詳細度を決める
– コンピュータディスプレイ装置
• 赤(R)緑(G)青(B)を混色したRGB形式を用い
ている
• 各々 8 ビット=256種類の異なる色で表現
• 256×256×256=16,777,216色を表示できる
29
音楽CDのデジタル化
人は通常 20Hzから、個人差があるが
15,kHz ないし20 kHz 程度の音を音として感
じることができ、この周波数帯域を可聴域と
いう。 .
標本化
標本化の基準:44.1kHz
1/44100=0.0000227秒間隔で音の標本化
量子化
量子化のために16ビットを用いて、音の振
幅を65536(2の16乗)個の段階に分割して
いる。周波数の対数を 65536 分の一に分
けているはずだと思う。(Weberの法則)
人間の視覚、聴覚の分解能を十分カバーでき
る詳細な量子化になっている
・標本化定理
標本化するときの時間間隔
1
を t とすると、
の周波数まで復元で
2
t
1
きる 。
をナイキスト周波数と呼ぶ。
2t
例 上限が 2000Hz の情報を復元するには、時
間間隔 4000Hz 以上でサンプリング、標本化
すれば、元のデータが復元できる。
31
標本化定理 f(t) が W以上の周波
数成分を持たないとき
(i  0,1,2,.....) での
時刻 i / 2W i
から
観測値
i
2W
もとの信号関数が一意に復元できる
x  f( )
sin( (2Wt  i))
f (t )   xi
 (2Wt  i)
i 

32
エイリアシング
• 対象にナイキスト周波数より高い周波数の周期
関数が含まれている場合に,誤った関数が復元
される現象をエイリアシングと呼ぶ
– (左の図)オリジナル画像
– (右の図)エイリアシングが生じた例
ディジタル符号の圧縮
• ディジタル符号化された情報は圧縮できる利
点を持つ
• 可逆圧縮
– 圧縮したものから元の情報を完全に復元できる
方法
• 非可逆圧縮
– 元の情報には復元できない方法
– 人間の知覚では差異が分からない程度の復元
が可能ならば様々に応用が可能
34
ランレングス圧縮(可逆圧縮)
• ビット列を値とその繰り返し回数で表す
– (例)32ビットのビット列
00001100000001111100011111101000
– 0と1の繰り返しを数えると
• 4回(0),2回(1),7回(0),5回(1),3回(0),6回(1),1回(0),1回(1),
3回(0)となる
– 繰り返し回数を並べる
• 427536113
→100 010 111 101 011 110 001 001 011
– 27ビットに圧縮する事ができる
– ファクシミリ通信などで使われている
• 背景の白の部分が多いので,大幅な圧縮が可能
35
JPEG圧縮 (非可逆圧縮)
• 画像データの圧縮方法(非可逆圧縮)
• 要求される精度の周波数成分までを符号化する
JPEGでは、画像を固定サイズ(8×8画素)のブロック
に分割し、そのブロック単位で、離散コサイン変換 を
用いて、空間領域から周波数領域へ変換する(この
変換自体では情報量は削減されない)。変換された
データは、量子化によって情報量を落としてから、ハ
フマン符号によるエントロピー符号化がなされ圧縮が
行われる。( ハフマン符号については後述する)
36
2.4 ディジタル符号化
ハミング距離 二つの記号列
x  ( x1, x2 ,...,xn ), y  ( y1, y2 ,...,yn )
の間の距離を
d ( x, y) : xi  yiとなる iの数
で定義する
37
A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0)
B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0)
ハミング距離は3である。
数学上の距離の定義:以下の3つの性質を持つこと
d ( x, y)  d ( y, x)  0
d ( x, y)  0  x  y
d ( x, z)  d ( x, y)  d ( y, z)
[演習] ハミング距離が上の3つの公理を満た
すことを示せ。
分子系統樹のアルゴリズム
• 距離行列法:列の間のハミング距離を
使って、系統樹を構築する
 Neighbour-Joining法(NJ法、
Saitou&Nei)、UPGMAなど
• 樹形探索法:2分木を変形しながら、最
適解に近づく
 最大節約法、最尤法、最小二乗法な
ど
39
A13
こんぎく属:シオン、ヨメナなど
AAGTCGTACCAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTCGAAGCCT
GCAAAGCAGAACGACCCGTGAACATGTTATAACAACCATGCCATAATGGGTTGAG
CGGCAGTTCAATCCTTGTGGCATCGTCGATGTGCATCCTTGATGACCCATTCGGG
CCTCTTGGTTGTTGCTTCGACATAACAAAACCCCGGCACGGGATGTGCCAAGGAA
ATTTAAAGTGAAGAATGGCTTGTTCCATGATGTCCCGTTTGCGGTGCGTTCATGGA
GCATGGCTTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACG
CATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGT
GAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTCGGCCGAGGGCA
CGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCACCATTCCTTCCTTCGGGAA
GTTTGGTTGGGGGCGGATAATGGCCTCCCGTTCCTCACCGAGCGGTTGGCCAAA
ATAAAAGTCCCCTTTGATGGATGCACGACTAGTGGTGGTTGACAAAACCCGGTAT
TGTGTCGTGTGTCTTGTCGAAAGGGTGCATCTTAATAGACCCAACGCGTTGTCAC
GAAGCAACGCATCGACCGGGACCCCAGGTAGGGnGGGG
A26
AAGTCGTACCAAGGTTTCGTAGGTGAACCTGCGGAAGGATCATTGTCGAACCCTG
CAAAGCAGAACGACCCGCGAACATGTTAAAACAACCATGCCAGGATGTGTCGAGC
ATCCGTTCGATCGTTCTGGCACACCGTTGATGTGCCTGCCTAGTTGGCCCAACGG
GTCATCTTGGTGGTCGCTTTGACGTAACAAAACCCAGGCACGGGATGTGCCAAG
GAACTTTAAATTGAAGAATTGCCCGTCCCATGAAGTCCCGTTCGCGGTGTGCTCA
TGGGGTGTGGCGTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCT
CACGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATC
CCGTGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTTGGCTGAGG
GCACGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCCACCATTTCCTTTGGGAT
GCTTGGCTGGGAGCGGATATTGGCCTCCCGTTATAACCGAGCGGTTGGCCAAAA
TAAAAGCACCTCTTGACGGGCGCAAGACTATTGGTGAGAAAACCATGAAATTTGTT40
GCGTGTCTCGTCAAAAGGTTGCCGAATTGACCCAACGCGTTGTCTTCTGATGACG
• ハミング距離を数える前にアラインメント
(立て揃え)をする
GCCTAGTTGGCCCAATGGGTCA
CCTTCATG - - CCCATTCGGGCC
CCTTGAT - GACCCATTCGGGCC
GCCTAGTTGGCCCAACGGGTCA
CCTTGATGA - CCCATTGGGGCC
CCTTGAT - - GCCCATTTGGGCC
CCTTGAT - - GCCCATTTGGGCC
CCTTGAT - - GCCCATTCGGGCC
41
パリティ
• パリティ検査
– 冗長なビットを追加することで符号の誤り検出や
訂正を行う
– nビットの符号(x1-x2-x3-…-xn)に付加ビットyを
追加して1となるビットが偶数になるようにする
• x1+x2+x3+….+xn+y≡0(mod 2)
• パリティ:元の符号で1となるビットの個数が
偶数個か奇数個かを表す
• 単一パリティ検査符号:ビットを1つ追加して
パリティを検査できるようにした符号
2.5.3 パリティ(パリティビットの付加) p.34
n ビットの符号列
x  x1x2    xn ( xi  0または1)
に常に
x1      xn  y  0 (mod 2)
となるビット y を加える通信中に誤りが
起これば、誤りがあることが検出できる
43
ハミング距離と誤り検出・訂正
• 符号の1つのビットが反転すると,反転前後
の符号のハミング距離は1となる
• 2つの符号に関して,
– 誤り検出に必要な符号間のハミング距離:2以上
– 誤り訂正に必要な符号間のハミング距離:3以上
• 一般にt個までの誤りに関して
– 誤り検出に必要な符号間のハミング距離:t+1以
上
– 誤り訂正に必要な符号間のハミング距離:2t+1
以上
001
011
101
000
111
010
100
110
0
1
001
100
000
010
101
011
110
111
00
10
01
11
000
101
011
110
誤り検出
誤り訂正
符号の誤り検出・訂正
• A,Bという情報を相手に伝えたい場合にノイズによ
りビットが1つ反転しうると仮定すると…
– A:0,B:1として符号化
• 受け手側では誤りを検出する事ができない
– A:00,B:11として符号化
• 受信する可能性のある符号は4通り
• 誤りを検出できる:01,10は誤りが生じたと分かる
– A:000,B:111として符号化
• 受信する可能性のある符号は8通り
• 誤り検出と訂正ができる
– 001,010,100はAを伝送しようとして誤ったもの
– 110,101,011はBを伝送しようとして誤ったもの
(赤瀬川源平「新解さんの謎」文藝春秋、平成八年)
おとこ[男] (1) 人間のうち、雄としての性器官・性機能を
持つほう (2)一人前に成熟した男性。{狭義では、弱いも
のをかばう、積極的な行動性を持った人を指す}
おんな[女] (1) 人間のうち、雌としての性器官・性機能を
持つほう (2) 一人前に成熟した女性。{やさしい心根や
優柔不断や決断力の乏しさがからまり存する一方で、強
い粘りと包容力を持つ}
ほうよう[抱擁] おおらかで、自分と反対意見を持つ人、
自分の悪口を言う人などと、承知の上で付き合うこと。
・ おそかれはやかれ
「ーー 一度は死ぬのだ」
・ 凡人
自らを高める努力を怠ったり功名心を持ち合わせなかった
りして他に対する影響力が皆無のまま一生を終える人。
[ マイホーム主義から脱することの出来ない大多数の庶民
の意にも用いられる ]
・ 恋愛
特定の異性に特別な愛情を抱いて、二人だけで一緒
にいたい、できるなら合体したいという気持ちを持ちなが
ら、それが常にはかなえられないでひどく心を苦しめる・
まれにかなえられて歓喜する状態