PPT - 講義用WWWサーバ

Download Report

Transcript PPT - 講義用WWWサーバ

「情報」 (中村)
第2章 情報の表現
第3章 情報の伝達と
通信
情報表現の様々な側面(1)
• 情報を表現する言語の違い
– 自然言語
• 人間が日常的に使用している言語
– 人工言語
• プログラミング言語のように人工的に作られた言語
• 情報の説明の仕方の違い
– 手続き的表現
• 時間をおった手順を説明
– 宣言的表現
• 対象間の関係や対象の属性を説明
情報表現の様々な側面(2)
• 情報の表現のされ方の違い
– 記号表現
• 与えられた記号の集合と解釈するための規則体系
– パターン表現
• 構成要素間の時空間パターン
• その他にも…
– ディジタル/アナログによる表現の違い
– 情報量からみる側面
モデルとモデル化
• モデル
– 単純化/抽象化された事物/事象/概念
– (ジェット旅客機設計の例)
• 実際の旅客機をテストする前に,小型模型(モデル)を
用いた風洞実験を行う.
• モデル化
– 実際の事物/事象に対応したモデルを構築する過
程
モデルの表現形式(1)
• 目的によって,構築するモデルの表現形式が
異なる
– (ジェット旅客機の例)
• 風洞実験が目的:実機と同様の材料でモデル化
• デザインが目的:加工/修正のしやすい材料でモデル
化
モデルの表現形式(2)
• 目的別の表現形式
– 徒歩で移動する場合(左の図)
– 車で移動する場合(右の図)
モデルの表現形式の例(1)
• 表(table)
– こみいった事柄を整理できる
– 歴史年表/貸借対照表/成績表など
– 計算機上の表計算ソフトの利用も一般的
• 図
– 何らかの目的で描いた2次元図形
– 人間の思考・推論を支援/拡張する
– 設計図/地図など
– 広義には絵画/スケッチなども含める
モデルの表現形式の例(2)
• グラフ
– ノード(node)とエッジ(edge)から構成される
– ラベル付きグラフ
• ラベル付きのエッジで構成されるグラフ
– 有向エッジ,弧
• 方向を持つエッジ
– 道路ネットワーク/組織図/pert図/意味ネットワー
クなど様々な領域で幅広く用いられる
記号表現
• 記号表現
– 事物/事象,心的概念を抽象化したもの
• 記号表現の実際の形式
– 図記号(ピクトグラム),数の表現など
• 記号が表す2側面
– 意味されるもの(シニフィエ)
– 意味するもの(シニフィアン)
サービスエリアの図記号
• 抽象化された図形によるデザイン
– 瞬時に表示内容を認識できる
• 記号表現とパターン表現の混在
– パターン表現は常に具体的/直接的であればいいわけで
はない
図記号の修辞法
• 提喩に相当する表現方法
– ある事物を表現するのに,それと意味的包含関係にあ
る事物を代わりに用いる比喩
• ナイフ,フォークの図でサービスエリアを表現する
• コンピュータのGUIにおけるアイコン
– ゴミ箱アイコンは「ゴミを捨てる」という行為の隠喩として
表現される
• 提喩 全体と部分の関係で構成された
比喩。全体の呼称を提示してひとつの名
称にかえる(「花」で「さくら」を表す類)
一つの名を提示して全体を表す。(「パ
ン」で食物全体をさす類。)
• 暗喩=隠喩 たとえを用いながら表現面
にその形式を表さない(「如し」「ようだ」
等を用いない。例「頭に霜を置く」
• 直喩 「あたかも」「さながら」「如し」「たと
えば」などの語を用いてたとえるものとた
とえられるものを直接比較する 例:堅き
こと鉄の如し
• 比喩
物事の説明にこれと類似したものを借り
て表現すること。隠喩、直喩。
交通標識の図表現(1)
• (a)車両通行禁止の標識(日本)
• (b)禁煙の標識(日本)
• 禁止や否定を表すために用いられる図記号(日本)
交通標識の図表現(2)
• (a)すべての車両通行禁止(欧州)
• (b)二輪車以外の車両通行禁止(欧州)
• 記号の恣意性
– 記号表現と命題の対応付けは恣意的であ
る ○,×による表現が常に肯定,否定(禁
止)に対応づけられるわけではない
– 情報表現のデザイナーは受け手側の解釈の枠組みに
注意を払う必要がある
言語は、言語活動の社会的部分であり、
個人の外にある部分である・・・個人は独
力でこれを作り出すことも変更することも
できない・・・それは共同生活の成員の間
に取りかわされた一種の契約の力によっ
て始めて存在する
(田中克彦「言葉とは何か」)
記号(言語)の恣意性
「ある言葉が指すものは、世界にある実
物ではない。その言葉が世界から勝手に
切り取ったものである(分節)。言葉が何
を指すかは社会的・文化的に決まってい
るだけである。自然自身の中にそれを必
然とする根拠があるわけではない。こうい
う特徴をソシュールは言語の「恣意性」と
呼んだ。」 (橋爪大三郎「はじめての構造
主義」講談社現代新書,1988)
英語
purple
blue
green
yellow orange
red
ショナ語(ローデシア)
cipswuka
citema
cinena
cipswuka
バッサ語(リベリア)
hui
ziza
•
日本語文字コード
文字と計算機上の符号(数値)を対応づけるための
枠組み
• 異なった日本語文字コードが混在している
• JIS
• シフトJIS おもにパソコンに用いられている
• EUC
日本語UNIXのワークステーションで用い
られる
• UNICODE– UTF-8 ECC情報棟の文字コード
• 解釈の枠組みが異なれば記号の意味が異なってし
まう例
コンピュータでの数の表現
• 「0」と「1」の2種類の記号を用いたビット列で
表現される
• 表現できる数値はコンピュータに依る
– 表現できる正の整数
• 16ビットのシステム:0~65535までを表現できる
• 32ビットのシステム:0~4294967295を表現できる
アナログ表現とデジタル表現
• アナログ表現
– ある情報を連続量(アナログ量)として表すこと
– 無限の精度を必要とするため,データの複製は
元のデータの近似にしかならない
• デジタル表現
– ある情報を離散的に表すこと(デジタル量)
• ある情報に対して一定の間隔の尺度を導入し,その尺
度の値に近似して表現する
– 複製時にデータが劣化しにくい
– 情報コンテンツの著作権保護への問題をもたら
す
アナログ表現とディジタル表現の実際
• (左の図)気温のアナログ表現
• (右の図)気温のディジタル表現
• アナログ量をディジタル量に変換する際には,情報を離散化する間
隔を選択し,表現する必要がある
– 量子化 観測値を離散的に取る 例 東京の
気温26度C
– 標本化 観測の時間間隔を離散的にする
例 1時間ごとの気温をはかる
量子化
• 情報の用途によって間隔の詳細度を決める
– コンピュータディスプレイ装置
• 赤(R)緑(G)青(B)を混色したRGB形式を用いている
• 各々256種類の異なる色で表現
• 256×256×256=16,777,216色を表示できる
標本化の実際
• 音楽CDのデジタル化
– 人間の鑑賞が目的なので,聴覚で知覚できない高
い周波数まで記録する必要はない
– 標本化
• 標本化の基準:44.1kHz
• 1/44100=0.0000227秒間隔で音の情報を標本化
– 量子化
• 量子化のために16ビットを用いて、音の振幅を
65536(2の16乗)個の段階に分割している
– 人間の視覚、聴覚の分解能を十分カバーできる詳
細な量子化になっている
• 適切な細かい標本間隔を用いれば,アナログ量を欠損なく(ウソ)ディジ
タル量に処理できる
標本化定理(シャノン)
• 情報の精度から必要な標本化の頻度を示す
(意味不明瞭 「情報の精度」??)
• 標本化の対象となるアナログ量Fが周波数
の異なる複数の周期関数の重ね合わせで表
現できる事を基本にする 関数のフーリエ
級数展開
• 周期関数(周期T,周波数ω=1/T)の周波数が
W以下であるとすると,1/2W間隔で標本化
すれば,元のアナログ関数Fを復元できる
(標本化定理)
• 標本化の間隔をtとすると,標本化周波数1/t
の半分1/2tを標本間隔tのナイキスト周波数
標本化定理 f(t) が W以上の周波
数成分を持たないとき
( i  0 ,  1,  2 ,.....) での
時刻 i / 2W 観測値
xi  f (
i
2W
)
から
もとの信号関数が一意に復元できる

sin(  ( 2Wt  i ))
f (t ) 

i  
xi
 ( 2Wt  i )
・ナイキスト周波数
標本化するときの時
間間隔 t に対して、1/2t をナイキスト周波
数と呼ぶ。ナイキスト周波数は、復元でき
る周波数の上限を表す 。
例 4000Hz で標本化したとき、2000Hz
の情報までは復元できる。
エイリアシング
• 対象にナイキスト周波数より高い周波数の周期
関数が含まれている場合に,誤った関数が復元
される現象をエイリアシングと呼ぶ
– (左の図)オリジナル画像
– (右の図)エイリアシングが生じた例
周期関数への分解
• フーリエ解析
– 与えられた信号を個々の異なる周波数成分の波に分解
• 音声や画像などの情報表現と圧縮に用いる
– (図)画像の低周波成分から高周波成分へと足し合わせ
ていったもの.復元に必要な情報量が分かり,データ量
を圧縮できる
デジタル符号化(1)
• 2進符号
– 10進数を2進数に変換したもの
• ハミング距離
– 2つの符号間で対応する桁の記号が異なる個数
• (0000)と(0001)では1
• (0011)と(0100)では3
– 2進符号では数値の差とハミング距離が一致しな
い
デジタル符号化(2)
• グレイ符号
– 値が隣接する符号間のハミング距離を常に1とし
た符号
– 2進符号から作る事ができる
• 最上位桁は2進符号と一致
• 最上位桁以外では,対応する2進符号の桁とその左の
桁が一致すれば0,異なっていれば1
– パタン生成や機械の制御コード,遺伝子の変異
を模した計算などにも用いられる
2.3 符号の誤り・検出
ハミング距離 二つの記号列
x  ( x1 , x 2 ,..., x n ), y  ( y1 , y 2 ,..., y n )
の間の距離を
d ( x , y ) : x i  y iとなる
で定義する
i の数
距離の定義:以下の3つの性質を持つこと
d ( x, y )  d ( y, x)  0
d ( x, y )  0  x  y
d ( x, z )  d ( x, y )  d ( y, z )
演習:ハミング距離が上の3つの性質を
満たすことを示せ。
A13
こんぎく属:シオン、ヨメナなど
AAGTCGTACCAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTCGAAGCCT
GCAAAGCAGAACGACCCGTGAACATGTTATAACAACCATGCCATAATGGGTTGAGC
GGCAGTTCAATCCTTGTGGCATCGTCGATGTGCATCCTTGATGACCCATTCGGGCC
TCTTGGTTGTTGCTTCGACATAACAAAACCCCGGCACGGGATGTGCCAAGGAAATT
TAAAGTGAAGAATGGCTTGTTCCATGATGTCCCGTTTGCGGTGCGTTCATGGAGCA
TGGCTTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACGCATC
GATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGTGAACC
ATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTCGGCCGAGGGCACGTCTG
CCTGGGCGTCACGCATCGCGTCGCTCCCACCATTCCTTCCTTCGGGAAGTTTGGT
TGGGGGCGGATAATGGCCTCCCGTTCCTCACCGAGCGGTTGGCCAAAATAAAAGT
CCCCTTTGATGGATGCACGACTAGTGGTGGTTGACAAAACCCGGTATTGTGTCGT
GTGTCTTGTCGAAAGGGTGCATCTTAATAGACCCAACGCGTTGTCACGAAGCAAC
GCATCGACCGGGACCCCAGGTAGGGnGGGG
A26
AAGTCGTACCAAGGTTTCGTAGGTGAACCTGCGGAAGGATCATTGTCGAACCCTG
CAAAGCAGAACGACCCGCGAACATGTTAAAACAACCATGCCAGGATGTGTCGAGC
ATCCGTTCGATCGTTCTGGCACACCGTTGATGTGCCTGCCTAGTTGGCCCAACGG
GTCATCTTGGTGGTCGCTTTGACGTAACAAAACCCAGGCACGGGATGTGCCAAGG
AACTTTAAATTGAAGAATTGCCCGTCCCATGAAGTCCCGTTCGCGGTGTGCTCATG
GGGTGTGGCGTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCA
CGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCG
TGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTTGGCTGAGGGCA
CGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCCACCATTTCCTTTGGGATGCT
TGGCTGGGAGCGGATATTGGCCTCCCGTTATAACCGAGCGGTTGGCCAAAATAAA
AGCACCTCTTGACGGGCGCAAGACTATTGGTGAGAAAACCATGAAATTTGTTGCGT
GTCTCGTCAAAAGGTTGCCGAATTGACCCAACGCGTTGTCTTCTGATGACGCTTC
•ハミング距離を数える前にアラインメント(立て揃え)をする
TTAATTTTACATTAA-----ATTATACTAATTTTATCATTATTACTTAATATAAAAAATT
TTAATTTTACATTAA-----ATTATACTAATTTTATCATTATTACTTAATATAAAAAATT
TTAATTTTACATTAA-----ATTATACTAATTTTATCATTATTACTTAATATAAAAAATT
TTAATTTTACATTAA-----ATTATACTAATTTTATCATTATTACTTAATATAAAAAATT
ATAAATATACAAAATACATAAATATACTAATTTTATCATTATTACTTTATTTAATTTATT
TTAATTCTACAAAACT----AATATACTAATTATATCATTATTACTTATTTAATTCCATA
TTAAATATACAATTA-----ATTTTACTAATTTTATCATTATTTCTTAATTTACTAAATT
ATATTTATATAATTTT----TATATACTAATTTTATCATTATTACTAAATTTTTTTTATT
TAAAATTTAAATATA-----ATTATACTAATTTAATCATTATATCTTAATAAAAATAATT
ATTTTTTTAAGAAAGATTAATTTTTTGTACCTTGTGTATCAGGGTTTA--CTAAATATAATTTTTTTAAGAAAGATTAATTTTTTGTACCTTGTGTATCAGGGTTTA--CTAAATATATTAATTATAAGAAGATTTAAGTTTTTGTACCTTGTGTATCAGGGTTTA--TTAAATAATT
TTAGAAATAAGAAGATTTGAGTTTTCGTACCTTGTGTATCAGGGTTTA--TTAAATAATT
TTTTTTATAAGAAAATTTAAATTTTTGTACCTTGTGTATCAGGGTTTA--TTAAATATTTTTTTTATAAGAAAATTTAAATTTTTGTACCTTGTGTATCAGGGTTTA--TTAAATATTTTAATTTTAAGAAGAATTAATTTTTTGTACCTTGTGTATCAGGGTTTA--TTAAATATTT
分子系統樹のアルゴリズム
• 距離行列法:列の間のハミング距離を
使って、系統樹を構築する
 Neighbour-Joining法(NJ法、
Saitou&Nei)、UPGMAなど
• 樹形探索法:2分木を変形しながら、最
適解に近づく
 最大節約法、最尤法、最小二乗法な
ど
ディジタル符号の圧縮
• ディジタル符号化された情報は圧縮できる利
点を持つ
• 可逆圧縮
– 圧縮したものから元の情報を完全に復元できる
方法
• 非可逆圧縮
– 元の情報には復元できない方法
– 人間の知覚では差異が分からない程度の復元
が可能ならば様々に応用が可能
ハフマン符号化
• 出現確率の大きな記号には短いビット列を割
り当て,全体を少ない情報で表現する方法
– (例)CABDABABAAを0,1のビット列に符号化
• A:00,B:01,C:10,D:11と符号化すると20ビット
– 10 00 01 11 00 01 00 01 00 00
• A:0,B:10,C:110,D:111と符号化すると17ビット
– 110 0 10 111 0 10 0 10 0 0
– 符号は可変長となるが,先頭から調べれば一意
に解釈できる
別紙、詳細な説明へ
[ハフマン 符号化の原理]
データに出現する記号の個数を求める。 そ
れが木構造の葉に相当すると見なし、木を
構成する。
まず、葉を含むすべての節点のうち、親を
持たないものを集める。 その中から、最小
の値をもつものと2番目に小さい値をもつも
のを取り出す。 それらを子供にもつ新しい
節点を作る。 このとき、新しい節点の値は、
両方の子供の値の和とする。
以上を繰り返して根節点まで到達して木が
完成される。
次に、根から順に左右に0と1の値を割り
振っていく(左右のどちらに0と1を与えるか
は任意)。 すると、それぞれの葉(記号)に
対して、一意にビット列が与えられる。 この
記号とビット列の関係をもとに、もとのデー
タの記号をビット列に変換していくことで符
号化が行われる。
データ
DAEBCBACBBBC
出現頻度と割り当
てられた符号
記号 B C A
D
E
個数
5
符号
0 10 110 1110 1111
3
2
1
1
ランレングス圧縮
• ビット列を値とその繰り返し回数で表す
– (例)32ビットのビット列
00001100000001111100011111101000
– 0と1の繰り返しを数えると
• 4回(0),2回(1),7回(0),5回(1),3回(0),6回(1),1回(0),1回(1),
3回(0)となる
– 繰り返し回数を並べる
• 427536113
→100 010 111 101 011 110 001 001 011
– 27ビットに圧縮する事ができる
– ファクシミリ通信などで使われている
• 背景の白の部分が多いので,大幅な圧縮が可能
JPEG圧縮
• 画像データの圧縮方法(非可逆圧縮)
• 要求される精度の周波数成分までを符号化する
JPEGでは、画像を固定サイズ(8×8画素)の
ブロックに分割し、そのブロック単位で、離散コ
サイン変換 を用いて、空間領域から周波数領
域へ変換する(この変換自体では情報量は削
減されない)。変換されたデータは、量子化に
よって情報量を落としてから、ハフマン符号に
よるエントロピー符号化がなされ圧縮が行われ
る。
符号の誤り検出・訂正
• A,Bという情報を相手に伝えたい場合にノイズによ
りビットが1つ反転しうると仮定すると…
– A:0,B:1として符号化
• 受け手側では誤りを検出する事ができない
– A:00,B:11として符号化
• 受信する可能性のある符号は4通り
• 誤りを検出できる:01,10は誤りが生じたと分かる
– A:000,B:111として符号化
• 受信する可能性のある符号は8通り
• 誤り検出と訂正ができる
– 001,010,100はAを伝送しようとして誤ったもの
– 110,101,011はBを伝送しようとして誤ったもの
ハミング距離と誤り検出・訂正
• 符号の1つのビットが反転すると,反転前後
の符号のハミング距離は1となる
• 2つの符号に関して,
– 誤り検出に必要な符号間のハミング距離:2以上
– 誤り訂正に必要な符号間のハミング距離:3以上
• 一般にt個までの誤りに関して
– 誤り検出に必要な符号間のハミング距離:t+1以
上
– 誤り訂正に必要な符号間のハミング距離:2t+1
以上
パリティ
• パリティ検査
– 冗長なビットを追加することで符号の誤り検出や
訂正を行う
– nビットの符号(x1-x2-x3-…-xn)に付加ビットyを
追加して1となるビットが偶数になるようにする
• x1+x2+x3+….+xn+y≡0(mod 2)
• パリティ:元の符号で1となるビットの個数が
偶数個か奇数個かを表す
• 単一パリティ検査符号:ビットを1つ追加して
パリティを検査できるようにした符号
2.5.3 パリティ(パリティビットの付加)
n ビットの符号列
x  x1 x 2    x n ( x i  0または 1)
に常に
x1      x n  y  0
(mod 2 )
となるビット y を加える通信中に誤りが
起これば、誤りがあることが検出できる
ハミング符号(1)
• 任意の符号間のハミング距離を3以上とする
ことで,誤り訂正を可能にする
– (ハミング符号の例)
– 4ビット符号(x1,x2,x3,x4)に3つのビットを付加し
た符号(x1,x2,x3,x4,y1,y2,y3)をつくる
– y1,y2,y3は以下のようにする
• x1+x2+x3+y1≡0(mod2)
• x1+x2+x4+y2≡0(mod2)
• x1+x3+x4+y3≡0(mod2)
ハミング符号(2)
– 受信した符号に対して以下を調べる
• z1≡x1+x2+x3+y1(mod 2)
• z2≡x1+x2+x4+y2(mod 2)
• z3≡x1+x3+x4+y3(mod 2)
– 誤りがどこで起こったかをしる事ができる
– 符号間のハミング距離を3以上とすることで1つの
誤りに対する訂正までを可能にする
第3章
情報の伝達と通信
情報の表現と伝達は裏表の関係
• 情報の「定義」
– 人から人に伝達される意味を持った記号系列
• 伝えるための表現方法
• 表現に応じた伝達方法
情報の伝達とは何か?
• 情報の伝達は物質の移動と同じだろうか?
– 同じならば、色々な物理法則が適用できる
• 手紙で情報を伝える場合も、結局は「紙」が移動している
– しかし、物質の移動は元の場所からなくなる効果もある
• 情報の伝達は、物質の移動とは違う
– 伝えた先の「情報」が増える / 伝える元にも残る
– 適切な理論が必要!
• もちろん物理法則の支配下にある (e.g., 光の速度より速くは伝
わらない)
3.1 情報の伝達と情報量
• 情報の伝達 (3.1.1) とは:
受取側の状態の変化が本質
– 様々な伝え方で同じ「情報」(メッセージ)が伝わる
• 「手紙」を送る / 「手紙のコピー」を送る
• 電子メールを送る
– 手紙の物理的な移動は本質でない
• 情報量 (3.1.2): 情報を受け取った効果を測る
– メッセージ: 「今回は日本史から出題する」
– このメッセージの効果を量で表現すると?
情報の伝達と伝達手段
A
手紙L
B
A
手紙L
B
手紙L
手紙L
手紙L'
(a)手紙を送る場合
(b)手紙のコピーを
送る場合
• Bさんが受け取る情報はどちらの場合も同じ
• 物理的な手紙の移動は無関係
– Aさんの手元から手紙が消えることは本質でない
情報を受け取った効果とは?
• 直感的な説明
– 情報を受け取った場合
• 自分に影響がある、これまで知らなかった事実を
知った
• なんらかの判断の材料にできる事実を知った
– 情報を受け取ったと言い難い場合
• 関心のない手紙を受け取った (e.g. 迷惑メイル)
• 情報を受け取る効果は、受け取る人の「状
態」と関係がある
• メッセージの効果を「情報量」として表現した
い
情報の価値 = 場合の数の減少量
• おおまかな定義: 情報の価値は、受け手の選択肢
をどれだけ減らすかで測る
– 1000文字のダイレクトメール vs. 100文字の「情報」試験
問題
→ 選択肢: 教科書のどのページを勉強するか
– 明日の東京の天気 vs. 明日のブエノスアイレスの天気
→ 選択肢: どの服を着るか
– 前回のルーレットの目 vs.次回のルーレットの目
→ すでに知っている情報は選択肢を減らさない
– サイコロの次の目 vs. ルーレットの次の目
→ 選択肢の数: 6→1 vs. 100→1
• 以降、「選択肢の数」で単純化
試験に関する情報の価値
• 科目「歴史」の試験
– 日本史、東洋史、西洋史、アメリカ史のどれか
一つが出題
– 事前にはどれが出題されるかは分からない
• メッセージ: 「今回は日本史から出題する」
• 状況の変化
– 事前: 日本史からアメリカ史の4種類全部の試
験勉強が必要である
– 事後: 日本史の勉強だけですむ
メッセージによる場合の数の変化
世界史
3
事前状態
4
日本史
1
場合の数に基づく情報量(の候補)
• 案1: 差
– 定義: 事前の場合の数 – 事後の場合の数
– 問題点: 100 → 97 の場合と 4 → 1 が同じ価値?
• 案2: 商
– 定義: 事前の場合の数 / 事後の場合の数
– 問題点: 情報量の加法性(後述)を満たさない
• 案3: 商の対数
– 定義: log(事前の場合の数 / 事後の場合の数)
情報量の加法性
• 情報を一度に受け取った場合 (A)
– メッセージA: 「アメリカ史を出題する」
場合の数 4 → 1
• 分割して受け取った場合 (B+C)
– メッセージB: 「世界史を出題する」
場合の数 4 → 3
– メッセージC: 「東洋史と西洋史は出題しない」
場合の数 3 → 1
• 情報量(A) = 情報量(B)+情報量(C) としたい
場合の数に基づいた情報量の定
義
• 定義:
log2(事前の場合の数 / 事後の場合の数)
• 単位: ビット (bit)
• 性質
– 場合の数が大きく減る程数が大きい
– 底が2なので
二者択一(場合の数が2から1になる場合)に 1.0
– 情報量の加法性を満たす
確率に基づく情報量の定義
• 定義: -log2(確率)
• 単位: ビット (bit)
• 性質
– 確率が低いことを伝えるメッセージほど大きい
確率1.0 → 情報量 0, 確率0.5 → 情報量 1.0
確率 0.25 → 情報量 2.0, 確率0 → 情報量無限
大
– c.f. 犬が人間を噛んだ v.s. 人間が犬を噛んだ
– 場合の数に基づく定義の一般化:
全てが等確率で起こる時は、場合の数の定義と
同じ
情報量の加法性の確認
log2(3/1)
log2(4/3)
log2(4/1)
情報量の定義
• 定義: m通りの選択肢をn通りに減らす情報
の量
log2(6/1)  2.59 ビット
log2(m/n) (ビット)
– サイコロの次の目
– ルーレットの次の目
– 3桁の宝籤の下2桁
– 前回のルーレットの目
– コイン投げの裏表
log2(100/1)  6.64 ビット
log2(1000/10)  6.64 ビット
log2(1/1) = 0 ビット
log2(2/1) = 1 ビット
加法則
f ( pq )  f ( p )  f ( q )
f ( p )  f ( p )  f (1)
f ' ( x )  lim
f ( X   )  f ( x)

0

1
x
lim
0
ゆえに
ゆえに
f ( X   / x )  f (1)
/x
f (1)  0
 lim
f (1   / x )

0
 f ' (1)
1
C
x
f ( p )   C log( p ) ( C  0 )
1
x
• ここでCの値を決めると、それぞれの単位の
取り方に対応する
C 
1
log
2
f ( p)  
のとき
log( p )
log
C 1
2
  log 2 ( p ) ビット
のとき
f ( p )   log
p
ニット
情報量の差異の応用:符号化と情報
量
• 情報は0,1の符号で表され,伝達される
• 伝送速度が一定ならば,小さいデータほど早
く伝送できる
– データは復元可能なように圧縮して伝送する
• 例:二年分の試験出題情報を符号化する場
合,珍しい情報には長い符号を,珍しくない
符号には短い符号を割り当てる.
– 平均符号長=(Σ(符号長i×確率p))/記号の数
平均情報量
• 平均情報量
- p1*log2(p1) - p2*log2(p2) - ...
- 日本史: 25%,世界史: 75%の場合
– -0.25 log2(0.25) - 0.75 log2(0.75)
= 0.25*2 +0.75*0.415
= 0.811 < 1
– 1-0.811=0.189はヤマの分
情報量の差異の応用:符号化と情報
量
• 情報は0,1の符号で表され,伝達される
• 伝送速度が一定ならば,小さいデータほど早
く伝送できる
– データは復元可能なように圧縮して伝送する
• 例:二年分の試験出題情報を符号化する場
合,珍しい情報には長い符号を,珍しくない
符号には短い符号を割り当てる.
– 平均符号長=(Σ(符号長i×確率p))/記号の数
符号化と情報量(例)
出題
確率
符号
符号長
3
日本史+日本 1/16 111
史
3
日本史+世界 3/16 110
史
2
世界史+日本 3/16 10
• 平均符号長=0.844
史
– 1年分の試験の情報を表す符号長(=1)より平均
9/16 0
1
世界史+世界
符号長が短くなっている
史
符号化と情報量(例)
出題
確率
符号
符号長
3
日本史+日本 1/16 111
史
3
日本史+世界 3/16 110
史
2
世界史+日本 3/16 10
• 平均符号長=0.844
史
– 1年分の試験の情報を表す符号長(=1)より平均
9/16 0
1
世界史+世界
符号長が短くなっている
史
3.1.3 平均情報量
記号:A1,A2,…,An 生起確率(p1,p2,…,pn)
n
平均情報量    p i log p i (1文字当たり
i 1
の情報量)
1文字当たり H ビットの平均情報量をもつ
情報源があり、1秒当たり C ビットの容量
を持つ通信路が存在するとき、ちょうどうま
い符号化が存在すれば、1秒当たりフルに
C ビット流せて、もとの文字数で言えば、1
秒当たり C/H 文字送れることになる。
雑音のない通信路の基本定理
(情報源符号化定理)
平均情報量 H の情報源と単位時間当た
り C の容量を持つ通信路があるとき、任
意の正の数   0 に対して、単位時間
当たり
C

H
文字で情報を送るような符号化が存在す
る。
3.2 情報通信
• プロトコル (3.2.2) (a)
– 通信の際の決めごと
• 通信の秘密と相手の認証 (3.2.3) (a)
– 暗号 盗聴を防ぐ
– (認証 通信参加者の身元の保証)
– (署名 通信内容の改竄の防止、否認の防止)
通信プロトコル
• 決められた種類の情報を伝える場合には、あらかじ
め伝え方に約束事がある
– 例)手紙: 宛名を書く場所、「気付」、差出人を書く場所、日
付を書く場所、等々
→ 間違えると届かなかったり、誤解されたり
• インターネットの通信にも、種類によって約束事があ
る
– 例) 電子メール: 宛先のメールアドレス、差出人のメール
アドレス、日付を書く場所、等々
– 例) WWW: URL, データの大きさ, データの種類, 更新さ
れた日時, 言語、等々
→ プロトコルと呼ぶ
プロトコル (protocol)
• 通信の意図を理解するための決めごと
– 電話「もしもし」, トランシーバ「どうぞ」
• コンピュータ同士の通信: 人間の場合より厳
密
– WWW (HTTP,HyperText Transfer Control P.)
– 電子メール (SMTP, Simple Mail Transfer P.)
• プロトコルを正しく使えば機器によらず通信
可能
クライアント
サーバ
暗号
• 平文: 元のデータ。第三者に読まれたくない
もの
– 「明日のランチはね…」
• 暗号文: 変換後のデータ。盗聴されても平
文を(簡単には)取り出せない。
– 「嘯囮嗷囂圄圓倬埃圉囿…」
• 暗号化: 平文から暗号文を作成すること
• 復号: 暗号文から平文を取り出すこと
• 鍵: 暗号化や復号の際に用いられるデータ
3.3.3 通信の秘密と相手の認証
・ 共通鍵暗号(対称鍵暗号)
–送信する暗号化での鍵と受信での復
号化の鍵が同じもの。(シーザー暗号
など)
• 公開鍵暗号(非対称鍵暗号)
–暗号化と復号での鍵が違うもの(RSA
方式など)
暗号
• 平文: 元のデータ。第三者に読まれたくない
もの
– 「明日のランチはね…」
• 暗号文: 変換後のデータ。盗聴されても平
文を(簡単には)取り出せない。
– 「嘯囮嗷囂圄圓倬埃圉囿…」
• 暗号化: 平文から暗号文を作成すること
• 復号: 暗号文から平文を取り出すこと
• 鍵: 暗号化や復号の際に用いられるデータ
最近の暗号理論の歴史
1970年 NIST (National Institute of Standards
of Technology, USA) は、DES (data
encryption standard) を標準規格に採用
1998 年 NIST はDES に取って代わる新たな
規格AES (Advance Encryption Standard)
を求めた
共通鍵暗号
• 一つの鍵で暗号化と復号化が両方できるモデ
ル
鍵を秘密に保つ必要がある
共通鍵暗号(対称鍵暗号)
• ヴァーナム使い捨て鍵暗号 (Vernam‘s one-time
pad)
 全ての受動的攻撃に耐えられる完全秘匿
(perfectly secure)な暗号系
• 欠点
– 文書と同一の長さの真正ランダム鍵が必要
– その鍵が、安全に届けられなければならない(ワ
シントンモスクワ間での信頼できる特使により運
搬されていたそうである)
公開鍵暗号
署名と検証
公開鍵暗号
別掲PDFファイルへ
3.3 情報ネットワークの枠組
• 交換の方式 (3.3.1)
– 交換機: 通信される情報を経路に振り分ける
• 回線交換: 仮想的な通信路を確保
• パケット交換: データを細かく分け順番に通信
3.3 情報ネットワークの枠組
• 交換の方式 (3.3.1)
– 交換機: 通信される情報を経路に振り分ける
– 回線交換: 通信路を確保
– パケット交換: データを細かく分けて順番に通信
• ちぎっては投げ,ちぎっては投げ
• 遅延(latency)とスループット(throughput)
• broadcastとunicast
交換方式の特性
交換方式
回線 (電話)
パケット (インター
ネット)
流れる情報の種類
音声のように途切れ
ては困るもの
WWWのように時間
がかかっても構わな
いもの
料金体系
回線を占有している
時間に対して課す
全体の設備を使う権
利に対して課す
端末の能力
単純でよい
データをためる・送り
直す等の能力が必要
交換機の能力
高くないといけない
比較的低い
3.3 交換の方式
• 通信の交換の方式
(1) 回線交換
(2) パケット交換
--パケットごとに送られて受信側に到達すると、
受信側でもとに組み立て直す。
– ネット内でのパケットの大きさは、数十から
数千バイト程度の大きさ。
– イーサネット内では 1500 Byte
3.4 インターネット
• インターネットを使って2つのコンピュータが通
信をしているとき、実際にはどこで何が起きて
いるのか?
注意:
– 2つのコンピュータは直接つながっていない
– 各コンピュータは、同時に色々な相手と通信して
いる
– 同時に色々な種類の通信もしている (例: メール
とWWW)
– 世界中のコンピュータが通信できる
ルーターのネット
各機器はホスト番号を持つ
ワーク番号
ルーター
各機器は同じネットワーク番号
インターネット
の世界
階層プロトコル (例)
• 全ての場合に備えたプロトコルを準備する無
理
– インターネットでオセロをするプロトコル
– 郵便で将棋を指すプロトコル, 携帯電話で囲碁…
• 解: 通信とゲームのプロトコルを分離
場合に応じて組み合わせ可能に
インターネットの通信
• ネットワークの集合体: グループごとに管理
• ルータ: ネットワーク間の通信を中継
• 様々なプロトコル: 役割毎に分割
インターネットの場合
• アプリケーション(WWW,電子メール…):
1対1の通信の部分が共通 → TCP
• ネットワーク内通信:
媒体(無線LAN, イーサネット…)毎に異なる
OSI (Open Systems
Interconnect) の
7階層モデル
アプリケーション層
いまどきは一まとめ
HTTP, SMTP, SCP, …
プレゼンテーション
層
セッション層
トランスポート層
ネットワーク層
データリンク層
物理層
TCP, UDP
IP
Ethernet, PPP, X.25,…
光ファイバ, 銅線, 伝書鳩,…
Web
サーバ
ブラウザ
データ
HTTP
TCP
TCP
IP
IP
ヘッダ データ
IPアドレス
• IPアドレス: インターネット内の住所
– 32bit の数値、8bit毎に表記: 192.168.1.3
– インターネットに接続するホスト
→ 一意のアドレスを必ず持つ
– 連続する番号が意味を持つ
• 組織毎にIPアドレスのまとまりで使用を許可される
• ネットワークの住所を表す
• (ポート番号: 同じホストの複数の通信を区別)
3.4 インターネット ----- IPアドレス
• 8ビット. 8ビット.8ビット.8ビットの32ビット
これらの8ビットは通常0~255の整数で表す
(ゆえに 172.16.11.13 のように表示する)
• IPアドレスは、ネットワーク番号と機器のホス
ト番号をつなげたもの。最初の何ビットがネッ
トワーク番号となるかは、ネットワークごとに
異なる
IPアドレス
ネットワーク番号
ホスト番号
IPアドレスとネットマスクの例
・ 172.16.30.6 / 255.255.255.0
ネットマスクの値が 111....1100000000 で左
から24 個1が並んでいるので24ビットまでが
ネットワーク番号、その後がホスト番号。
・ 上を 172.16.30.6 /24 と表記しても、同じ意味
である。
TCP/IP 階層プロトコル
• 共通の通信手順は同じプロトコル
• 異なる部分だけ取り換え可能
通信内容
1対1の通信
ネットワーク間通信
HTTP (WWW)
TCP
SMTP (電子メイル)
UDP
IP
ネットワーク内通信 無線LAN
イーサネット
カプセル化
• 階層毎に制御用のデータを付加する
– ヘッダ: 先頭に付加されたもの
– トレーラ: 末尾に付加されたもの
• 役割
– データの宛先
– 誤り訂正
– 順序の制御など
パケットを作る
1. TCP がデータの前に TCP ヘッダをつける。
2. IP が TCP ヘッダの前に IP ヘッダをつける
3. IP がさらに IP ヘッダの前に MAC ヘッダを
つける。
4. これでパケットが完成する
MAC IPヘッダ TCPヘッダ データ
(MACアドレス---イーサネット内で各コンピュータを識別す
る番号)
ネットワーク内の通信
• 通信の媒体によって異なる
• 代表的な通信媒体であるイーサネットの例
– コンピュータを識別する48ビットのMACアドレス
– 製造会社の番号と会社内の一意の番号の組み
合わせ
– IPアドレスとの変換にはARP(Address
Resolution Protocol)が利用される
A. TCPヘッダ(その中身)
アプリケーション間の通信に使う
1. 送信元ポート番号
2. 宛先ポート番号
3. シーケンス番号-このパケットデータ
の先先位置が、このパケットの何バイ
ト目かを受信側に知らせる
4. ACK 番号
5. など
• ポート番号 計算機では、ネットワーク
通信を行うアプリケーションが複数同時
に働いている。アプリケーションごとの通
信で、相手の計算機の中のどのアプリ
ケーションと通信するのかを特定する必
要がある。そのために、開いているアプ
リケーションごとにポート番号(16ビット)
を付与して、区別できるようにしてある。
B. IP ヘッダ(その中身)
ーネットワーク間通信に使う
1.
2.
3.
4.
5.
生存期間(TTL)
プロトコル番号
送信元 IP アドレス
発信元 IP アドレス
など
ドメイン名
• IPアドレス:
32ビットの整数・
パケットの宛先として実際に使用
• ドメイン名:
人間が使うためのもの・
mail. ecc. u-tokyo. ac. jp
階層化されて整理
情報基
学術 日
東京大学
盤センタ
機関 本
• ドメイン名システム
– ドメイン名からIPアドレスを調べる仕組み(cf.電話帳)
どうやって4億個の名前を管理して調べるか?
– 各ドメインには、ドメイン名サーバ(DNS)というコンピュー
タが用意されている
– DNSとインターネットを使って通信して調べる
DNSによるIPアドレスの解決
root
jp
co
de
1
ac
uk
2
tu-berlin
3
u-tokyo
klee
4
WWW
3.2 情報通信
クライアント
クライアント
要求を出す側
サーバ
サーバ
プロトコル
応答を返す側
(通信の規格)
WWW の場合
クライアント=ウェッブブラウザ
サーバ=ウェッブサーバ
プロトコル=HTTP
以下、HTTPとTCP/IP プロトコルを解説
クライアント ーサーバ の例
• WWW
WebブラウザーWebサーバ
HTTPプロトコル
• 電子メイル
メイルソフトーメイルサーバ
imap, pop, smtp のプロトコル
結合エントロピー
• 結合エントロピーH(X,Y)
3.5.3条件付きエントロピー
H(X|Y):Yを受信したときのXのエントロピー
(エントロピーはあいまい度のこと)
H ( X | Y )   p( y j )H ( X | y  y j )
j
 
i
 
i

p( y j )
j

p ( xi , y j )
p( y j )
log(
p ( xi , y j )
p( y j )
p ( x i , y j ) log( p ( x i , y j )) 
j
 H ( X ,Y ) 

i

j
)
p ( x i , y j ) log( y j )
j
p ( y j ) log( y j )  H ( X , Y )  H (Y )
例 情報伝送速度
入力側で0,1を1/2 ずつの確率で
毎秒 1000個発生するとし、通信路
の誤り確率を 0.1 とする。すると、
H ( X )  1000  ( 
1
2
(log
1
2
)
1
2
log(
0.9
1
0.1
0
1
1
0.1
0.9
))  1000
0
ビット/ 秒
2
が発信されるので、900 ビット/秒 の情報が受け取れるかとい
うとそうではない。出力が 0でもとの信号が正しく0であった確
率は0.9, 出力が0でもとの信号が1であった確率は0.1, 信号1
についても同様なので, あいまい度は
H ( X | Y )  1000  (  0 . 9 log 0 . 9  0 . 1 log 0 . 1)
 469
ビット/ 秒
だから伝送速度は R=1000-469=531 ビット/秒であ
る。わずか1割の雑音で情報量はほぼ半分に減っ
てしまうのである。
3.5.4 相互情報量
I(X;Y): 受信Yを観測して得られるXに関する情
報量
I ( X ;Y )  H ( X )  H ( X | Y )
 H ( X , Y )  H ( X )  (Y )
 H (Y )  H (Y | X )  I (Y ; X )
情報伝達速度 R:1秒当たり受信によって得られる
情報量 R を情報伝送速度と呼ぶ。このとき、
R  H ( X )  H ( X | Y )  I ( X ;Y )
通信路容量 C: 情報伝送速度 R は、入力 の
xi
確率 によって決まる。このRの最大値を通信路
pi
容量と呼ぶ。
C  max{ R | p ( x i ) i 1,..., n }
通信路容量
• Xの確率分布を変更したときの相互情報量
I(X;Y)の最大値
• 符号化の方法によって相互情報量を通信路
容量に近づけることが出来る
定理(誤りを持つ通信路の基本定理)
容量 C の通信路と1秒当たりKのエントロピーを持
つ情報源があるとき、K<C ならば、情報源の情報
をこの通信路を通して任意に小さい誤り確率で送れ
るような符号化が存在する。
このことは、雑音の混入が避けられない通信路で、誤
りのない通信ができる。しかも、そのときの情報伝送速
度を最大 C まで高められるという、一見常識に反する
ことを意味するので、通信理論にたずさわる人たちを
驚かせた。
通信路容量Cの計算例
情報の構造の一様性を仮定する。すると、
m
H (Y | x i )    p j log p j ,
i 1
m
H (Y | X )    p j log p j
i 1
ゆえに
m
C  max{ H (Y )  H (Y | X )}  max{ H (Y )} 

p j log p j
i 1
H(Y)が最大の値を取るのは
p ( xi )  1
m
C  log( m ) 

j 1
p j log p j
m のときだから
例
1-p
1
p
p
0
1
m=2,
誤り率: p
0
1-p
この通信路の容量は
C  log
2
2  (1  p ) log 2 (1  p )  p log
 1  (1  p ) log 2 (1  p )  p log
(注:p=1/2 ならば C=0)
2
p
2
p