講義資料

Download Report

Transcript 講義資料

確率と統計
メディア学部2011年
2011年12月15日(木)
今日は若干盛りだくさんです。
頑張りましょう!
確率と統計2011
P.2
これまでの内容(復習)
統計学の構成
–
記述統計学
•
–
(確率)
•
–
データの整理(効果的な表・図の作り方)
推計学(統計的推論)の基礎
推計学(数理統計学)
•
推定・検定など
確率と統計2011
P.3
統計学の構成
•
•
•
記述統計学
確率の基礎
推計学(数理統計学)
確率と統計2011
P.4
1. 記述統計学
• データ解析の演習
– EXCEL
• 基本統計量:
– 平均・中央値(メディアン)・最頻値(モード)
– 分散・標準偏差
• その他
確率と統計2011
P.5
定義(1)
x1  x2  x3    xn
平均 m 
n
確率と統計2011
P.6
定義(2)
( x1  m) 2  ( x2  m) 2  ( xn  m) 2
分散 s 
n
2
2
2
2
(
x

m
)

(
x

m
)


(
x

m
)
2
n
分散 s 2  1
n 1
確率と統計2011
P.7
問題
分散の定義は次の2つがある。
これら2つの定義の使い分けを
説明しなさい。
( x1  m) 2  ( x2  m) 2  ( xn  m) 2
定義1 s 
n
2
2
2
2
(
x

m
)

(
x

m
)


(
x

m
)
2
n
定義2 s 2  1
n 1
確率と統計2011
P.8
回答例
• 分散とはそもそも「データの散らばり具合」
を知るための指標である。そこで、定義1で
は「各データの偏差(基準点からのずれ)
の二乗」の平均でもってデータの散らばり
を捉えようとしている。一方、定義2では、「
各データの偏差の二乗の総和(散らばり
の総量)」を自由度で割ることでデータの
散らばりを捉えようとしている。
確率と統計2011
P.9
回答例(続き)
• なお、定義2の方は、数学的に母分散の良
い推定値になっているので、統計的推論
の際には積極的に使われている。
(注)「良い推定値」とは次の式が成り立つ
ことをここではいう。
E(s )  
2
2
確率と統計2011
E(s2)はσ2の不偏推定値で
ある。教科書P.124-125.
P.10
証明
自力で証明を考えてみよう。
難しければ自分で本などを
調べて、ここにまとめておこ
う。将来のために...
確率と統計2011
P.11
2. 確率の基礎
•
•
確率の定義
–
試行・標本点ω・標本空間Ω・事象・確率関数
確率の計算
–
–
–
–
加法定理・互いに排反
乗法定理・独立性
ベイズの定理(事後確率)
その他(期待値・確率変数)
確率と統計2011
P.12
3. 推計学(推測統計学)
• 推定
• 検定 など
確率と統計2011
P.13
標本平均mの性質(重要)
大きさnの標本から求めた標本平均mの
「平均(期待値)と分散」は、次の性質を持つ。
• E(m) =μ
(標本平均mの期待値は、母平均μと等しい。)
• V(m) = σ2/n
(標本平均mの分散は、母分散σ2の1/n。)
確率と統計2011
P.14
標本分散s2の性質(重要)
大きさnの標本から求めた標本分散s2の
平均は、次の性質を持つ。
• E(s2) =σ2
(標本分散s2の期待値は、母平均σ2と等しい。)
(注) E(s) =!=σ
確率と統計2011
P.15
確率と統計2011
P.16
確率と統計
(続き)
確率と統計2011
P.18
今日の内容
1. 推定と検定(続き)
確率と統計2011
P.19
推定
• 推定とは、標本のデータを利用して(標本
の分析を通じて)、母集団に関するパラ
メータ(母数;母平均や母分散など)の値を
推測すること。
確率と統計2011
P.20
調査
確率(sampling)
知りたい対象
(未知な調査対象)
得られたデータ
(分析可能)
記述統計
推測
確率(推定・検定)
確率と統計2011
p.21
Copyright© 2009 School of Computer Science, Tokyo University of Technology
推定(標本が1つのとき)
(事実)標本の平均がm
(結論)母集団の平均の推定値
ˆ = m
確率と統計2011
ˆ は
P.22
推定(標本が2つのとき)
(事実)標本の平均がm1とm2
(結論)母集団の平均の推定値
ˆ =(m1+m2)/2
確率と統計2011
ˆ は
P.23
推定(標本がn個のとき)
(事実)標本の平均がm1,m2, …, mn
(結論)母集団の平均の推定値 ˆ は
ˆ = (m1 + m2 + …+ mn ) / n
確率と統計2011
P.24
推定(一般に)
(事実)
標本の平均がm
標本の標準偏差がσ
ˆ はm、
(結論)母集団の平均の推定値 m

(その誤差は n )
確率と統計2011
P.25
検定
• こちらの方も実用上重要。
• ゆっくりと導入しましょう。
• 理解できるまで何度も読み返し、
考えてください。
(ここからの話は、1つの思想です。)
確率と統計2011
P.26
サイコロ実験
サイコロAとBとをそれぞれ100回ずつ
投げたところ以下のようになった。
サイコロA: 偶数40回
サイコロB: 偶数30回
奇数60回
奇数70回
AもBもサイコロはただしく作られているか?
確率と統計2011
P.27
問題をもっと単純にして解説する。
サイコロを5個投げる。
確率と統計2011
P.28
目(偶)の出方は以下の通り:
(場合1)
(場合2)
(場合3)
(場合4)
(場合5)
(場合6)
偶0回-奇5回:
偶1回-奇4回:
偶2回-奇3回:
偶3回-奇2回:
偶4回-奇1回:
偶5回-奇0回:
奇-奇-奇-奇-奇
偶-奇-奇-奇-奇
偶-偶-奇-奇-奇
偶-偶-偶-奇-奇
偶-偶-偶-偶-奇
偶-偶-偶-偶-偶
確率と統計2011
P.29
(場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇
の生起確率を計算してみる。
=>乗法定理を用いる。
P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2)
= (1/2)5
= 1 / 32
確率と統計2011
P.30
(場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇
○○XXX
○X○XX
○XX○X
○XXX○
X○○XX
X○X○X
X○XX○
XX○○X
XX○X○
•
•
個々の系列の生起確は(1/2)5 。
個々の系列は同時には起きな
い(互いに排反)。
=> 加法定理
従って、(場合3)全体の生起確率は
P2 = 10× (1/2)5 となる。
XXX○○
確率と統計2011
31
目(偶)の出方は以下の通り:
(場合1)
(場合2)
(場合3)
(場合4)
(場合5)
(場合6)
偶0回-奇5回:
偶1回-奇4回:
偶2回-奇3回:
偶3回-奇2回:
偶4回-奇1回:
偶5回-奇0回:
P0 = 1× (1/2)5
P1 = 5× (1/2)5
P2 = 10× (1/2)5
P3 = 10× (1/2)5
P4 = 5× (1/2)5
P5 = 1× (1/2)5
確率と統計2011
P.32
• 疑問:「5回中2回偶数が出た。
偶数の目は出にくい?」
• これを調べる方法を「検定」という。
• それでは、検定してみよう。
確率と統計2011
P.33
検定(考え方)
1. 【仮説設定】検定したい事柄に対して
「仮説H」を立てる。
2. 【確率計算】 仮説Hが正しいものとして、着目して
いる出来事の生起確率Pを計算する。
3. 【判断・結論】
– Pの値が極めて小さい
=>普通では起きないことが起きた。
=>何かが変だ。
=>「仮説Hが正しい」としたことがいけない。
=>仮説を棄てる。
– Pの値が特に小さくない
=>起きてもおかしくないことが起きた。
=>特に何も結論なし。(新たな知見なし)
確率と統計2011
P.34
• 極めて小さい値として、習慣的に5%(0.05)
や1%(0.01)、10%(0.10)がとられる。
<=特に根拠なし。
(3%や7%でもいいが、習慣に従おう)
• このような値を、「有意水準」あるいは
「危険率」という。
=>この意味は後で検討する。
確率と統計2011
P.35
検定(実行例1)
1.
2.
3.
4.
5.
事実:「5回中、偶2回、奇3回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が2回以下の確率を求める。
P = P0+ P1+P2 = (1+5+10)×(1/2)5
= 16 / 32 = 1 / 2
3.P = 0.5 > 0.1
4.仮説は棄却されない。
確率と統計2011
P.36
検定(実行例2)
1.
2.
3.
4.
5.
事実:「5回中、偶1回、奇4回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が1回以下の確率を求める。
P = P0+ P1 = (1+5)×(1/2)5
= 6 / 32 = 3 / 16 = 0.2
3.P = 0.2 > 0.1
4.仮説は棄却されない。
確率と統計2011
P.37
検定(実行例3)
1.
2.
3.
4.
5.
事実:「5回中、偶0回、奇5回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が0回以下の確率を求める。
P = P0 = 1×(1/2)5
= 1 / 32 = 0.03
3.P = 0.03 < 0.1
4.Hは棄却される。偶奇の目の出方は等確率ではな
い。偶の方が出にくい。
確率と統計2011
P.38
有意水準あるいは危険率
*有意水準10%の意味:
検定を行うと、結論として、
1. 仮説Hを棄却する
2. 仮説Hを棄却しない
という2つの結論のいずれかを下すこと
になる。
確率と統計2011
P.39
検定における判断の問題点
仮説Hを棄却する
仮説Hは
仮説Hは
本当は正しい 本当は誤り
正しいのに棄却 正しい判断
仮説Hを棄却しな 正しい判断
い(あるいは採択)
誤りなのに棄却
しない
(注)第一種の過誤、第二種の過誤
確率と統計2011
40
• 有意水準10%で仮説を棄却するとき、
• 100回中90回は正しい判断をしているが、
100回中10回は誤った判断をしているこ
とになる。
=>これ以降は、データ解析例でさらに
勉強してみましょう。
確率と統計2011
P.41
確率と統計2011
P.42
母集団と標本の関係
無作為抽出
母平均μ
標本平均m
標本分散s2
母分散σ2
推測
確率と統計2011
P.43
推定と検定
• 推定:
適当な統計量を選び、現実の標本から計算した
それの現実値をたよりにして、母集団の未知母数
に関し、ある程度、信頼のおける命題をたてること。
母集団について知る
• 検定:
あらかじめ母集団の型や母数の値を仮定し、現実
のデータがどの程度この母集団からの標本とみな
せるか決定すること。
母集団と標本の関係を知る
確率と統計2011
P.44
検定
母集団と標本の関係
?
無作為抽出
母平均μ
標本平均m
標本分散s2
母分散σ2
ホントにこの母集団の標本?
確率と統計2011
P.45
検定の例
• 問題1
ある人がコインを投げ、表の出た回数と
裏の出た回数とを調べたら、表が220回、
裏が180回であった。
これだけの事実から、このコインは歪み
なく作られているといえるか?
確率と統計2011
P.46
考え方(No.1)
• コインを無限回投げなければ、表と裏の出
る確率が等しいことはいえないのではない
か?
ー> 無限回投げることは無理!!!
ー> 何も結論できないのだろうか?
確率と統計2011
P.47
考え方(No.2)
• 次のように考えてみよう!
• もし「コインが正しく作られている」ならば、
表と裏の出る確率は等しい。そのような母
集団から無作為抽出により n = 400個 の
データからなる標本を作り出したとして、
標本中の表の回数Hと裏の回数Tの割合
が 220/400 を超える可能性 p1、および
逆に、180/400 を下回る可能性 p2 を求
める。P = P1 + P2 とする。
確率と統計2011
P.48
考え方(No.3)
• Pの値が十分小さい
ー>めったに起きないことがいま起きた
ー>普通起きないことが起きた
ー>起きるはずのないこと(奇跡)が起きた
ー>何かがおかしい!
(仮説を捨てる)
• Pの値が大きい ->仮説は捨てない
(仮説を採用するわけではない)
確率と統計2011
P.49
考え方(No.4)
つまり…
• 出現率 p = 1/2 = 0.5 の無限母集団から、
n = 400 のデータを無作為に取り出したと
する。このとき、
P = P( m > 220 ) + P( m <180 )
を求めて判断しよう、ということ。
それでは具体的にやってみよう。
確率と統計2011
P.50
計算
• コイン投げは、いわゆる2項分布と
呼ばれているものに相当する。
2項分布は
• したがって、
後日お話します。
P = P(m>220) + P(m<180)
= nC221・(1/2)221・(1/2)179 + ・・・
+ nC400・(1/2)400・(1/2)0 +
179・(1/2)221 + ・・・
C
・(1/2)
n 179
+ nC0・(1/2)0・(1/2)400
確率と統計2011
P.51
• 定理:
2項分布はnが大きければ正規分布で近
似できる。(教科書、108-114ページ)
• このことを利用して計算すると楽。
確率と統計2011
P.52
2項分布の計算を正規分布で!
• 変数変換を行う。
Z = (X – m)/s
= (X – n・p)/√(n・p・q)
この式の意味は?
考えてみること。
• 今の場合、
m = np = 400・0.5 = 200
s = √(npq)=√(400・0.5・0.5) = 10
確率と統計2011
P.53
• したがって、
P = P(m>220) + P(m<180)
= P(Z>(220-200)/10) +
P(Z<(180-200)/10)
= P(Z>2) + P(Z<-2)
= 1 - P(-2<Z<+2)
= 1 – 2・P(0<Z<2)
=
(教科書295ページ参照)
確率と統計2011
P.54
• P は約 0.046
ー>100回のうち4回か5回の割合でこ
のようなこと(表が400回中に220回出
る)がおきうる。
• 仮説「表と裏の出現確率が等しい」が正し
ければ、このようなことは100回に4回か
5回しか起きない。
• めったに起きないことがおきた?
確率と統計2011
P.55
• 統計学的結論:
めったにないことが起きたのではなく、
「仮説が正しくない」
と結論する。
つまり、このコインは歪んでいると。
(ただし、... ) <- ここからが大切!
確率と統計2011
P.56
• ただし、このようなことは100回中に数回
起こりえるのだから、このような実験を行っ
てこのような結論を下すことは、100回中
4から5回程度間違っていることになる。
• そこで、統計学的には以下のように結論
する。
「有意水準5%のもとに、このコインは歪ん
でいる。」
確率と統計2011
P.57
• 有意水準としては、通常1%、5%、10%
などが採用される。(3%、7%などでもい
いのだが…)
確率と統計2011
P.58
それではレポートNo.3を
提出してください!
確率と統計2011
P.59
(おまけ)
• 以下の定理も重要な定理です。
確率と統計2011
P.60
定理1
• x が正規分布 N(μ,σ2) に従うとき、大き
さ n の無作為標本に基づく標本平均 m
は、正規分布 N(μ、σ2/n) に従う。
(xの標本分布に関する定理)
確率と統計2011
P.61
定理2(重要)
• xが任意の分布(平均=μ,分散=σ2)に従
うとき、大きさ n の無作為標本に基づく標
本平均 m は、 n が無限に大きくなるとき、
正規分布 N(μ、σ2/n) に従う。
(中心極限定理)
確率と統計2011
P.62
問題1
ある学力テストの得点xは、正規分布
N(160,202)に従うとする。大きさ16
の標本をとり、mの値を求めるとき、
1. mが165を超える確率は?
2. mが150未満となる確率は?
確率と統計2011
P.63
中心極限定理の利用法
問題1.
ある大学の受験生の母集団から無作為に選
んだ1人の受験生の成績を x とする。いま、過
去の経験から x は平均 μ= 2.5、標準偏差s
= 0.4であることがわかっているものする。こ
のとき、この母集団から 36人の受験生の標
本を採り、標本平均 m を求めるとき、
1. mが2.4未満となる確率は?
2. mが2.4~2.7となる確率は?
確率と統計2011
P.64
問題1のヒント
• 中心極限定理より
s=σ/√n =0.4/√36
z=(x-m)/s =(2.4-25)・0.067
=
P{m<2.4} =P{z<-1.50}=
(標準正規分布表を利用)
後日解説します。
確率と統計2011
P.65