パワーポイント11

Download Report

Transcript パワーポイント11

数理統計学
西 山
前回の最後
クイズ
確率変数Xは、一様分布に従い0から1までの任
意の値を等しい可能性でとる。いま変数Yを𝑌 =
𝑋と定義すると、𝑌はどんな分布に従い、期待値
はいくらになるか?
6月10日(火)授業までに提出(任意)。中間試
験・問4の理解度判定の参考にする。
変数Xは一様分布
𝑋 2 は小さい値をとりやすい
𝑋は大きい値をとりやすい
各自、R@情報処理センターで確かめること
>
>
>
>
>
x <- runif(10000)
par(mfrow=c(3,1))
hist(x,prob=T)
hist(x^2,prob=T)
hist(sqrt(x),prob=T)
Xが一様分布ということは
𝐹 𝑥 =𝑥
1
期待値の計算をすると(例題17)
1
1
𝐸𝑋 =
𝑉𝑋 =
2
12
𝑓 𝑥 = 𝐹′ 𝑥 = 1
0
𝑥
(任意のある値)
1
X
問題はYの分布の形がどうなるか?
確率(=面積)に着目する
G ( y)

P (Y  y )

P (2 X  y )
y

P X  
2

 y
F 
2
y



2
0
2

g ( y)  G '( y) 
1
2
次の目標<教科書第3章>
標本分布(サンプリング分布)
標本分布とは何のことか?
出やすいデータ、出にくいデータ・・・
まとめて考えます。
ここは統計の勉
強全体で最大
の難関
(今までは)
教科書: 第3章の頁99~111、特に
108頁の例題29
【最初の例】データの出方
vs
サンプルの結果の出方
サイコロを2回振って出る目の数を合計します。
予測できますか?
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
出やすい目はない。しかし、2回の合計は7になりやすい。
『合計7が出やすい』
本当か?確認しよう
Rの実行例
> sample(1:6,2,replace=T) ← その時によって出る目は違う
[1] 4 4
> sum(sample(1:6,2,replace=T))
[1] 3
> sum(sample(1:6,2,replace=T))
[1] 7
> jikken <- replicate(6000,sum(sample(1:6,2,replace=T)))
> barplot(table(jikken))
上の実験で「合計が7になった」割合は、確率の理論計算とほ
> sum(jikken==7)/6000
ぼ一致したか?
[1] 0.1651667
実験結果(6千回)
頻度
2回の合計
【発展】サイコロを10回振った平均
Rの実行例
> sample(1:6,10,replace=T)
[1] 3 3 2 3 4 4 2 3 1 3
> sample(1:6,10,replace=T)
[1] 2 5 3 6 6 6 3 2 3 6
データの出方は分かっている
10回の平均値はどんな値が、どう出るのか?
> mean(sample(1:6,10,replace=T))
[1] 3.8
> mean(sample(1:6,10,replace=T))
[1] 3.5
> mean(sample(1:6,10,replace=T))
[1] 3.4
サンプルの平均値の出方を「標本分布」という
実験結果(1万回)
平均値の標本分布
定理8(106頁)
> mean(jikken)
[1] 3.49604
> sd(jikken)
[1] 0.5330016
第3章のテーマ
標本分布
合計の出方(=分布)
平均の出方(=分布)
他にも、サンプルの分散、標準偏差、最大値
サイコロを6回振って、2番目に大きい目
理論的説明
さいころを10回振る問題<合計>
独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10
値
確率
1
1 6
2
1 6
3
1 6
4
1 6
5
1 6
6
1 6
合計の期待値と分散・標準偏差
E Y 
V Y 

E  X 1  X 2    X 10 

E  X 1   E  X 2     E  X 10 

10  3 . 5

35

V  X 1  X 2    X 10 

V  X 1   V  X 2     V  X 10 

10  2 . 92

29 . 2
SD Y  
29 . 2  5 . 40
【続】合計の特徴 ⇔ 平均の特徴
E X




Y 
E 
 10 
1
 35
10
3 .5
V X


Y 
V 
 10 
2

 1 

  V Y 
 10 
2


 1 

  10  2 . 92
 10 
2 . 92
10
SD  X  
2 . 92
10
 0 . 540
最も有名な統計学の定理
中心極限定理
木曜
ここに戻る
同じ母集団からN個のサンプルをとって合
計を求めるとき、Nが十分大きくなれば、
合計や平均に当てはまる確率分布は(常
に)正規分布に近づく。
教科書: 定理10
正規分布を当てはめる! << データは
30~100個以上が目安
サイコロ10回の平均値
実験結果(1万回)
平均値の出方には
正規分布が当てはまる
【例題】社会の視聴率15%
300人への視聴率調査
1. 何人くらいが「みた」と答えるか?
2. 300人のサンプルの結果は視聴率
何%くらいか?
アンケート調査: ゼロイチデータ
同じように考える
無作為データ、故に互いに独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋300
値
0
1
確率
0.85
0.15
E Y   E  X 1  X 2    X 299  X 300

このあとどうなる?次に、分散V 𝑌 は?
データはすべて0か1である
データの出方
(どれも同じ)
結果の出方
(300個合計)
E  X 1   0 . 15   
 
V  X 1   0 . 15  0 . 85 
2
E Y   300  0 . 15  45
V Y   300  0 . 15  0 . 85  38 . 25

SD Y  
38 . 25  6 . 2
実験結果(1万回)
正規分布が
当てはまる
> mean(jikken1); sd(jikken1)
[1] 45.0199
[1] 6.197979
人数(合計)
正規分布が
当てはまる
> mean(ritu1); var(ritu1); sd(ritu1)
[1] 0.1500663
[1] 0.0004268327
[1] 0.02065993
平均値
(合計÷人数)
定理8(106頁)が重要ポイント
証明は合計の公式ですぐできる
母集団の特徴は、平均がμ、標準偏差がσ
N個のサンプルをとると
合計値
平均値(定理8)
期待値  N  
期待値  
分散  N  
標準偏差

2
分散 
N 

2
N
標準偏差


N
【クイズ】
サイコロを40回振って出る
目の数の平均値は?
期待値±標準偏差(=1シグマ区間)で
結果を予想せよ。
木曜
ここから
前に戻る
理論的計算の検証(1万回)
> mean(jikken40)
[1] 3.499728
> sd(jikken40)
[1] 0.2704703
> jikken <- replicate(10000,mean(sample(1:6,40,replace=T)))
【解答】
𝜇 = 3.5
σ=1.7
データの特徴
(サイコロの目)
平均値の出方は?
サンプル
結果
E X   3 .5
V X  
1 .7
SD  X  
2
40
1 .7
40
母集団
 0 . 269
【クイズ】100個の0-1変数の合計
値
-10
+10
確率
0.5
0.5
1000
100回後の標準偏差?
100日目
-1000