標本平均の分布は？

Transcript 標本平均の分布は？

●母集団と標本
母集団
母数
無作為抽出
標本
母平均、母分散
母集団における状態の
推測（推測統計学）
標本統計量
標本データの分析
（記述統計学）
要約統計量
（平均値、分散、相関係数）
●標本統計量は分布する
母集団
標本５
標本１
標本平均５
標本４
標本平均４
標本３
標本２
標本平均３
標本平均１
標本平均２
標本平均１≠標本平均２≠標本平均３≠標本平均４≠標本平均４
標本平均の分布は？
●標本平均の分布＜標本抽出実験＞
母集団：１～9999の9999個の整数より構成される
母平均は5000、母分散は8331667
↓ 母集団よりの無作為抽出実験
標本平均の算出 →
実験の繰り返し → 多数の標本平均値 →
標本平均の分布
抽出標本数は50、100、200の３ケースを実施（各５万回）
6000
5000
4000
3000
2000
1000
0
標本数100
標本数200
標本数50
①標本数を変化させても、分布の中
心位置は殆ど変化しない
②標本数を大きくすると、分布の散
布度は小さくなる
●標本平均の分布＜標本抽出実験＞
母集団：１～9999の9999個の整数より構成される
母平均は5000、母分散は8331667
標本数
50
60
70
80
90
100
150
200
250
300
平均値
4998.9
4999.6
4999.0
5001.0
5000.7
5000.1
4999.1
4999.5
5000.5
5000.3
分散
166376.6
138164.1
117671.2
104035.9
93295.7
83068.7
55956.3
41733.5
33392.3
27681.6
母分散／分散
50.1
60.3
70.8
80.1
89.3
100.3
148.9
199.6
249.5
301.0
①標本平均値の分布における平均値は
標本数によらず常に母平均に一致する
②標本平均値の分布における分散も、
標本数の増加に伴って減少する
分散の減少の仕方は？
 2 標本平均の分散： s2
標本数： n　母分散：
2
s
2
 n　 s 
2
2
n
「標本平均の分布」における分散は
標本数の逆数に比例して減少する
●中心極限定理
・母平均μ、母分散σ２の場合、その母集団からのN個の無作為標本に基づく標本平均の分
布は、平均μ、分散σ２／Ｎである。
・母集団が正規分布に従わない場合でも、Nが十分に大きければ（30～100以上）、その分
布は、平均μ、分散σ２／Ｎの正規分布に近似的に従う。
（母集団が正規分布に従えば、標本数の如何に関わらず標本平均の分布は正規分布に従う）
＜例＞
母集団：平均30、分散10000（標準偏差100）
100個の標本に基づく標本平均値 → 平均30、分散100（＝10000/100）の正規分布
500
→ 平均30、分散20（＝10000/500）の正規分布
〃
我々が行うのはただ１回の標本調査である。その
調査で得られる標本平均値（実現値）は
100個の標本
＊標本数100 → 標本平均値は10～50の広い範囲
の値をとる可能性がある
500個の標本
＊標本数500 → 標本平均値は20～40の範囲に収
まる可能性が高い
↓
0
10
20
30
40
50
60
母平均に近い標本平均を高い確率で得るために
は、標本数を多くすれば良い
●標本比率の分布
＊質的変数：得られるデータはカテゴリ分類であり、平均値などを求めることができない。
例）PCを持っているか否か →
回答：「持っている」、「持っていない」
↓ 質的変数の場合の分布は
各回答カテゴリへの回答頻度、及び相対頻度 → 比率
＊標本抽出実験１
母集団：A政党支持者（母比率0.4）とB政党支持者（母比率0.6）からなる無限母集団
↓ 母集団よりの無作為抽出実験
標本比率（A党）の算出 → 実験の繰り返し → 多数の標本比率 → 標本平均の分布
抽出標本数は50、100、200の３ケースを実施
12000
10000
8000
6000
4000
2000
0
標本数50
標本数100
標本数200
①標本数を変化させても、分布の
中心位置は殆ど変化しない
②標本数を大きくすると、分布の
散布度は小さくなる
●標本比率とは
標本データから得られた回答カテゴリの比率
例）PC保有率、自民党支持率等々
↓ 比率を求めるためには
回答カテゴリに以下のような数値を与えた変数Xを考える
↓（比率を求めるカテゴリ（PC保有者）に数値「１」、それ以外のカテゴリに数値「０」）
 x :　「１」（
i
i
PC保有者）の数　 比率＝ xi / N  平均値
i
標本比率＝「１、０」変数Ｘの標本平均値 → 中心極限定理が適用可能
確率変数Ｘの母集団における分布は？
平均値：母集団における「１」カテゴリの比率 → 母比率π
分散：母集団のサイズをNとすれば、
１：Ｎπ個０：Ｎ（１－π）個
分散   ( xi   ) 2 / N  {N (1   ) 2  N (1   )(0   ) 2 } / N
i
  (1   ) 2  (1   ) 2   (1   )(1     )   (1   )
●標本抽出実験２
母集団：A政党支持者（母比率0.4）とB政党支持者（母比率0.6）からなる無限母集団
標本数
50
60
70
80
90
100
150
200
250
300
平均値
0.400108
0.400184
0.399932
0.399788
0.399969
0.399837
0.399879
0.400148
0.400065
0.400077
分散
0.004808
0.004018
0.003445
0.002984
0.002645
0.002388
0.001589
0.001193
0.000947
0.000794
母分散／分散
49.9
59.7
69.7
80.4
90.7
100.5
151.1
201.1
253.4
302.4
①標本比率の分布における平均値は標本数によら
ず常に母比率に一致する
②標本比率の分布における分散も、標本数の増加
に伴って減少する
標本数： n　母分散：  (1   )　標本比率の分散： s 2
 (1   )
s2
 n　 s 2 
 (1   )
n
「標本比率の分布」における分散は標本数の
逆数に比例して減少する
●標本比率に対する中心極限定理
母比率がπの場合、その母集団からのN個の無作為標本に基づく標本比率の分布
は、平均π、分散π（１－π）／Ｎであり、Nが十分に大きければ（30～100以
上）、その分布は、平均π、分散π（１－π）／Ｎの正規分布に近似的に従う。
＜例＞母比率0.4の母集団からの標本比率の分布
標本数30
0
0.1
0.2
標本数100
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
標本数３０ → 標本比率は0.2～0.6の広い範囲の値をとる可能性がある
標本数100 →
〃
0.3～0.5に収まる可能性が高い
●標本分散の分布
＜標本抽出実験＞母集団：平均50、分散100の母集団
↓ 母集団から無作為標本
標本分散の算出 →
実験の繰り返し → 多数の標本分散 → 標本分散の分布
抽出標本数は右の７ケース（各5万回）
標本数
5
10
20
50
100
200
300
A
B
C
平均値 A／母分散 B×標本数
80.4
0.804
4.02
89.9
0.899
8.99
94.9
0.949
18.98
98.0
0.980
49.00
99.0
0.990
99.02
99.5
0.995
198.98
99.7
0.997
299.02
標本分散の分布の平均
値：
s
2

2
n  n 1
s2
 2  s2
＊標本分散の分布の平均値は標本数の増加ととも
に単調に増加し、母分散(=100)に近づく
但し、標本平均、標本比率とは異なり、母分散と
は一致しない
↓
Ｂ欄：A欄の値と母分散の比
C欄：Ｂ欄の値に標本数をかけた値
標本数より約１だけ少ない数
不偏分散： ˆ 2
n
n 1
ˆ 2  s 2
n

n 1
( x
i
 x )2
i
n
n

n 1
( x
i
i
 x )2
n 1
●標本不偏分散の分布
＜標本抽出実験＞母集団：平均50、分散100の母集団
↓ 母集団から無作為標本
標本不偏分散の算出 → 実験の繰り返し → 多数の標本不偏分散 →
標本不偏分散の分布
抽出標本数は右の７ケース（各5万回）
標本数
5
10
20
50
100
200
300
平均値
100.6
100.1
100.1
99.9
99.9
100.0
100.0
分散
2619.1
1033.7
451.4
168.4
81.3
40.7
26.8
①標本不偏分散の分布における平均値は標
本数によらず母分散に一致する
②その分散も標本数の増加に伴って単調に
減少する
↓
標本数を増やせば、不偏分散は母分散の
近傍の値をとる確率が高くなる
母分散を推定する場合には、標本分散ではなく、不
偏分散を用いる必要がある
●標本平均の差の分布
・関東圏と関西圏ではいずれの方が通勤時間は長いのだろうか
・20歳代の男女ではいずれの方が自動車保有率は高いのだろうか
＊標本抽出実験＜２つの母集団＞
母集団１：１～9999の9999個の整数より構成されている（母平均＝5000、母分散＝8331667）
母集団２：1001～10999の9999個の整数より構成されている（母平均＝6000、母分散＝8331667）
↓ この２つの母集団からそれぞれ独立に同数の標本を無作為に抽出する
標本平均値の差（第２標本－第１標本）を求める → 実験を繰り返す → 標本平均の差の分布
4000
3500
3000
標本数100
標本数200
①標本数を変化させても、分布
の中心位置は殆ど変化しない
2500
2000
1500
1000
500
0
標本数50
②標本数を大きくすると、分布
の散布度は小さくなる
●標本抽出実験２
＊標本抽出実験＜２つの母集団＞
母集団１：１～9999の9999個の整数より構成されている（母平均＝5000、母分散＝8331667）
母集団２：1001～10999の9999個の整数より構成されている（母平均＝6000、母分散＝8331667）
標本数
50
60
70
80
90
100
150
200
250
300
平均値
1001.5
1001.7
1001.6
1003.7
1001.1
1003.1
999.1
998.7
1001.0
1001.6
分散
333592.9
276729.3
240605.6
205632.8
184824.5
165184.3
111792.5
83365.1
66860.7
55688.6
母分散／分散
25.0
30.1
34.6
40.5
45.1
50.4
74.5
99.9
124.6
149.6
①標本平均の差の分布における平均値は、２つの
母平均の差に等しい
②標本平均値の差の分布における分散は標本数の
増加に伴って単調に減少する
母分散：
 2   12   22
標本数：ｎ
「標本平均の差」の分布の分散： 2
s

2
s2

n
2
s2 
2
n
2
s 
2
 12
n1

 22
n2
●２つの標本平均の差の分布：中心極限定理
母集団１：平均
母集団２：平均
1
2
、分散
、分散
 12
 22
n1 個の標本に基づく標本平均 X 1
母集団２から無作為に抽出した n2 個の標本に基づく標本平均 X 2
母集団１から無作為に抽出した
の差
平均
X 1  X 2 の分布は、 n1,n2
1  
、分散
2
 12
の正規分布に近似的に従う。（
n1
、が大きければ、

 22
n2
n1,n2
の目安としては30以上）
●理論分布・・・正規分布
＊平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる
＊確率密度関数
f (X )
1
2 
1
1 X 
exp{ 
}
2  
2 
2
f (X ) 
（－∞＜Ｘ＜∞）
μ
と のみで決まる  N (,  )
2
中心極限定理で近似分布として利用
身長、体重、知能等も正規分布に従う（と言われている）
＊標準正規分布
正規分布に従う
変数Ｘ
標準化
Z
X 
平均０、分散１の正規分布

標準正規分布 N(0,1)
f (X ) 
1
X2
exp(
)
2
2
●正規分布に従う変数がある範囲をとる確率
＊
N ( ,  2 )
に従う変数
X が xと
1 x2
の間の値をとる確率 Pr(x1
 X  x2 )
・指定された範囲における正規分布曲線の下の面積
・数表を用いて求める
ある指定された値以上の
確率が得られる
＊数表から
Pr(x1  X )
Pr(x1  X  x2 )  Pr(x1  X )  Pr(x2  X )
しかし
平均、分散の異なるあらゆる数表を用意することは不可能
標準正規分布を利用した方法
●標準正規分布を利用した方法
基本的な原理
変数
Ｘ：
変数Ｚ：
N (,  2 )　 Pr(x1  X  x2 )
標準化
Z
X 

z1 
x1  

z2 
x2  

Pr(x1  X  x2 )  Pr(z1  Z  z2 )
N (,  2 )　 Pr(x1  X  x2 )
①
x1 を標準化
z1 
②
x2
z2 
を標準化
③標準正規分布表を利用して
を求めるためには
x1  

x2  

Pr(z1  Z )
Pr(z2  Z )
Pr(z1  Z  z2 )  Pr(z1  Z )  Pr(z2  Z )
●標準正規分布表の利用方法
p
z
ｐ
の
小
数
点
１
位
と
２
位
の
値
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.11
0.000
∞
2.3263
2.0537
1.8808
1.7507
1.6449
1.5548
1.4758
1.4051
1.3408
1.2816
1.2265
0.001
3.0902
2.2904
2.0335
1.8663
1.7392
1.6352
1.5464
1.4684
1.3984
1.3346
1.2759
1.2212
0.002
2.8782
2.2571
2.0141
1.8522
1.7279
1.6258
1.5382
1.4611
1.3917
1.3285
1.2702
1.2160
ｐの小数点３位の値
0.003 0.004 0.005 0.006
2.7478 2.6521 2.5758 2.5121
2.2262 2.1973 2.1701 2.1444
1.9954 1.9774 1.9600 1.9431
1.8384 1.8250 1.8119 1.7991
1.7169 1.7060 1.6954 1.6849
1.6164 1.6072 1.5982 1.5893
1.5301 1.5220 1.5141 1.5063
1.4538 1.4466 1.4395 1.4325
1.3852 1.3787 1.3722 1.3658
1.3225 1.3165 1.3106 1.3047
1.2646 1.2591 1.2536 1.2481
1.2107 1.2055 1.2004 1.1952
●Excelの関数を用いる
NORMDIST(a1,a2,a3,1)
↓
平均a2、標準偏差a3の正規分布においてa1
以下の確率を求める。
NORMINV(a1,a2,a3)
平均a2、標準偏差a3の正規分布においてそ
の下側確率がa1となる値を求める
0.007
2.4573
2.1201
1.9268
1.7866
1.6747
1.5805
1.4985
1.4255
1.3595
1.2988
1.2426
1.1901
0.008
2.4089
2.0969
1.9110
1.7744
1.6646
1.5718
1.4909
1.4187
1.3532
1.2930
1.2372
1.1850
0.009
2.3656
2.0748
1.8957
1.7624
1.6546
1.5632
1.4833
1.4118
1.3469
1.2873
1.2319
1.1800
● 理論分布・・・ｔ分布
正規分布 → 標準化 → 標準正規分布
これを行う前提としては
母分散、母平均が分かっている必要がある
z
X 

一般には、これが分からないのが普通
＊母平均は、推定の対象となる（分からないのが前提）
＊母分散は、不偏分散で推定する
t
X 
ˆ
不偏分散は、確率的に変動するため、ｔは標準正規分布とはならない
ｔ：標本数をn とすると自由度n-1 のｔ分布
● ｔ分布
標準正規分布
①自由度の小さい分布は標準正規分布
とかなり異なった形状を示している
自由度99
自由度4
・中央部の山が低い
・その分だけ裾を長く引く形
↓
自由度1 自由度2
裾の重い分布
②自由度が大きくなるとその分布は急
速に標準正規分布に近づく
0
標本数が多くなる → 不偏分散は母分散のより正確な推定値となる
t
X 
ˆ
z
X 

● ｔ分布から値（確率）を取り出す
ｔ分布表を使う方法
自
由
度
1
2
3
4
5
6
7
8
t0.2
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
t0.1
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
t0.05
6.3137
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
t0.025
12.7062
4.3027
3.1824
2.7765
2.5706
2.4469
2.3646
2.3060
t0.01
31.8210
6.9645
4.5407
3.7469
3.3649
3.1427
2.9979
2.8965
t0.005
63.6559
9.9250
5.8408
4.6041
4.0321
3.7074
3.4995
3.3554
α
t
Excel の関数を利用する方法
①TDIST(a,df,1)
①TDIST(a、df、1) → 自由度dfのｔ
分布においてその値がa以上の確率を求め
る
②
②TINV(b,df) → 自由度dfのｔ分布に
おいてその上側確率がbとなる値を求める
①
a
② TINV(b,df)
b

標本平均の分布は？

Transcript 標本平均の分布は？

Directory