Transcript URL

富山大学知能情報工学科
「統計学」第14回
ホーエル『初等統計学』
まとめ、総合演習
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1
前回の演習問題の答え
• 問題1(章末問題1)
12人の大学生の身長(x)と体重(y)とを示した次のデータから,(a)散布図
を描け,(b)観察によりrの値を推量せよ,(c)rの値を計算せよ.
x
65
73
70
68
66
69
75
70
64
72
65
71
y
124
184
161
164
140
154
210
164
126
172
133
150
答え:
(a)散布図
(b)観察により r > 0.7
学生番号
1
2
3
4
5
6
7
8
9
10
11
12
合計
平均
不偏分散
標準偏差
相関係数
身長(x)
xの偏差 yの偏差 xの偏差^2 yの偏差^2 偏差の積
体重(y)
65
124
-4
-32.83
16
1078.03
131.33
73
184
4
27.17
16
738.03
108.67
70
161
1
4.17
1
17.36
4.17
68
164
-1
7.17
1
51.36
-7.17
66
140
-3
-16.83
9
283.36
50.50
𝑛
69
154
0
-2.83
0
8.03
0.00
𝑖
𝑖=1 𝑖
75
210
6
53.17
36
2826.69
319.00
70
164
1
7.17
51.36
7.17
𝑥1 𝑦
64
126
-5
-30.83
25
950.69
154.17
72
172
3
15.17
9
230.03
45.50
65
133
-4
-23.83
16
568.03
95.33
71
150
2
-6.83
4
46.69
-13.67
828
1882
134
6849.67
895
69 156.8333
12.18
622.70
3.49
24.95
(𝑥 − 𝑥)(𝑦 − 𝑦)
(𝑛 − 1)𝑠 𝑠
=895/(11*3.49*24.95)=0.93
𝒓=
0.93
(c)エクセルで計算:=CORREL(B2:B13,C2:C13)
2
前回の演習問題の答え
問題2(章末問題19)
次のデータは学生の入学試験の点数(x)と学期末の点数(y)の関係を
示したものである.(a)回帰直線を求めよ.(b)この直線を散布図の上に図
示せよ.
x
129
179
347
328
286
256
477
430
327
245
286
326
y
370
361
405
302
496
323
374
332
435
165
375
466
答え:
(a)回帰直線は
𝑦 = 330.29 + 0.12𝑥
(b)散布図の上に図示
=INTERCEPT(C2:C13,B2:B13)
=SLOPE(C2:C13,B2:B13)
3
第1章~第9章のまとめ
4
第1章 統計的方法の性質
• 記述統計(descriptive statistics)
データの収集,要約に関する統計学 .
得られたデータを要約する.
– 標本データの要約
– 小さな母集団(学級など)でのデータの要約
• 推測統計(statistical inference)
母集団に関する結論を引き出す統計学 .
5
調査の流れ
調査
確率(sampling)
母集団
標本
知りたい対象
得られた
データ
(未知の調査対象)
(分析可能)
記述統計
推測
確率(推定・検定)
6
第2章 標本データの記述
• データの分類
– 度数分布表
– ヒストグラム
• 算術的記述
– 代表値(average)=位置(location)の測度
平均値(mean)
中央値(median)
最頻値(mode)
平均値(算術平均)・中央値・最頻値の特徴
– 散布度(dispersion)=変動(variation)の測度
分散(variance),標準偏差(standard deviation)
s2 
n
1
( X i  X )2

n  1 i 1
U2 
1
1
2
2
2
(
X

X
)

X
「2乗の平均-平均の2乗」


i
i X
n
n
範囲(range)
四分位範囲(interquartile range)
7
度数分布表の例
階級境界値
階 級
109.5 ~ 119.5
119.5 ~ 129.5
129.5 ~ 139.5
139.5 ~ 149.5
149.5 ~ 159.5
159.5 ~ 169.5
169.5 ~ 179.5
179.5 ~ 189.5
189.5 ~ 199.5
199.5 ~ 209.5
209.5 ~ 219.5
度数
1
4
17
28
25
18
13
6
5
2
1
階級境界値を設定する
際の工夫:
• 測定単位よりもひとつ下の桁で境界値を設定するのは、ちょうど境界値をとった
データをどちらの階級に入れるか迷わないようにするための工夫である。
• 測定単位の桁で境界値を設定してもよい。
ヒストグラムの例: 120人の学生の体重の分布 (教科書の図2)
30
28
25
人数(人)
25
20
17
15
18
13
柱
10
6
4
5
5
2
1
0
体重(ポンド)
1
第3章 確率
• 確率に関する概念
– 試行 (trial), 標本空間 Ω (sample space)
– 事象 E (event), 単一事象 (simple event)
– 複合事象 (composite even), 事象演算
• 確率の公理
• 排反と,加法定理
– 2つの事象 Aと B
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)
– Aと B が互いに排反ならば,
𝑃 𝐴 ∩ 𝐵 =0
𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵
• 条件つき確率と,乗法定理
• 独立事象
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
– Aと B が独立ならば
𝑃 A B = 𝑃(A)
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵)
10
理論の対立
• 頻度論者(Frequentist)
– 長所 :
– 短所 :
客観的な分析ができる
何度も繰り返し実験ができる,という前提は,
強引すぎる
• ベイズ論者(Bayesian)
– 長所 :
– 短所 :
自然な考え方であり,事前知識も活用できる
主観確率を使うので,同じ情報があっても,
人によって前提から結論まで違う
• ベイズの定理(事後確率を計算するための公式)
𝑃(𝐷|𝐻) × 𝑃(𝐻)
P HD =
𝑃(𝐷)
事後確率
尤度
事前確率
11
第4章 確率分布
• 確率変数:標本空間の上で定義された実数値関数
– 離散型
– 連続型
• 確率分布の性質:
– 標本の大きさを十分に大きくすると,標本平均mは母集団平均μに収
束する
標本平均:m
母集団平均:μ
無作為
2
標本分散:s
抽出
母集団分散:σ2
母集団(確率分布)
•
期待値
E[ X  c]  E[ X ]  c
標本(経験分布)
E[c  X ]  c  E[ X ]
E[ X  Y ]  E[ X ]  E[Y ]
補足
𝑉 𝑋 = 𝐸 𝑋 2 − (𝐸 𝑋 )2
𝑉 𝑐𝑋 = 𝑐 2 𝑉[𝑋]
12
第5章 主要な確率分布
• 代表的な2つの確率分布の導入
 2項分布(離散型)
 (実践)エクセルを利用した
2項分布の確率計算
 正規分布(連続型)
 (実践)エクセルで正規分布のグ
ラフの書き方
• 2項分布の正規近似
13
13
第6章 標本抽出
標本抽出
無作為抽出
単純無作為抽出
有意抽出法
紹介法、応募法、出口調査など
• 不偏推定値
– 標本平均x は、母集団平均μの不偏推定値である.
– 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2
の不偏推定値である.
– 性質: E(x)=μ
V(x) = σ2/n
E(s2)=σ2 E(s) ≠ σ
• 中心極限定理
確率変数 X: E[X]=𝜇, V[X]=σ2
大きさ n の無作為標本に基づく標本平均
𝜎2
𝑥~𝑁(𝜇, )
𝑛
14
第7章 推定
標本
標本抽出
母集団
母数
母平均、母分散
標本データの分析
(記述統計学)
母集団における状態
の推測(推測統計学)
標本統計量
(平均値、分散、相関係数など)
15
標
本
母
集
団
推定
標本統計量
母数
• 統計的推定
𝜎
𝑛
– 点推定 (標本平均𝑥と標準誤差 )
– 区間推定 (信頼水準𝛼と信頼区間[−𝑧0 , 𝑧0 ])
• 母集団平均𝜇の推定
95%の確率で
x  1. 96
理論的には

n
   x  1. 96
信頼水準95%の信頼区間
s
s
x  1. 96
   x  1. 96
n
n

n
実際の計算では(大標本法)
1
2
s 
( xi  x )
n 1
2
16
母集団平均の信頼区間の公式
90%確率のとき、𝑧0 = 1.645
95%確率のとき、𝑧0 = 1.96
99%確率のとき、𝑧0 = 2.58
公式1
公式2
公式3
信頼水準90%信頼区間 x  1.645
信頼水準95%信頼区間 x  1.96

n

n
信頼水準99%信頼区間 x  2.58 
n
• 信頼区間を大きくすれば「はずれ」の確率は小さくなるが,大きすぎ
る信頼区間は意味がない.n を大きくすると区間を小さくできる
17
• スチューデントのt分布
– 自由度調整済み分散
― t分布の定義
– t分布の特徴と性質
―t分布表の使い方
– 母平均 μ の信頼区間(小標本法)
𝑠
𝑥 ± 𝑡0
𝑛
• 割合pの推定
α
t
– 母集団での割合 p の信頼区間
𝑝 ± 𝑧0
– 標本の大きさの決定
𝑝(1 − 𝑝)
𝑛
90%確率のとき、𝑧0 = 1.645
95%確率のとき、𝑧0 = 1.96
99%確率のとき、𝑧0 = 2.58
𝑧𝑜 2
𝑛 = 𝑝(1 − 𝑝)( )
𝑒
18
推定のとき
モデル分布の決定~z分布か、t分布か~
1.母標準偏差が既知→
z 分布(標準正規分布)
2.母標準偏差が未知
a.標本サイズが大 (目安はn≧25 )
大標本法 → z 分布(近似)
b.標本サイズが小 → t 分布
小標本法
母集団が正規分布に従う
という保証がある限り
19
第8章 仮説の検定
• 仮説の検定とは
– 用語:検定統計量、有意水準、棄却域
– 分類:片側検定と両側検定
検定統計量の
確率分布
(確率密度関数)
有意水準 α
• 2種類の過誤
棄却限界値
(critical value)
棄却域
採択する仮説
真実
H0 を採択
H1 を採択
H0 が真
正しい判定
第1種の誤り
H1 が真
第2種の誤り
正しい判定
20
• 平均値の検定
P=0.025
P=0.025
– 正規母集団の
母平均の検定(両側検定) z=-1.96 z=+1.96
– 正規母集団の
P=0.05
母平均の検定(片側検定)
z=+1.64
– 母平均の区間推定と検定は表裏の関係.
帰無仮説が棄却されるかどうか
=仮定される平均値が信頼区間に含まれるかどう
か
• 割合の検定
pˆ  p
Z
pq
n
21
• 2つの平均値の差の検定
注意:2群のスコアは,2つの母集団から,そ
れぞれ独立に抽出したものでなくてはならな
い.
定理:標本平均の差 𝑥1 − 𝑥2 の分布: N (1  2 ,
z
( x1  x2 )  ( 1   2 )
 12
n1

 22
12
n1

 22
n2
)
①標準正規分布を用いた両側検定
~𝑁(0,1)
n2
標準化
P=0.025
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた方側検定
1)母集団分散𝜎1 , 𝜎2 が既知の場合、そのまま代入
2)母集団分散が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
P=0.05
標本分散(𝑠12 , 𝑠22 )で代用する.
 小標本でも標本分散で代用するが,
正規分布のかわりに t 分布を用いた検定を行う(t検定)
z=+1.64
22
• t検定
仮定0:2群の母平均が等しい(検定の帰無仮説)
仮定1:2群の母分散が等しい
仮定2:母集団の分布は正規分布
t検定統計量
t
x1  x2
(n1  1) s1  (n2  1) s2  1 1 
  
n1  n2  2
 n1 n 2 
2
2
~ 𝑡(𝑛1 + 𝑛2 − 2)
面積=有意水準
t分布(自由度m=n-1)
棄却限界値
23
• 2つの標本割合の差の検定
定理:標本割合の差 𝑝1 − 𝑝2 の分布:
( pˆ1  pˆ 2 )  ( p1  p2 )
z
p1q1 p2 q2

n1
n2
p1q1 p2 q2
N ( p1  p2 ,

)
n1
n2
①標準正規分布を用いた両側検定
~𝑁(0,1)
P=0.025
標準化
1)母集団割合𝑝1 , 𝑝2 が既知の場合、そのまま代入
2)母集団割合が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
𝑘 +𝑘
2群を合併して母集団割合𝑝 = 𝑛1+𝑛2 で代用する.
1
 小標本では分割表の検定(第10章)
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた方側検定
P=0.05
2
z=+1.64
24
第9章 相関と回帰
1.線形相関
𝒓=
𝑛
𝑖=1(𝑥𝑖
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
2
− 𝑥)
𝑛
𝑖=1(𝑦𝑖
2
− 𝑦)
2.相関係数rの意味
3.直線回帰
4.最小2乗法
yˆi  a  bxi
回帰係数:
1 n
xi  x  yi  y 
s xy n 
b  2  i 1 n
1
sx
2


x

x
 i
n i 1
切片: a  y  bx
5.回帰の錯誤
25
総合演習
演習課題:「ある記憶方法の有効性の検証」
• 大学生のAさんは海外旅行先で画期的な記
憶方法があることを知った。そこで帰国後そ
の方法が本当に有効であるか確認することと
した。
• 問題:どうやって調べればいいでしょうか?
26
実験1
•
•
•
•
目的:新記憶法の有効性を確認する
被験者:大学生10名
素材:英単語30個
手順:
1.
2.
3.
4.
5.
10名を2つのグループAとBに分ける。
グループAだけに新記憶法を教える。
全員に英単語が書かれたカードを渡す。
一斉に5分間だけ単語の暗記をさせる。
確認テストを行い、正しく記憶できた個数を調べる。
27
実験1の結果
グループA
22
25
28
18
20
24
21
26
24
17
グループB
20
21
19
23
18
19
22
25
23
23
(注)単位は正答単語数
28
検討
• どのように検討すればいいでしょか?
29
(1)記述統計
表.実験1の結果の概要
平均値
分散
最大値
最小値
中央値
最頻値
範囲
グループA
グループB
30
(2)推測統計
• 「2つの平均値の差の検定」っていうのがあっ
たなぁ~。
注意:ここの平均値は標本の平均値𝒙ではなく、母集団の
平均値𝝁のことである。
31
2つの平均の差の検定
• t検定を適用する。
(なぜt検定なのか?)
• 前提:
① 各人の正答数は正規分布に従う。
② 2つのグループの母分散は等しい。
(注)②が成り立てば「データに対応のない場合の
t検定」を、②が成り立たない場合は「ウェルチ
の検定」を行う。
32
実験1の場合
• どの方法を使うの?
(各自で考えてみてください。)
いろいろとめんどくさそうですね…
そこで…
33
おすすめの方法
• 「対応のあるデータの場合のt検定」が
使えるようにデータを取ろう!
(可能な限りですが...)
• つまり、同じ人に対して、新記憶法を教えたと
きと教えない時との差を調べる、ということ。
34
実験2の結果はこんな風になる。
ここを利用
被験者No
教えない場合
教えた場合
差
1
2
3
4
5
6
7
8
9
10
35
実際に検定してみよう!
• 各自挑戦してみてください
• 授業中20分以内で完成してください
• 名前と学籍番号をご記入のうえ、配布したレ
ポート用紙を提出してください。
東京工科大学 確率と統計2011
36
学期末試験に関する説明
実施時間:2015年8月6日(木) 午後 2:45 ~ 4:15 (90分)
場
所:新講義棟 26室
出題範囲: P.G.ホーエル著「初等統計学」 第1章~第9章
注意事項
(ア)講義ノート,参考図書,講義資料,電卓の持ち込みは可。
(イ)計算機、携帯電話、iPadなどの通信機器・端末の持ち込みは不可。
(ウ)学期末試験を受験するためには、学生証を提示しなければならない。
(エ)試験開始10分前までに試験室に入室し、監督者が指定した席に着席しなけれ
ばならない。
(オ)試験開始後20分を経過した遅刻者は、事情の如何を問わず、入室および受験
できない。
(カ)試験中の途中退室は原則禁止。
(キ)止むを得ない場合、監督者の確認を得てから、一時退室・再入室が可能。
「学生による授業評価アンケート」の記入
授業科目名: 統計学
担当教員名: 高 尚策
授業コード:
170145