講義資料 A

Download Report

Transcript 講義資料 A

確率と統計2011
平成24年1月12日(木)
東京工科大学
亀田弘之
まずは復習から
かま学
らたん
ず説で
や(時
。よに
ろこ
これ
ばを
し習
)う
。
東京工科大学
不学
亦而
説時
乎習
之
確率と統計2011
2
はじめにデータありき
5
9
2
8
1
6
1
2
4
1
7
社会調査や実験の実施
により得られる
東京工科大学
確率と統計2011
3
• データを全体として眺めるとき,
集団として何らかの性質を持っている.
=>統計的性質
• この性質(分布の様子)を,例えば,
(算術)平均・中央値・モードなどの
いわゆる代表値や,分散・標準偏差・範囲
(range)などで数値的に捕らえた.
定義や計算方法が重要.
統計ソフトの利用も考えよう.
東京工科大学
確率と統計2011
4
統計ソフトウェア
•
•
•
•
参考情報
EXCEL:お手軽?
R:フリーソフトウェア(お勧め?)
SPSS:本格的なソフトウェア(有償)
SAS:本格的なソフトウェア(有償)
• GnunPlot・Maximaなども便利
(いろいろと学んでください.)
日本計算機統計学会のページも参考にしてください。
http://www.jscs.or.jp/etc/softdata.html
東京工科大学
確率と統計2011
5
基本的な統計量
•
•
•
•
•
•
•
平均 (mean)
中央値 (median)
モード (mode)
最大値・最小値 (maximum, minimum)
範囲 (range)
分散 (variance)
標準偏差 (standard deviation) など
東京工科大学
確率と統計2011
6
平均
• 定義 : m =(x1 + x2 + ・・・+Xn)÷n
• 意味:データ群の中心(重心)
• 考え方:データ群の中心(重心)で,データ群
を代表させる。(代表値)
• 特徴:量 T  ( x1  m) 2  ( x2  m) 2    ( xn  m) 2
の最小値を与える点.
(基準点としてふさわしい)
東京工科大学
確率と統計2011
7
中央値
• 定義:データを大きさの順に並べたときに
中央にくるデータ値。
• 意味:順序的観点から真ん中辺り。
• 考え方:順序的観点から中庸を捉えている。
真ん中辺りを代表値とする。
• 特徴:飛び離れ値に影響されない。
量 T | x1  M |  | x2  M |   | xn  M |
の最小値を与える点。
東京工科大学
確率と統計2011
8
モード(最頻値)
• 定義:度数(出現回数)がもっとも
多いデータ値。
• 意味:多数派がデータ群を代表する。
• 考え方:度数の多いもの程重要。
• 特徴:飛び離れ値に影響されない。
代表値として素直な定義。
東京工科大学
確率と統計2011
9
データの散らばりも大切
• 分散 (variance)
• 標準偏差 (standard deviation)
• 範囲 (range)
東京工科大学
確率と統計2011
10
範囲(レンジ)
• 定義:R = 最大値 ー 最小値
• 考え方:データの存在範囲
(すべてのデータはこの
範囲内にある)
• 特徴:計算が簡単
(工場などで実用されている)
東京工科大学
確率と統計2011
11
分散
( x1  m) 2  ( x2  m) 2    ( xn  m) 2
n
• 考え方:「各データの平均mからのずれ」に着目して、
その平方数の平均を求め、データ全体の散らばり
を捉える。(偏差の平方の平均)
• 特徴:数学的に取り扱いやすい。
• 定義:
東京工科大学
確率と統計2011
12
標準偏差
• 定義:分散の平方根(√分散)
• 考え方:分散をもとに,データと同じ
次元の量にする。
• 特徴:データに対して、足したり
引いたりすることができる。
東京工科大学
確率と統計2011
13
以上で、得られたデータ群の
特徴をとらえることができるよう
になった。
東京工科大学
確率と統計2011
14
さてもっと先に進みましょう
• Let’s go further!
東京工科大学
確率と統計2011
15
知りたい対象(母集団)
母集団
4
31
5
1
6
7
東京工科大学
確率と統計2011
16
標本
母集団
4
31
5
1
6
7
5
1
3
1
無作為抽出
東京工科大学
確率と統計2011
17
標本
母集団
4
31
5
1
6
7
5
1
3
1
統計的分析
東京工科大学
確率と統計2011
18
標本
母集団
4
31
5
1
6
7
5
1
3
1
統計的推論
東京工科大学
確率と統計2011
19
抽出法
• 無作為抽出法:
どのデータも等確率で抽出されるようなサンプ
リング法。つまり、どの単純事象も等確率で取り
出される抽出法。
Laplaceの確率の定義参照。高校で習った確率
の定義でOK。
• より詳しく知りたい人は、社会調査法などの勉強
をしてください。(データは適切に集めなければ、
分析しても意味がない。サンプル数の決め方な
ども重要です。)
東京工科大学
確率と統計2011
20
分析法
• 統計的推定
• 統計的検定
この授業では「モデルに基づく分析」を主に
取り扱っているが、近年モデルに基づかない
分析法も重要になっている。
(例:データマイニングの分野)
東京工科大学
確率と統計2011
21
統計的推定
• 点推定
• 区間推定
– 信頼区間
– 信頼限界
興味のある人は、教科書p.136~p.142を
参照のこと。
東京工科大学
確率と統計2011
22
統計的検定
• この授業では、まず、これを学んで欲しいと
思っています。
(理由:とにかく役に立つから。
そして、慣れないと結構難しいから。)
東京工科大学
確率と統計2011
23
仮説検定の考え方
• 前提:
– 調査や実験によりある事実Eが得られた.
– この事実からあることを主張したい.
(これを仮説という.)
• 方法論:
– モデルを仮定する(仮説設定:帰無仮説H0)
– その仮説が正しいとして,事実Eの生起確率pを計算する.
– pの値が異常に小さければ,仮説H0を棄却する.
(誤謬法/背理法の考え方)
東京工科大学
確率と統計2011
24
検定の考え方の例
• 実験:サイコロを600回振ったら、1の目が
180回出た(事実E).
• 主張したいこと:1の目が出やすい.
• 仮説の設定:どの目も等確率で出る.
180
420
181
419
• Eの生起確率pの計算:
1 5
1 5
p  600 C180      600 C181   
p≒0
6 6
6 6
182
418
600
0
1
5
1
5








• 判断:出易い.
 600 C182       600 C600    
6 6
6 6
計算方法と判断の基準の理解が重要
東京工科大学
確率と統計2011
25
(重要)確率分布の相互関係図
東京工科大学
確率と統計2011
26
事実:
2項分布は正規分布で近似できる
• この事実(定理)に着目して計算をする。
(前回お話しましたよね!)
1. 2項分布の平均mと分散s2を求める B(m, s2 )。
2. Nが十分大きければN(m, s2 )で近似。
3. 標準化する。
X m
Z
s
4. 標準正規分布N(0,12)の数表を利用して、
確率計算する。
東京工科大学
確率と統計2011
27
例題(教科書p.163例1)
ある市役所ではこれまで数年間銘柄Aの電球
を購入していたが,銘柄Bの電球の方が価格
が安いのでBへの切り替えを考えている.銘
柄Bのセールスマンは自社の製品が品質に
おいてAの製品と同じであると主張している.
数年間の経験によれば,製品Aの平均寿命
は1180時間で,標準偏差は90時間であった.
東京工科大学
確率と統計2011
28
製品Bのセールスマンの主張をテストするため,
その銘柄の電球100個を正規販売店から購
入して試験をした.その結果,m=1140,s=80が
得られた.電球の品質の尺度として平均寿命
時間を考えるとすれば,どう結論すべきか?
東京工科大学
確率と統計2011
29
問題の整理
• 事実: 製品Bの m=1140, s=80
製品Aの m=1180, s=90
• 知りたいこと: AとBは同じ品質なのか?
Bの方が劣っているではないか?
• 仮説:AとBは品質的に同等.
• 確率の計算:Bのデータの生起確率pを,
平均μ=1180,分散σ2=902の母集団から
の抽出として計算する.
• 危険率(有意水準)αを設定:α=10%とする.
東京工科大学
確率と統計2011
30
確率の計算をしてみよう
• (いままでと少し違うところが出てきます!)
東京工科大学
確率と統計2011
31
理論的根拠(1)
• 標本平均の平均mは母平均と等しい.
• 標本平均の分散σm2は母分散のn分の1倍.
(nは標本の大きさ)
つまり,
E(m) = μ
E(σm2)=σ2/n
東京工科大学
確率と統計2011
32
理論的根拠(2)
• xが平均μ,分散σ2 の任意の分布に従うとき,
大きさnの無作為標本に基づく標本平均mは,
nが限りなく大きくなるとき,
平均 μ,分散 σ2 /n の正規分布に近づく.
中心極限の定理
(統計学で1番重要な定理)
教科書p.130 定理2
東京工科大学
確率と統計2011
33
計算
• 標本平均の標準偏差:
90/√100 = 9
• 標準化:
Z = ((1140 – 1180) -0)/ 9 = -40/9 = -4.4
• 標準正規分布表(教科書p.295 表IV):
Zがー∞~-4.4の範囲の値をとる確率は,
p≒0.
東京工科大学
確率と統計2011
34
判断
• 確率p≒0 < 0.1 (10%) .
• おきにくい事が起きたのではなく,仮説が
間違っていると考えて,仮説を棄却する.
• 最終結論:
有意水準10%において,
銘柄BはAよりも劣っている.
東京工科大学
確率と統計2011
35
コメント
• 確率の計算方法を理解 (figure out)するため
には、数学の勉強が必要であるが、検定自
体を目的とするのであれば,基本的考え方と
手順とをしっかりとマスターすればよい。
• 理論的なものは、必要に応じて,必要になっ
たものだけを一生かけてゆっくり、かつ、じっく
り勉強してください。
慌てず、焦らず、諦めずの精神で
東京工科大学
確率と統計2011
36
χ2検定
• いろんな場面で使えて便利な検定法.
(先ほどのサイコロの例を再び取り上げてみ
る.)
東京工科大学
確率と統計2011
37
(自分で表を作ってください)
1の目が
出る回数
他の目が
出る回数
実測値A
180
420
600
理論値B
100
500
600
64/5
合計
76.8
(A-B)2/B
64
自由度φ= 2-1=1
東京工科大学
確率と統計2011
38
• χ2 = 76.8 > χ02 = 6.6(有意水準1%)
• 結論:有意水準1%のもとで,1の目は出や
すい.
手法は異なっても結論は同じ!
東京工科大学
確率と統計2011
39
2つの平均の差の検定
• 先の電球A, Bの品質の差の問題を再度取り
上げる。これは2つの平均同士に差があるか
どうかの検定と考えることもできる。
これを「2つの平均の差の検定問題」という。
教科書p.172~p.176
東京工科大学
確率と統計2011
40
定理
• x1, x2がそれぞれ独立に平均 μ1, μ2,標準
偏差σ1,σ2の正規分布に従うとき,
変数 x1-x2 は
平均 μ1ーμ2,
標準偏差
σx1-x2 = √(σx12+ σx22)
= √(σ12/n1 + σ22/n2)
の正規分布に従う。
東京工科大学
確率と統計2011
41
• 仮説:Aの平均とBの平均とは等しい。
• 計算:
変数x1-x2は、
– 平均 = 0
– 標準偏差 = √(90*90/100 + 80*80/100)
= 12
の正規分布に従う.
• Z=(1140-1180)/12=-40/12=-10/3=-3.3
• Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面
積を求めると、表VIより,p≒0
• 結論:AとBの平均の差は同じではない。
東京工科大学
確率と統計2011
42
コメント
• 「2つの平均の間に差があるのか?」はしばし
ば問題となるので、この検定方法は役に立つ。
• ただし今の場合、母分散σ1,σ2が既知である。
これらが既知でない場合はもう一工夫が必要
となる( t検定 を導入する必要がある)。
東京工科大学
確率と統計2011
43
練習問題
東京工科大学
確率と統計2011
44
Problem1
さいころを180回投げて、1の目の出る
確率が28回以上、34回以下である確率を
求めよ。
東京工科大学
確率と統計2011
45
ヒント
1. B(n,p)の二項分布は、nが十分大きければ、平
均np, 分散np(1-p)の正規分布N(np, np(1-p)で
近似できる。
2. N(μ, σ2)の正規分布は、標準化変換
Z = (X – μ)/σ により、標準正規分布N(0, 1)に
変換される。
3. 標準正規分布に関する計算は、数表を利用す
ることができる。
東京工科大学
確率と統計2011
46
Problem2
• 1つのさいころを120回投げたら以下のように
なった。このさいころは正しく作られている
か? 有意水準5%で検定せよ。
目の数
1
2
3
4
5
6
合計
出現回数
19
31
17
23
11
19
120
東京工科大学
確率と統計2011
47
Problem3
• ある町で無作為に選ばれた618名に対して、
とある伝染病の予防接種の効果を調べたら、
以下のようになった。この予防接種は有効と
いえるか?有意水準5%で検定せよ。
罹病
健康
合計
予防接種した
4
354
358
予防接種せず
9
251
260
13
605
618
計
東京工科大学
確率と統計2011
48
Problem4
• 結婚に対する適応性に関してのアンケート
調査を行ったら次ページのような結果が得
られた。“学歴”と“結婚に対する適応性”
の間には関係があるといえるか?
ただし、有意水準5%として考察せよ。
学歴
結婚に対する適応性
非常に低い 低い
高い 非常に高
い
計
大学卒
18
高校卒
17
小中学卒 11
29
28
10
70
30
11
115
41
20
232
116
52
46
67
111
176
400
計
東京工科大学
確率と統計2011
49
ヒント
I. 理論値
学歴
結婚に対する適応性
計
非常に低い 低い 高い 非常に高い
大学卒
高校卒
小中学卒
27
13
6
39
19
9
64
32
14
102
51
23
232
116
52
計
46
67
111
176
400
II. 自由度φ = (行数 ー 1)× (列数 ー 1)
= (3-1)・(4ー1)
=6
III. 計算値χ2 = 20.7
>
東京工科大学
χ02 = 12.6
確率と統計2011
50