Transcript 第11回(7月2日)
統計学 西山 標本分布と推定 標準誤差 【例題】○○率の推定 ある人気ドラマをみたかどうかを、100人の サンプルに対して質問したところ、40人の人 が「みた」と答えた。社会全体では、何%程 度の人がこのドラマを見ただろうか。 信頼係数は95%で答えてください。 知りたいのは社会全体の視聴率です 視聴率は40%だと、 いまわかったじゃないか 社会全体のことは調べてませんから、 分かりません Ⅰ限 ここまで 6/25 ゼロイチ母集団の特徴 みた → 1 みない → 0 (例)社会全体では 30%(=0.30)がみた 本当の視聴率は 母平均(μ)のこと 100人サンプルの視聴率は サンプル平均 0 0 1 0 X サンプルの視聴率 100 ○○率調査とは母平均の推定 1の確率をpとして ―ゼロイチ母集団― 平均 分散 1 p 0 1 p p p 1 p 2 推定の手順どおりに サンプル平均 40 0.40 100 標準誤差 2 n p1 p 0.40 0.60 0.049 n 100 母平均(μ)=0.40±2×0.049 95%信頼区間 【類題】○○率の推定 ある人気ドラマをみたかどうかを、300人の サンプルに対して質問したところ、60人が 「みた」と答えた。社会全体では、何%程度 の人がこのドラマを見ただろうか。 信頼係数は95%で答えてください。 標準値とT値について • T値≒標準値です。 • ゆえに、T値は±2以内と思って基本的にOKです (確率95%範囲) • サンプル数が少ない時はT分布の数値表で95% 範囲を確かめる方が厳密です。 平均と分散の標本分布 母集団は、μ=170、σ2=102、サンプル数は5個 標本分散の分布 標本平均の分布 700 600 500 400 300 200 100 0 最大値 最小値 平均値 分散 歪み度 尖り度 25 -5 0 75 -1 00 12 515 0 17 520 0 22 525 0 27 530 0 32 535 0 37 540 0 42 545 0 47 550 0 <= 33 7. 89 カイ二乗分布の形 3.8 9- 18 3. 46 データの分散の値 18 18 0.4 6- 18 0. 02 17 7.0 2- 18 7. 59 17 3.5 9- 17 3. 15 17 0.1 5- 17 0. 72 16 6.7 2- 17 6. 28 16 3.2 8- 16 3. 85 16 9. 15 9.8 5- 15 1- 6.4 15 15 2.9 8- 15 6. 41 0 頻度 900 800 700 600 500 400 300 200 100 0 187.33 152.9773 169.9806 20.43845 0.007936 0.042042 最大値 最小値 平均値 分散 歪み度 尖り度 477.6252 0.448268 79.85362 3114.514 1.367639 2.805332 不偏分散は 100を中心に 分布します 標準値 ≒ T値(2プラスαが95%区間) 100 5 サンプル5人 170 平均=170センチ 標準偏差=10センチ X 170 100 ̂ 2 5 T値の定義(詳細 は教科書第3章) T X ̂ 2 n Gosset, W. S. 母集団のσ2に近ければ 大したことではない データ数が十分多け ればよい 1906年にペンネームStudentでT分布の存在を発見しました サンプル数が10個未満 T分布表から95%範囲を確かめよ 教科書巻末の 数値表5を参照 サンプル数が20個以上なら 2シグマの法則を使う。標準値で±2以内! T値の95%区間、90%区間 これは自由度(n-1) 90%圏 95%圏 練習問題 正常なブレーキなら時速40KMから急ブレーキをかけた とき40メートルで止まれるはずとする。試みに同じ車で 10回の停止実験をしたところ、 39.9, 41.4, 39.9, 41.3, 42.1, 42.0, 41.6, 42.3, 39.8, 41.8 という結果になった(単位:メートル)。 95%信頼区間に40メートルは含まれているか? ヒント: 標本平均=41.21 不偏分散=0.952 最初に95%区間を確認 0.95 P 2.262 T 2.262 自由度=Nマイナス1=9 X P 2.262 2 . 262 2 ˆ n 2 2 ˆ ˆ P X 2.262 X 2.262 n n サンプル平均 標準誤差 0 . 952 0 . 952 P 41.21 2.262 41.21 2.262 10 10 これで確定なら1.96倍でいい P40.5 41.9 平均40メートルでは止まれません