Transcript 第8回(6月13日)
統計学 第8回 西 山 標本分布の着眼点 どんなサンプルが 多いか どんな平均が 多いか どんな分散が 多いか 【例題】サイコロを40回振ってみる 目の数の平均値は最大でいくらまでを 考えておけばよいか? 確率的に意味のないことを答えても駄目 (無意味な例)最大は6じゃないだろうか 標本分布は最大に難関になるのが通例です! まず1000回実験してみた 標本平均の分布 350 300 250 200 150 100 50 0 サンプル平均の確率分布: 図で理解しましょう サンプル数: n 母平均: μ 母分散: σ2 標準誤差 サンプル誤差 サンプル平均の正規法則 平均がμ、分散がσ2 である集団から無作為に取り出した n 個のデータを X 1 , X 2 , X n と し、データから求められる標本平均を X とおく。このとき、 X の標本分布の平均と分散は それぞれ EX V X 2 n 第3章の定理8が 基本じゃが、 定理10までは落 とせんな となる。 分布の形は常に 正規分布と思って いいです・・・ 中心極限定理 ルートNの法則ともいいます。 教科書106ページ エックスバー の標本分布 データの結果を統計量と言います. (例)平均値、分散、標準偏差などなど 統計量には分布の確率法則があります。 特に、標本平均(=サンプル平均とも呼びま す)の分布は統計分析でよく使います. サンプル平均の確率法則は正規分布です。< サンプル平均の正規法則>とも呼んでいます。 練習問題(前回の残り) 1. 2. 正しいサイコロを15回振るときに出る目の数の平 均値はどのくらいになりますか?1シグマで予想 してください。 日本人の身長分布はN(170,100)とする。無作 為に10人をとって平均身長を求める。10人の平 均は何センチ位になりますか。1シグマで予想し てください。 解答 ― (1)のみ 母集団はサイコロ EX 3.5 V X 2.92 サンプル数は15個 EX 3.5 2.92 V X 0.195 15 SDX 0.195 0.442 今日の本題 標本分散S2の分布の特徴 分散の求め方に二通りあり 教科書: 3.3節(119~127ページ) 特に、分散の不偏推定式は重要! 平均と分散の標本分布 指定した値はμ=170、σ2=102、データ数は5個で反復 標本分散の分布 標本平均の分布 187.33 152.9773 169.9806 20.43845 0.007936 0.042042 <= 33 7. 89 18 9- 3.8 18 3. 46 データの分散の値 18 18 0.4 6- 0. 02 18 2- 7.0 17 9- 17 7. 59 17 3.5 17 3. 15 17 0.1 5- 0. 72 17 2- 6.7 16 8- 16 6. 28 16 3.2 16 3. 85 15 9.8 5- 9. 41 15 6. 1- 15 6.4 815 2.9 15 最大値 最小値 平均値 分散 歪み度 尖り度 25 -5 0 75 -1 00 12 515 0 17 520 0 22 525 0 27 530 0 32 535 0 37 540 0 42 545 0 47 550 0 700 600 500 400 300 200 100 0 0 頻度 900 800 700 600 500 400 300 200 100 0 最大値 最小値 平均値 分散 歪み度 尖り度 477.6252 0.448268 79.85362 3114.514 1.367639 2.805332 なぜ分散は小さくなる? 母集団です 170 簡単な計算で確認できます 5 X i 1 170 2 i 真の偏差二乗和 X X i 1 5 i 1 X 5 i 1 X X 170 i X 5 X 170 2 2 2 X X i 170 5 X 170 2 i i 5 5 2 2 i 1 偽の偏差二乗和 10 E偏差二乗和 510 5 4 102 5 2 2 S2は下方バイアスをもちます 式で書くと ES 2 n 1 2 n 教科書162ページ の(4.19)式まで に説明されていま す。 いまの例で言うと ES 2 4 2 10 80 5 データから分散を 計算すると、実際 には100でも80前 後の値になる・・・ 分散の計算に二通りあり 言葉の定義どおりだと 1 2 S N X N i 1 X 2 i 母集団の分散を知りたいなら 不偏分散、と呼んで います N 1 2 2 X i X ˆ N 1 i 1 2 2 ˆ E 例題【1】 ここまで ランダムに5個のデータをとると 1,2,3,4,5 ★ このデータの分散は 二乗偏差の合計 10 S 2 データ 数 5 2 ★ このデータはどんな分散をもつ集団からとられたか ˆ 2 二乗偏差の合計 10 2.5 データ 数-1 4 例題【2】不偏分散を使うとき ある高校の1年からランダムに5名を選んで100メートル走 の記録をとると、 12.32、15.28、14.19、13.72、13.26 だった。学年全体の分散はいくら位か見当がつくだろう か? X 13.754 S 0.964 2 【2】の解答 合計 平均 分散推定 記録(X) 12.32 15.28 14.19 13.72 13.26 68.770 13.754 偏差 -1.434 1.526 0.436 -0.034 -0.494 0.000 0.000 二乗偏差 2.056356 2.328676 0.190096 0.001156 0.244036 4.820 0.964 これはS2だか ら小さめのは ず! 1.205 0.964×5÷ 4 4.820÷(5-1)