Transcript パワーポイント11
数理統計学 西 山 前回の最後 クイズ 確率変数Xは、一様分布に従い0から1までの任 意の値を等しい可能性でとる。いま変数Yを𝑌 = 𝑋と定義すると、𝑌はどんな分布に従い、期待値 はいくらになるか? 6月10日(火)授業までに提出(任意)。中間試 験・問4の理解度判定の参考にする。 変数Xは一様分布 𝑋 2 は小さい値をとりやすい 𝑋は大きい値をとりやすい 各自、R@情報処理センターで確かめること > > > > > x <- runif(10000) par(mfrow=c(3,1)) hist(x,prob=T) hist(x^2,prob=T) hist(sqrt(x),prob=T) Xが一様分布ということは 𝐹 𝑥 =𝑥 1 期待値の計算をすると(例題17) 1 1 𝐸𝑋 = 𝑉𝑋 = 2 12 𝑓 𝑥 = 𝐹′ 𝑥 = 1 0 𝑥 (任意のある値) 1 X 問題はYの分布の形がどうなるか? 確率(=面積)に着目する G ( y) P (Y y ) P (2 X y ) y P X 2 y F 2 y 2 0 2 g ( y) G '( y) 1 2 次の目標<教科書第3章> 標本分布(サンプリング分布) 標本分布とは何のことか? 出やすいデータ、出にくいデータ・・・ まとめて考えます。 ここは統計の勉 強全体で最大 の難関 (今までは) 教科書: 第3章の頁99~111、特に 108頁の例題29 【最初の例】データの出方 vs サンプルの結果の出方 サイコロを2回振って出る目の数を合計します。 予測できますか? 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 出やすい目はない。しかし、2回の合計は7になりやすい。 『合計7が出やすい』 本当か?確認しよう Rの実行例 > sample(1:6,2,replace=T) ← その時によって出る目は違う [1] 4 4 > sum(sample(1:6,2,replace=T)) [1] 3 > sum(sample(1:6,2,replace=T)) [1] 7 > jikken <- replicate(6000,sum(sample(1:6,2,replace=T))) > barplot(table(jikken)) 上の実験で「合計が7になった」割合は、確率の理論計算とほ > sum(jikken==7)/6000 ぼ一致したか? [1] 0.1651667 実験結果(6千回) 頻度 2回の合計 【発展】サイコロを10回振った平均 Rの実行例 > sample(1:6,10,replace=T) [1] 3 3 2 3 4 4 2 3 1 3 > sample(1:6,10,replace=T) [1] 2 5 3 6 6 6 3 2 3 6 データの出方は分かっている 10回の平均値はどんな値が、どう出るのか? > mean(sample(1:6,10,replace=T)) [1] 3.8 > mean(sample(1:6,10,replace=T)) [1] 3.5 > mean(sample(1:6,10,replace=T)) [1] 3.4 サンプルの平均値の出方を「標本分布」という 実験結果(1万回) 平均値の標本分布 定理8(106頁) > mean(jikken) [1] 3.49604 > sd(jikken) [1] 0.5330016 第3章のテーマ 標本分布 合計の出方(=分布) 平均の出方(=分布) 他にも、サンプルの分散、標準偏差、最大値 サイコロを6回振って、2番目に大きい目 理論的説明 さいころを10回振る問題<合計> 独立 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10 値 確率 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 合計の期待値と分散・標準偏差 E Y V Y E X 1 X 2 X 10 E X 1 E X 2 E X 10 10 3 . 5 35 V X 1 X 2 X 10 V X 1 V X 2 V X 10 10 2 . 92 29 . 2 SD Y 29 . 2 5 . 40 【続】合計の特徴 ⇔ 平均の特徴 E X Y E 10 1 35 10 3 .5 V X Y V 10 2 1 V Y 10 2 1 10 2 . 92 10 2 . 92 10 SD X 2 . 92 10 0 . 540 最も有名な統計学の定理 中心極限定理 木曜 ここに戻る 同じ母集団からN個のサンプルをとって合 計を求めるとき、Nが十分大きくなれば、 合計や平均に当てはまる確率分布は(常 に)正規分布に近づく。 教科書: 定理10 正規分布を当てはめる! << データは 30~100個以上が目安 サイコロ10回の平均値 実験結果(1万回) 平均値の出方には 正規分布が当てはまる 【例題】社会の視聴率15% 300人への視聴率調査 1. 何人くらいが「みた」と答えるか? 2. 300人のサンプルの結果は視聴率 何%くらいか? アンケート調査: ゼロイチデータ 同じように考える 無作為データ、故に互いに独立 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋300 値 0 1 確率 0.85 0.15 E Y E X 1 X 2 X 299 X 300 このあとどうなる?次に、分散V 𝑌 は? データはすべて0か1である データの出方 (どれも同じ) 結果の出方 (300個合計) E X 1 0 . 15 V X 1 0 . 15 0 . 85 2 E Y 300 0 . 15 45 V Y 300 0 . 15 0 . 85 38 . 25 SD Y 38 . 25 6 . 2 実験結果(1万回) 正規分布が 当てはまる > mean(jikken1); sd(jikken1) [1] 45.0199 [1] 6.197979 人数(合計) 正規分布が 当てはまる > mean(ritu1); var(ritu1); sd(ritu1) [1] 0.1500663 [1] 0.0004268327 [1] 0.02065993 平均値 (合計÷人数) 定理8(106頁)が重要ポイント 証明は合計の公式ですぐできる 母集団の特徴は、平均がμ、標準偏差がσ N個のサンプルをとると 合計値 平均値(定理8) 期待値 N 期待値 分散 N 標準偏差 2 分散 N 2 N 標準偏差 N 【クイズ】 サイコロを40回振って出る 目の数の平均値は? 期待値±標準偏差(=1シグマ区間)で 結果を予想せよ。 木曜 ここから 前に戻る 理論的計算の検証(1万回) > mean(jikken40) [1] 3.499728 > sd(jikken40) [1] 0.2704703 > jikken <- replicate(10000,mean(sample(1:6,40,replace=T))) 【解答】 𝜇 = 3.5 σ=1.7 データの特徴 (サイコロの目) 平均値の出方は? サンプル 結果 E X 3 .5 V X 1 .7 SD X 2 40 1 .7 40 母集団 0 . 269 【クイズ】100個の0-1変数の合計 値 -10 +10 確率 0.5 0.5 1000 100回後の標準偏差? 100日目 -1000