Transcript 講義資料
確率と統計 メディア学部2010年 2010年12月2日(木) 今日は数学的な話が中心です。 確率分布 • 検定を行う際、確率計算が必要になります。 • そのためには、分析対象が従うそれぞれの 確率値の在り様(確率分布)を知り、その 性質・特徴を上手く利用することになります。 東京工科大学 確率と統計2010 P.2 例えば • 1つのサイコロを500回投げたとき、偶数 の目が100回出る確率Pを求めるとき、 定義では P 500 C 100 1 2 100 1 2 400 を計算しなければならない。うっそ! 興味ある人は計算してみてください。 東京工科大学 確率と統計2010 P.3 参考情報 • オープンソースのツールを使うことも考え てみよう – Maxima – Scilab など 東京工科大学 確率と統計2010 P.4 いろいろな確率分布 1. 2. 3. 4. 5. 6. 7. 2項分布 正規分布 ポアソン分布 一様分布 χ2分布 t分布 F分布 などなど 東京工科大学 確率と統計2010 P.5 1. 2項分布 • 1回の試行において、事象Aの起こる確率 がp、起こらない確率がqとする。このとき、 n回の反復試行で事象Aがk回起こる確率 は、次のようになる。 P ( X k ) n C k p q k この分布を B (n, p ) nk ( k 0 ,1, 2 , , n ) と書く。 教科書 p.97 東京工科大学 確率と統計2010 参照のこと P.6 例 • 1枚の硬貨をn回投げる。 東京工科大学 確率と統計2010 P.7 2項分布B(n, p)の平均と分散 • 平均 = np • 分散 = npq 有名かつ便利な公式 教科書 p.101 式 (2) 参照のこと 東京工科大学 確率と統計2010 P.8 公式の利用例 • サイコロを500回振る。3の倍数の目が 出る回数の平均(期待値)は、公式より 2 500 n p 500 回 3 6 東京工科大学 確率と統計2010 P.9 2.正規分布 • 測定誤差や身長のデータのヒストグラムを 作ると釣鐘型になる。このときのヒストグラ ムの形を近似的に表す曲線を正規分布曲 線とい、このときの分布を正規分布という。 正規分布曲線は、平均μと分散σ2できまる ので、N(μ, σ2 ) と書くことがある。 東京工科大学 確率と統計2010 P.10 キーワード • • • • • 分布関数 確率密度関数 正規分布曲線(定義) 正規分布の特徴 標準化 など 東京工科大学 確率と統計2010 P.11 正規分布のグラフ 東京工科大学 確率と統計2010 P.12 教科書 p.102 図3 参照のこと 正規分布のグラフ 左右対称 変曲点 ほとんどゼロ 東京工科大学 確率と統計2010 P.13 正規分布曲線の式 f ( x) 1 2 e (x ) 2 2 2 ( x ) 東京工科大学 確率と統計2010 14 正規分布曲線の式 f ( x) 標準偏差 1 2 e 平均 (x ) 2 2 2 ( x ) 東京工科大学 確率と統計2010 15 重要な性質(再) • 左右対称 • X=σは変曲点(上凸と下凸の変わり目) • 平均 = 中央値 = モード 東京工科大学 確率と統計2010 P.16 他の重要な性質 東京工科大学 確率と統計2010 P.17 正規分布のグラフ 68% 東京工科大学 確率と統計2010 P.18 正規分布のグラフ 95% 東京工科大学 確率と統計2010 P.19 正規分布のグラフ 99.7% 東京工科大学 確率と統計2010 P.20 ちょっと一言 • 図形の面積は定積分によりもとめられる。 面積 S b f ( x ) dx a 東京工科大学 確率と統計2010 P.21 標準化の公式 x z 2 N(μ,σ ) N(0,1) 東京工科大学 確率と統計2010 P.22 標準化の公式 x z 平均μ、分散σ2 平均ゼロ、分散1 (正規分布) (標準正規分布) 2 N(μ,σ ) N(0,1) 東京工科大学 確率と統計2010 P.23 標準化の公式 x z 平均μ、分散σ2 平均ゼロ、分散1 (正規分布) (標準正規分布) 2 N(μ,σ ) N(0,1) 東京工科大学 確率と統計2010 これについての情報が 標準正規分布表として 与えられている。 P.24 練習問題 • 正しく作られたコインを100回投げるとき、 表が40回から60回出る確率を求めよ。 東京工科大学 確率と統計2010 P.25 • ヒント: – コイン投げの繰り返しは2項分布B(n,p)となる ので、定義に従って計算しても良い。 – 繰り返しの回数が多い場合は、平均がnp、分 散がnpqの正規分布N(np,npq)で近似できる。 – この事実を使うと比較的楽に確率が計算でき る。 東京工科大学 確率と統計2010 P.26 • 答え: – – – – – – μ= np = (100)×(1/2) = 50 σ2= npq = (100)×(1/2)×(1-1/2) = 25 = 52 Z=(X-μ)/σ = (X – 50) / 5 とすると Z1=(40-50)/5 = -2 Z2=(60-50)/5 = +2 標準正規分布曲線の -2 ~ +2 の部分の面積が 求める確率。 – 標準正規分布表(教科書p.295)より 約0.95 (= 0.4772×2) 東京工科大学 確率と統計2010 P.27 以上のことを 別の言い方で表すと... 確率 P ( 表が 100 回中 40 回以上 60 回以下出る ) P ( 40 X 60 ) k 1 1 100 C k 2 2 k 40 60 2 40 60 m 1 60 40 m (xm ) e 1 2 e 2 2 z 2 100 k 2 dx dz 2 2 1 2 e x 2 東京工科大学 確率と統計2010 dx P.28 図で表すと... • (黒板で説明します) 東京工科大学 確率と統計2010 P.29 確認問題 • 正しく作られたコインを400回投げるとき、 表が150回以上230回以下出る確率を求 めよ。 東京工科大学 確率と統計2010 P.30 発展問題 • 両側検定と片側検定について 以下の問に答えよ。 (1)両側検定とは何か。 (2)片側検定とは何か。 (3)コインを何回か投げた結果に基づい て、コインが正しく作られているかを調べ たい。このときは、両側検定を使うべき か、片側検定を使うべきか。 東京工科大学 確率と統計2010 P.31 • 問題のヒント: 教科書のp.163~167をよく読むこと。 両側検定、片側検定の区別、使い分けは 重要なので、何かの機会に一度調べてお くことを勧める。 東京工科大学 確率と統計2010 P.32 正規分布の話は 今日はここまで 東京工科大学 確率と統計2010 P.33 今日の挑戦問題 • ある人種では4つの血液型が知られてお り、各血液型を持つ人の割合は 0.16, 0.48, 0.20, 0.16 であるという。一方、他の人種の人につい ても同様の調査をしたところ、それぞれの 血液型を持つ人は 180, 360, 130, 100 人 だった。これら人種間で血液型の人数比 は同じだろうか? 東京工科大学 確率と統計2010 P.34 挑戦問題問題のヒント • • • • • • カイ2乗検定を利用する。 教科書第10章を参照のこと。 教科書 p.229 の問題2と同じ。 自由度の求め方を覚えると良い。 カイ2乗分布の表は教科書p.298 。 (カイ2乗検定は利用価値が高いですので、 是非覚えて使ってください。) 東京工科大学 確率と統計2010 P.35 練習問題 • ある図書館での本の貸し出しを調べたら以下の ようになった。「曜日により貸し出し冊数は変わらな い」かどうか検定せよ。なお、有意水準を5%とせよ。 貸し出し 冊数 月曜 火曜 水曜 木曜 金曜 135 108 120 114 146 東京工科大学 確率と統計2010 36 練習問題のヒント 月曜 火曜 水曜 木曜 金曜 合計 観測値 135 108 120 114 146 理論値 T/5 T/5 T/5 T T/ 5 T / 5 T=135 + 108 + 120 + 114 + 146=623 東京工科大学 確率と統計2010 37 その他 • カイ2乗検定の1つに、分割表(教科書 p.225)があります。便利なのでマスター してください。授業でもやりましたよね! • カイ2乗検定は、分散分析の特殊な場合 となっています。分散分析はさらに強力な 手法ですので、是非勉強しましょう。 • 統計は慣れることが大切です。継続的に 勉強してください。理論よりまず実践です。 東京工科大学 確率と統計2010 P.38 最後に • 統計を知っている人と知らない人とでは、 今後大きな差になってきます。統計をすべ て勉強することは無理です。自分に関係 のある分野で、必要なものから順次慣れ ていってください。 練習あるのみ 次回3つ目のレポート課題を提示する予定です。 東京工科大学 確率と統計2010 P.39