Transcript 講義資料
確率と統計 メディア学部2011年 2011年12月15日(木) 今日は若干盛りだくさんです。 頑張りましょう! 確率と統計2011 P.2 これまでの内容(復習) 統計学の構成 – 記述統計学 • – (確率) • – データの整理(効果的な表・図の作り方) 推計学(統計的推論)の基礎 推計学(数理統計学) • 推定・検定など 確率と統計2011 P.3 統計学の構成 • • • 記述統計学 確率の基礎 推計学(数理統計学) 確率と統計2011 P.4 1. 記述統計学 • データ解析の演習 – EXCEL • 基本統計量: – 平均・中央値(メディアン)・最頻値(モード) – 分散・標準偏差 • その他 確率と統計2011 P.5 定義(1) x1 x2 x3 xn 平均 m n 確率と統計2011 P.6 定義(2) ( x1 m) 2 ( x2 m) 2 ( xn m) 2 分散 s n 2 2 2 2 ( x m ) ( x m ) ( x m ) 2 n 分散 s 2 1 n 1 確率と統計2011 P.7 問題 分散の定義は次の2つがある。 これら2つの定義の使い分けを 説明しなさい。 ( x1 m) 2 ( x2 m) 2 ( xn m) 2 定義1 s n 2 2 2 2 ( x m ) ( x m ) ( x m ) 2 n 定義2 s 2 1 n 1 確率と統計2011 P.8 回答例 • 分散とはそもそも「データの散らばり具合」 を知るための指標である。そこで、定義1で は「各データの偏差(基準点からのずれ) の二乗」の平均でもってデータの散らばり を捉えようとしている。一方、定義2では、「 各データの偏差の二乗の総和(散らばり の総量)」を自由度で割ることでデータの 散らばりを捉えようとしている。 確率と統計2011 P.9 回答例(続き) • なお、定義2の方は、数学的に母分散の良 い推定値になっているので、統計的推論 の際には積極的に使われている。 (注)「良い推定値」とは次の式が成り立つ ことをここではいう。 E(s ) 2 2 確率と統計2011 E(s2)はσ2の不偏推定値で ある。教科書P.124-125. P.10 証明 自力で証明を考えてみよう。 難しければ自分で本などを 調べて、ここにまとめておこ う。将来のために... 確率と統計2011 P.11 2. 確率の基礎 • • 確率の定義 – 試行・標本点ω・標本空間Ω・事象・確率関数 確率の計算 – – – – 加法定理・互いに排反 乗法定理・独立性 ベイズの定理(事後確率) その他(期待値・確率変数) 確率と統計2011 P.12 3. 推計学(推測統計学) • 推定 • 検定 など 確率と統計2011 P.13 標本平均mの性質(重要) 大きさnの標本から求めた標本平均mの 「平均(期待値)と分散」は、次の性質を持つ。 • E(m) =μ (標本平均mの期待値は、母平均μと等しい。) • V(m) = σ2/n (標本平均mの分散は、母分散σ2の1/n。) 確率と統計2011 P.14 標本分散s2の性質(重要) 大きさnの標本から求めた標本分散s2の 平均は、次の性質を持つ。 • E(s2) =σ2 (標本分散s2の期待値は、母平均σ2と等しい。) (注) E(s) =!=σ 確率と統計2011 P.15 確率と統計2011 P.16 確率と統計 (続き) 確率と統計2011 P.18 今日の内容 1. 推定と検定(続き) 確率と統計2011 P.19 推定 • 推定とは、標本のデータを利用して(標本 の分析を通じて)、母集団に関するパラ メータ(母数;母平均や母分散など)の値を 推測すること。 確率と統計2011 P.20 調査 確率(sampling) 知りたい対象 (未知な調査対象) 得られたデータ (分析可能) 記述統計 推測 確率(推定・検定) 確率と統計2011 p.21 Copyright© 2009 School of Computer Science, Tokyo University of Technology 推定(標本が1つのとき) (事実)標本の平均がm (結論)母集団の平均の推定値 ˆ = m 確率と統計2011 ˆ は P.22 推定(標本が2つのとき) (事実)標本の平均がm1とm2 (結論)母集団の平均の推定値 ˆ =(m1+m2)/2 確率と統計2011 ˆ は P.23 推定(標本がn個のとき) (事実)標本の平均がm1,m2, …, mn (結論)母集団の平均の推定値 ˆ は ˆ = (m1 + m2 + …+ mn ) / n 確率と統計2011 P.24 推定(一般に) (事実) 標本の平均がm 標本の標準偏差がσ ˆ はm、 (結論)母集団の平均の推定値 m (その誤差は n ) 確率と統計2011 P.25 検定 • こちらの方も実用上重要。 • ゆっくりと導入しましょう。 • 理解できるまで何度も読み返し、 考えてください。 (ここからの話は、1つの思想です。) 確率と統計2011 P.26 サイコロ実験 サイコロAとBとをそれぞれ100回ずつ 投げたところ以下のようになった。 サイコロA: 偶数40回 サイコロB: 偶数30回 奇数60回 奇数70回 AもBもサイコロはただしく作られているか? 確率と統計2011 P.27 問題をもっと単純にして解説する。 サイコロを5個投げる。 確率と統計2011 P.28 目(偶)の出方は以下の通り: (場合1) (場合2) (場合3) (場合4) (場合5) (場合6) 偶0回-奇5回: 偶1回-奇4回: 偶2回-奇3回: 偶3回-奇2回: 偶4回-奇1回: 偶5回-奇0回: 奇-奇-奇-奇-奇 偶-奇-奇-奇-奇 偶-偶-奇-奇-奇 偶-偶-偶-奇-奇 偶-偶-偶-偶-奇 偶-偶-偶-偶-偶 確率と統計2011 P.29 (場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇 の生起確率を計算してみる。 =>乗法定理を用いる。 P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2) = (1/2)5 = 1 / 32 確率と統計2011 P.30 (場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇 ○○XXX ○X○XX ○XX○X ○XXX○ X○○XX X○X○X X○XX○ XX○○X XX○X○ • • 個々の系列の生起確は(1/2)5 。 個々の系列は同時には起きな い(互いに排反)。 => 加法定理 従って、(場合3)全体の生起確率は P2 = 10× (1/2)5 となる。 XXX○○ 確率と統計2011 31 目(偶)の出方は以下の通り: (場合1) (場合2) (場合3) (場合4) (場合5) (場合6) 偶0回-奇5回: 偶1回-奇4回: 偶2回-奇3回: 偶3回-奇2回: 偶4回-奇1回: 偶5回-奇0回: P0 = 1× (1/2)5 P1 = 5× (1/2)5 P2 = 10× (1/2)5 P3 = 10× (1/2)5 P4 = 5× (1/2)5 P5 = 1× (1/2)5 確率と統計2011 P.32 • 疑問:「5回中2回偶数が出た。 偶数の目は出にくい?」 • これを調べる方法を「検定」という。 • それでは、検定してみよう。 確率と統計2011 P.33 検定(考え方) 1. 【仮説設定】検定したい事柄に対して 「仮説H」を立てる。 2. 【確率計算】 仮説Hが正しいものとして、着目して いる出来事の生起確率Pを計算する。 3. 【判断・結論】 – Pの値が極めて小さい =>普通では起きないことが起きた。 =>何かが変だ。 =>「仮説Hが正しい」としたことがいけない。 =>仮説を棄てる。 – Pの値が特に小さくない =>起きてもおかしくないことが起きた。 =>特に何も結論なし。(新たな知見なし) 確率と統計2011 P.34 • 極めて小さい値として、習慣的に5%(0.05) や1%(0.01)、10%(0.10)がとられる。 <=特に根拠なし。 (3%や7%でもいいが、習慣に従おう) • このような値を、「有意水準」あるいは 「危険率」という。 =>この意味は後で検討する。 確率と統計2011 P.35 検定(実行例1) 1. 2. 3. 4. 5. 事実:「5回中、偶2回、奇3回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が2回以下の確率を求める。 P = P0+ P1+P2 = (1+5+10)×(1/2)5 = 16 / 32 = 1 / 2 3.P = 0.5 > 0.1 4.仮説は棄却されない。 確率と統計2011 P.36 検定(実行例2) 1. 2. 3. 4. 5. 事実:「5回中、偶1回、奇4回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が1回以下の確率を求める。 P = P0+ P1 = (1+5)×(1/2)5 = 6 / 32 = 3 / 16 = 0.2 3.P = 0.2 > 0.1 4.仮説は棄却されない。 確率と統計2011 P.37 検定(実行例3) 1. 2. 3. 4. 5. 事実:「5回中、偶0回、奇5回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が0回以下の確率を求める。 P = P0 = 1×(1/2)5 = 1 / 32 = 0.03 3.P = 0.03 < 0.1 4.Hは棄却される。偶奇の目の出方は等確率ではな い。偶の方が出にくい。 確率と統計2011 P.38 有意水準あるいは危険率 *有意水準10%の意味: 検定を行うと、結論として、 1. 仮説Hを棄却する 2. 仮説Hを棄却しない という2つの結論のいずれかを下すこと になる。 確率と統計2011 P.39 検定における判断の問題点 仮説Hを棄却する 仮説Hは 仮説Hは 本当は正しい 本当は誤り 正しいのに棄却 正しい判断 仮説Hを棄却しな 正しい判断 い(あるいは採択) 誤りなのに棄却 しない (注)第一種の過誤、第二種の過誤 確率と統計2011 40 • 有意水準10%で仮説を棄却するとき、 • 100回中90回は正しい判断をしているが、 100回中10回は誤った判断をしているこ とになる。 =>これ以降は、データ解析例でさらに 勉強してみましょう。 確率と統計2011 P.41 確率と統計2011 P.42 母集団と標本の関係 無作為抽出 母平均μ 標本平均m 標本分散s2 母分散σ2 推測 確率と統計2011 P.43 推定と検定 • 推定: 適当な統計量を選び、現実の標本から計算した それの現実値をたよりにして、母集団の未知母数 に関し、ある程度、信頼のおける命題をたてること。 母集団について知る • 検定: あらかじめ母集団の型や母数の値を仮定し、現実 のデータがどの程度この母集団からの標本とみな せるか決定すること。 母集団と標本の関係を知る 確率と統計2011 P.44 検定 母集団と標本の関係 ? 無作為抽出 母平均μ 標本平均m 標本分散s2 母分散σ2 ホントにこの母集団の標本? 確率と統計2011 P.45 検定の例 • 問題1 ある人がコインを投げ、表の出た回数と 裏の出た回数とを調べたら、表が220回、 裏が180回であった。 これだけの事実から、このコインは歪み なく作られているといえるか? 確率と統計2011 P.46 考え方(No.1) • コインを無限回投げなければ、表と裏の出 る確率が等しいことはいえないのではない か? ー> 無限回投げることは無理!!! ー> 何も結論できないのだろうか? 確率と統計2011 P.47 考え方(No.2) • 次のように考えてみよう! • もし「コインが正しく作られている」ならば、 表と裏の出る確率は等しい。そのような母 集団から無作為抽出により n = 400個 の データからなる標本を作り出したとして、 標本中の表の回数Hと裏の回数Tの割合 が 220/400 を超える可能性 p1、および 逆に、180/400 を下回る可能性 p2 を求 める。P = P1 + P2 とする。 確率と統計2011 P.48 考え方(No.3) • Pの値が十分小さい ー>めったに起きないことがいま起きた ー>普通起きないことが起きた ー>起きるはずのないこと(奇跡)が起きた ー>何かがおかしい! (仮説を捨てる) • Pの値が大きい ->仮説は捨てない (仮説を採用するわけではない) 確率と統計2011 P.49 考え方(No.4) つまり… • 出現率 p = 1/2 = 0.5 の無限母集団から、 n = 400 のデータを無作為に取り出したと する。このとき、 P = P( m > 220 ) + P( m <180 ) を求めて判断しよう、ということ。 それでは具体的にやってみよう。 確率と統計2011 P.50 計算 • コイン投げは、いわゆる2項分布と 呼ばれているものに相当する。 2項分布は • したがって、 後日お話します。 P = P(m>220) + P(m<180) = nC221・(1/2)221・(1/2)179 + ・・・ + nC400・(1/2)400・(1/2)0 + 179・(1/2)221 + ・・・ C ・(1/2) n 179 + nC0・(1/2)0・(1/2)400 確率と統計2011 P.51 • 定理: 2項分布はnが大きければ正規分布で近 似できる。(教科書、108-114ページ) • このことを利用して計算すると楽。 確率と統計2011 P.52 2項分布の計算を正規分布で! • 変数変換を行う。 Z = (X – m)/s = (X – n・p)/√(n・p・q) この式の意味は? 考えてみること。 • 今の場合、 m = np = 400・0.5 = 200 s = √(npq)=√(400・0.5・0.5) = 10 確率と統計2011 P.53 • したがって、 P = P(m>220) + P(m<180) = P(Z>(220-200)/10) + P(Z<(180-200)/10) = P(Z>2) + P(Z<-2) = 1 - P(-2<Z<+2) = 1 – 2・P(0<Z<2) = (教科書295ページ参照) 確率と統計2011 P.54 • P は約 0.046 ー>100回のうち4回か5回の割合でこ のようなこと(表が400回中に220回出 る)がおきうる。 • 仮説「表と裏の出現確率が等しい」が正し ければ、このようなことは100回に4回か 5回しか起きない。 • めったに起きないことがおきた? 確率と統計2011 P.55 • 統計学的結論: めったにないことが起きたのではなく、 「仮説が正しくない」 と結論する。 つまり、このコインは歪んでいると。 (ただし、... ) <- ここからが大切! 確率と統計2011 P.56 • ただし、このようなことは100回中に数回 起こりえるのだから、このような実験を行っ てこのような結論を下すことは、100回中 4から5回程度間違っていることになる。 • そこで、統計学的には以下のように結論 する。 「有意水準5%のもとに、このコインは歪ん でいる。」 確率と統計2011 P.57 • 有意水準としては、通常1%、5%、10% などが採用される。(3%、7%などでもい いのだが…) 確率と統計2011 P.58 それではレポートNo.3を 提出してください! 確率と統計2011 P.59 (おまけ) • 以下の定理も重要な定理です。 確率と統計2011 P.60 定理1 • x が正規分布 N(μ,σ2) に従うとき、大き さ n の無作為標本に基づく標本平均 m は、正規分布 N(μ、σ2/n) に従う。 (xの標本分布に関する定理) 確率と統計2011 P.61 定理2(重要) • xが任意の分布(平均=μ,分散=σ2)に従 うとき、大きさ n の無作為標本に基づく標 本平均 m は、 n が無限に大きくなるとき、 正規分布 N(μ、σ2/n) に従う。 (中心極限定理) 確率と統計2011 P.62 問題1 ある学力テストの得点xは、正規分布 N(160,202)に従うとする。大きさ16 の標本をとり、mの値を求めるとき、 1. mが165を超える確率は? 2. mが150未満となる確率は? 確率と統計2011 P.63 中心極限定理の利用法 問題1. ある大学の受験生の母集団から無作為に選 んだ1人の受験生の成績を x とする。いま、過 去の経験から x は平均 μ= 2.5、標準偏差s = 0.4であることがわかっているものする。こ のとき、この母集団から 36人の受験生の標 本を採り、標本平均 m を求めるとき、 1. mが2.4未満となる確率は? 2. mが2.4~2.7となる確率は? 確率と統計2011 P.64 問題1のヒント • 中心極限定理より s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067 = P{m<2.4} =P{z<-1.50}= (標準正規分布表を利用) 後日解説します。 確率と統計2011 P.65