Transcript PPT

社会福祉調査論
第9講
母集団の推計
12月14日
社会福祉調査論 第9講
【目標】
• 統計の散らばりを表す指標とそれを物差しと
した散らばり具合について学びます。
• 標本のデータから母集団の比率や平均を推
計することを学びます(区間推計)。
【構成】
Ⅰ.散らばり
1.標準偏差
2.標本分布
Ⅱ.母集団の推測
1.母集団の比率
2.母集団の平均値
3.標本誤差
Ⅰ.散らばり
◎範囲
•
•
たまたまの最大・最小の幅
分布の型(パターン)が分らない
⇒ ちらばりの程度を知りたい
1.標準偏差
• 偏差の絶対値の平均
通常利用しない
各データと平均との差
Xi-m
偏差
標準偏差
• 偏差平方=偏差×偏差
• 偏差平方和=偏差平方の合計
↓
• 分散=偏差平方和/個数 (偏差平方の平均)
• 標準偏差=分散の平方根 σ シグマ
• σ以内の乖離
普通 中位2/3程度
• σ以上の乖離
いい、悪い
上位あるいは下位 1/6(16%)程度
• 2σ以上の乖離
極めて上位あるいは下位 1/40(2.5%)程度
◎変動係数
•
標準偏差を平均で割った値
ν(ヌー)=σ/μ
多様な変数の物差し(尺度)の違いを超えて、
ちらばり度合を見る
◎標準化
• 平均を引き標準偏差で割る
平均=0、標準偏差=1
物差しをずらし、拡大(縮小)する
2.標本分布
一様分布
同様の可能性で(一様に)でる
サイコロ 1,2,3,4,5,6
Excel
=RAND( )
0~1
二項分布
• 二種類のみの結果がでる実験を何回か行う
(試行)
→ベルヌーイ試行
コイントスの表・裏、サイコロで奇数・偶数、
サイコロで2以下・3以上、
紅白玉の抜出しで紅・白
• この試行を何度も行った場合の特定の結果の
度数の分布 →二項分布
• ツリー図から確率を考える
試行毎に枝分かれするツリーを描く
確率の検討は、根元事象を数え上げることが基本。
• 各枝端に達する確率は p^i*q^(n-i)
• 順列組合せから同じ結果の枝を数える
正規分布
• 二項分布で実験回数を増やした場合
離散的分布→連続的分布
• 試行回数を増やすと円滑な曲線が見えてくる
• N(平均,分散)
N(μ,σ2)
• N(0,1)の数表 Zテーブル
一定の範囲の結果が起こる確率を求める
現在は、Excelで直接求める
-∞~Xi の確率
NORMDIST(x,平均,標準偏差,1)
正規分布の利用例
• 試験の成績
受験者数 1,000人
平均点 50点
標準偏差 10点
あなたの成績 70点
あなたの凡その順位は?
•
•
•
•
偏差 70-20
標準偏差の2倍
2σ
2σ~∞の確率 2.3%
あなたの順位 1,000×0.023
23番目
よく使う偏差と確率
• -σ~+σ 68.3%
• -2σ~+2σ 95.45%
右外側2.3%
• -1.96σ~+1.96σ 95.0% 両外側5%
• -1.645σ~+1.645σ 90.0%
Ⅱ.母集団の推測
1.母集団の比率の区間推計
①標本の抽出(試行)
• 特定の事象が特定の確率で出現する抽出を
一定回数繰り返す試行(二項分布の試行)
(大きな袋の中に紅白の玉があり、それを取り
出し、白となる場合などを考える)
②散らばりの尺度
• それぞれ標本を何個か抽出する試行での標
本の白となる比率には、試行によって散らば
りがある。
③抽出回数を増やした試行での
比率の変化
• 標本個数が多くなるほど、各試行での白の比
率を描いたグラフは尖がっていく。
つまり、散らばりが少なくなっていく(全体を1
とした図で見ること)。
• ちなみに、この比率の分布は、正規分布とな
る。
④正規分布の形
• 他方、正規分布の標準偏差と各試行の生起
確率の関係は、
±σの幅の中に68%入る。 ±1.96*σの幅の
中に95%入る。
⑤抽出調査の結果としての比率
• 母集団(元の集団)の比率は分からないが、
仮に比率Piとして、
抽出調査で比率Pとなる確率piは、二項分布で
求められる。
⑥母集団でのいろいろな比率の可能
性から真の比率の推測
• 標本調査で比率がPとなる場合の母集団で
のいろいろな比率Piに対する確率piが分かる
とすれば、
母集団の真の比率がPiである可能性はpiで最
も高いと考えることが妥当であろう。
⑦母集団比率とし妥当な推測した場
合の確率分布
• こうした前提で、母集団の真の比率Poを推測
すると
• 標本調査の比率Pに対して(以下pと記述)、
• 平均p、標準偏差√(p*(1-p)/n)の正規分布が
想定される。 ただし、nは標本数。
⑧比率の区間推計
• 以上の結果として、母集団での比率は、次の
とおり推測される。
• p±√(p*(1-p)/n)の幅の中に68%入る
• p±1.96√(p*(1-p)/n)の幅の中に95%入る
2.母集団の平均値
①標本の抽出
• 無作為に一定数の標本を抽出し、その測定
を行う。
(例えば、大学生の身長を測定する場合など
を考える。)
②散らばりの尺度
• 一定の標本数の測定を繰り返した場合、それ
ぞれの平均値には散らばりがある。
③抽出数を増やした場合の平均の変化
• 抽出数が多くなるほど、各平均値の分布を描
いたグラフは尖がっていく。
つまり、散らばりが少なくなっていく。
• ちなみに、この平均値の分布は、正規分布と
なる。
④正規分布の形
• 他方、正規分布の標準偏差と各平均値との
関係は、
±σの幅の中に68%入る。 ±1.96*σの幅の
中に95%入る。
⑤標本測定の平均値と
母集団の平均値の関係
• 母集団(元の集団)の平均値は分からないが、
仮に平均値Miとして、
抽出調査での平均値Miとなる確率miは、上述
のとおり正規分布となる。
⑥母集団でのいろいろな平均値Miの
可能性から真の平均値の推測
• 標本調査で平均値がMとなる場合の
• 母集団でのいろいろな平均値Miに対する確
率miが分かるとすれば、
• 母集団の真の平均値がMiである可能性はmi
で最も高いと考えることが妥当であろう。
⑦母集団の平均値として妥当なMを
推測した場合の確率分布
• こうした前提で、母集団の真の平均値Mを推
測すると
標本調査の平均値Mに対して(以下mと記述)、
平均m、標準偏差σ/√(n)の正規分布が想定さ
れる。
ただし、σは標本調査の標準偏差を援用する。
nは標本数。
⑧平均値の区間推計
• 以上の結果として、母集団の平均値は、次の
とおり推測される。
m±σ/√(n)の幅の中に68%入る。
m±1.96*σ/√(n)の幅の中に95%入る。
標本数が少ない場合
•
標本数が少ない(概ね30以下の)場合、正規
分布でなくt分布を使う。
• →上記⑧でのσの係数(1あるいは1.96)に替え
て、標本数と有意水準に対応する値を使う。
分母はn-1を使うこと。
3.標本誤差
• 標本誤差
母集団推計での平均の標準偏差
• 標本誤差の許容範囲から必要標本数が決め
られる。
所持金
(万円)
時間末レポート
右
表
の
値
の
標
準
偏
差
を
求
め
な
さ
い。
1
2
3
4
5
6
7
8
9
10
5
3
7
5
6
8
4
2
6
4
時間末レポート
1.比率の区間推計
紅白の玉が入った袋から玉をとりだす。
標本数300個、白の比率25%の場合
袋の中の白の比率を95%の確かさで求めなさい。
2.平均の区間推計
成人男性の身長を測る。
標本数400人、平均175.0cm、標準偏差5.0cmの場合
成人男性の平均身長を95%の確かさで求めなさい。