スライド 1

Download Report

Transcript スライド 1

統計的推測
2004年度専修大学経済学部
作間「経済統計学」講義
統計的推測の種類


標本の観察
(標本統計量)
例:標本平均
統計的推測の種類
推定
検定
母集団の特徴
(母数)
母平均
点推定
区間推定
標本から母集団を推測する1




池の魚の数を数える。
とりあえず、50匹を捕まえ、尾に赤い標識を
つけて逃がす。次の日、10匹捕まえたとこ
ろ、そのうち2匹が標識をつけていたとする。
池の魚全体(その数をXとする)のうち、標識
のついている魚の割合が今回捕まえた魚の
中での割合と等しいと仮定する。
すると、2÷10=50÷Xから、X=250と推
測する。
最尤法



「尤(もっと)もらしい」の「尤」である。
母比率をπとする。πをいろいろ変化させてみて、実際
のデータに含まれる比率pが観察される確率が一番高
くなるように、πを決める方法を最尤法という。
10匹の中に2匹に標識のついた魚がいる確率は、
p(2)  10 C2 2 (1  )102
この確率が最大になるように、πを選ぶのが最尤
法。微分を使って計算すると、π=2/10を得る。
区間推定とは何をやるのか?(1)


「標本分布」=標本統計量(標本平均とか標本分散と
か、標本の関数である確率変数)がキー。
中心極限定理によって、標本サイズ大の場合、
x

N (, / n)
2
であることから
Pr(1.96 
x 

n
 1.96)  0.95
区間推定とは何をやるのか?(1)

この式をかきかえて
Pr( x 1.96


n
   x 1.96

n
)  0.95
このように作られた区間を「信頼区間」という。
信頼区間の意味
この区間推定の問題



母集団の標準偏差(σ)が既知であることが前提されてしまっ
ている。
標本の標準偏差(s)はわかっているだろうが、母集団の標準
偏差はわかっていないのがむしろ普通の状況だろう。
その場合につかわれるのがt分布。次の確率変数tは、自由
度n-1のt分布に従う。
x 
t
s/ n
標本標準偏差Sは、n-1で割る式による。nで割るS*だと、
x 
t
s */ n 1
正規分布とt分布




t分布の発見者は、ウィリアム・ゴセット。ゴセットは、
ギネス・ビールの技術者だったので、会社の立場を
考えて、“Student”というペンネームで論文を発表
していたから、t分布のことをStudentのt分布とも
呼ぶ。
t分布には、自由度というパラメーターがある。
自由度を無限大にすると、t分布は、正規分布に一
致する。
したがって、サンプルが大きければ、σ未知でも、正
規分布を使ってよいことになる。
t分布と正規分布の比較
0.45
0.4
0.35
0.3
norm
f(x,5)
f(x,10)
f(x,15)
0.25
0.2
0.15
0.1
0.05
0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
標本から母集団を推測する2――失業率



標本の比率(割合)で母集団の対応する比
率(割合)を推定しようとする典型例。
完全失業者数/労働力人口が完全失業率。
完全失業率の数字の見方を考えるには、概
念がどうなっているか(「完全失業者」とは何
か、「労働力人口」とは何か)を知る必要が
ある。また、統計的推測そのものについての
理解(誤差への理解)が必要。
11月30日付『日本経済新聞』
11月30日付『日本経済新聞』
11月30日付『日本経済新聞』
有効求人倍率とは?
職業安定業務統計の用語。
「有効」とは? 求人・求職票は、
他にさだめないかぎり、ふつう翌月
末まで有効だから。
完全失業率のグラフ
実質消費支出の一時的高揚が景気回復
を支えていた。
労働力調査について









1 調査の目的
国民の就業及び不就業の状態を明らかにすることを目的とし、昭
和21年9月以降毎月実施している。
2 調査方法
・調査の対象
全国全世帯の中から、無作為に選定した約4万世帯に居住す
る15歳以上の者約10万人
・調査の期日
毎月末日現在で、月末1週間における就業・不就業の状態を調
査する(12月は20日から26日までの1週間)
・調査の方法
調査員が対象世帯に調査票を配布し、世帯がこれに記入、再
び調査員が調査票を取集する。
労働力調査について(続)
3 調査項目 中心は、就業状態の区分

就業状態の区分

────── 調査でのとらえ方 ───────
───── 結果表の表し方 ─────

┌ 主に仕事
┐

│
│

├ 通学のかたわらに仕事
┼………………… 従業者 ┐

│
│
│

├ 家事などのかたわらに仕事 ┘
│

│
│

│
├ 就業者 ┐
調査期間中に少し ┤
│
│
でも仕事をしたか │
│
│

│
│
├ 労働力人口 ┐

│
┌ 仕事を休んでいた ……
休業者 ┘
│
│

│
│
│
│

│
├ 仕事を探していた ……………
完全失業者 ┘
├15歳以上人口

│
│
│

└ 仕事をしなかった ┼ 通学
┐
│

│
│
│

├ 家事
┼ …………………… …非労働力人口 ┘

│
│

└ その他(高齢者など) ┘

労働力調査の用語(1)
<就業状態> 15歳以上人口について,調査週間中の活動状態
に基づいて次のように区分している。
 労働力人口:15歳以上人口のうち,就業者と完全失業者を合わ
せたもの
 就 業 者 :従業者と休業者を合わせたもの
 従 業 者:調査週間中に賃金,給料,諸手当,内職収入などの
収入を伴う仕事(以下「仕事」という。)を 1時間以上した者。な
お,家族従業者の場合は,無給であっても仕事をしたとする。
 休 業 者:仕事を持ちながら,調査週間中少しも仕事をしな
かった者のうち,1)雇用者で,給料,賃金の支払いを受けてい
る者又は受けることになっている者 2)自営業主で,自分の経
営する事業を持ったままで,その仕事を休み始めてから30日に
ならない者。なお,家族従業者で調査期間中に少しも仕事をしな
かった者は休業に含めず,完全失業者又は非労働力人口のい
ずれかとしている。
労働力調査の用語(2)
完全失業者:次の3つの条件を満たす者

1)仕事がなくて調査週間中に少しも仕事をしな
失業の3条件(ILO)
かった(就業者ではない)

2)仕事があればすぐ就くことができる
①without
work

3)調査期間中に,仕事を探す活動や事業を始め
る準備をしていた(過去の求職活動の結果を待ってい
②seeking
work
る場合を含む)
available for work
 ③currently
非労働力人口:15歳以上人口で上記以外の者
 労働力人口比率:15歳以上人口に占める労働力人
口の割合 =(労働力人口÷15歳以上人口)×100
 完全失業率:労働力人口に占める完全失業者の割
合 =(完全失業者÷労働力人口)×100

就業状態の調べ方
労働力(actuall)方式
短い調査期間を限定し、その期間で就業状態を決
定する。「月末1週間で少しでも仕事をしました
か?」……労働力調査、国勢調査
 有業者(usual)方式
期間を限定せず、ふだんの状態で就業状態を決定
する「あなたはふだん収入になる仕事をしています
か?」……就業構造基本調査

労働力調査の結果の公表
・公表期日…………………原則として調査
月の翌月末
・結果の刊行時期
労働力調査速報………公表時
労働力調査月報………翌々月の下旬
労働力調査年報………翌年3月
労働・雇用に関する他の月次統計
・世帯を通じて調査するもの…………………
労働力調査(総務省)
・事業所を通じて調査するもの………………
毎月勤労統計調査(厚生労働省)
・業務統計によるもの…………………………
職業安定業務統計(厚生労働省)
労働力調査の調査票
労働力調査の調査票(続)
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)



誤差には、標本誤差と非標本誤差とがある。
非標本誤差は、たとえば、誤記、集計ミス
等々であったり、統計環境の問題であったり
する。
標本誤差は、標本をとって調査することによ
り発生する誤差であるが、確率分布に関す
る知識を使ってコントロールすることができ
る。
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)




実際にはそうではないが、単純無作為標本抽出
(*)を行なって、労働力人口7万人のサンプルを得
たとしよう。
そのサンプルに含まれる人数は、「失業」を「成功」と
見た場合の「二項変数」。
「失業率」は、s/n。
サンプルが大きければ、失業率p=s/nは、平均π、
2
分散π(1-π)/nの正規分布をする。
E(s)  n
V (s)  n (1   )
E(aX )  aE( X )
V (aX )  a V ( X )
(*)実際は、層化二段抽出。
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)
p 
z
N (0,1)
 (1   )
n
Pr(1.96  z  1.96)  95%
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)
p(1 p)
p(1  p)
p 1.96
   p 1.96
n
n
P=0.047, n=70,000として±0.001568
の誤差を見ておけば、95%の割合で(100回
の内95回は)正しい推定になる。
0.045432 0.047
0.048568
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)



信頼区間の幅には、nが大きく影響する。
以上の結果から見て、4.7%でなく、4.70%
と発表することはできそうもないことがわか
る。
都道府県別失業率のように、サンプルが小
さい場合、その数字の利用には注意が必要
である。
謝辞
池の魚の数を数える例は、清水誠著『推測統計
はじめの一歩』(講談社ブルーバックス、2000年)
のものを使わせていただきました。
 信頼区間の図示は、T.H.ウォナコット/R.J.ウォナ
コット著、国府田恒夫/田中一盛/細谷雄三訳『統計
学序説』(培風館、1978年)のものです。
 総務省統計局のホームページ
http://www.stat.go.jp
に掲載されているいくつかの素材をつかわせていた
だきました。
