標本の記述統計 - 専修大学ホームページ

Download Report

Transcript 標本の記述統計 - 専修大学ホームページ

標本の記述統計
専修大学 経済学部
経済統計学(作間逸雄)
全数調査と標本調査
• 全数調査の代表的例が「国勢調査」
• センサスCensusという言葉は、全数調査を
意味するが、一方で「国勢調査」のことを指す
場合もある。ただし、後者を指す場合は、
Population Censusといったほうがよい。
• 標本には、誤差がつきものである。標本誤差。
• 全数調査にも誤差がある。非標本誤差。
くじ引きをするには、くじをつくらなければならない!
• 全数調査の存在意義・標本調査の存在意義。
標本の記述統計
標本抽出
母集団
統計的推測
標本
• 標本抽出(sampling)は、「無作為」(random)であ
る必要がある。
• 標本を抽出し、記述するのは、母集団がどうなってい
るかを統計的に推測するためである。
度数分布表とヒストグラム
• 度数分布表を作るとは、もとのデータを階級値と度
数との組み合わせに変換すること。
• 連続量(例えば、身長)と離散量(世帯の児童数)
• グラフによる(=幾何的)記述
度数分布表を作成し、ヒストグラムをつくる。
• 計算による(=算術的)記述
分布の中心・位置の指標
分布のばらつきの指標
分布の中心
• 分布の中心の指標
算術平均
平均(mean)
幾何平均
調和平均
メジアン(中央値、中位数)
モード(最頻値)
1
500
2
527
階級
3
918
4
1500
5
1550
6
2057
7
2521
8
2701
9
3040
10
4079
11
7000
12
7489
13
8400
14
9771
15
10153
16
10664
17
15321
18
15918
19
27868
20
30062
0以上-2000未満
度数
////
5
階級値
1000
2000-4000
////
4
3000
4000-6000
/
//
//
//
1
5000
7000
9000
11000
13000
15000
17000
19000
28965
6000-8000
8000-10000
10000-12000
2
2
2
12000-14000
14000-16000
//
2
//
2
16000-18000
18000-20000
20000-
ヒストグラム(柱状図形)を描く
1.2000
5
1.0000
4
0.8000
3
0.6000
2
0.4000
1
0.2000
0
0.0000
20 0
00
40
00
60
00
80
0
10 0
00
12 0
00
14 0
00
16 0
00
18 0
00
20 0
00
0
6
資産額、所得額などの分布(*)では、
平均>メジアン(中央値、中位数)>モード(最頻値)
の順になる。
*ユニモーダルな右裾の長い分布
標本の基本統計量
度数分布表 :
階級下限値
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
サンプルサイズ
合計
平均
最小値
最大値
分散
標準偏差
変動係数
実測度数
5
4
1
2
2
2
0
2
0
0
2
20
162039
8101.95
500
30062
73333679
8563.5086
1.0569688
所持金
相対度数
累積相対度数
0.2500
0.2500
0.2000
0.4500
0.0500
0.5000
0.1000
0.6000
0.1000
0.7000
0.1000
0.8000
0.0000
0.8000
0.1000
0.9000
0.0000
0.9000
0.0000
0.9000
0.1000
1.0000
母集団の基本統計量
度数分布表 :
所持金
階級下限値
実測度数 相対度数
累積相対度数
0
18
0.2169
0.2169
2000
9
0.1084
0.3253
4000
8
0.0964
0.4217
6000
6
0.0723
0.4940
8000
10
0.1205
0.6145
10000
9
0.1084
0.7229
12000
4
0.0482
0.7711
14000
4
0.0482
0.8193
16000
4
0.0482
0.8675
18000
2
0.0241
0.8916
20000
9
0.1084
1.0000
サンプル数
合計
平均
最小値
最大値
分散
標準偏差
変動係数
83
955431
11511.217
447
119671
306218110
17499.089
1.5201771
ヒストグラム(母集団)
20
18
16
14
12
10
8
6
4
2
0
1.2000
1.0000
0.8000
0.6000
0.4000
0.2000
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
0.0000
分布のばらつきの尺度
• 範囲(レンジ)
• 四分位範囲
• 平均偏差
• 分散
• 標準偏差
• 変動係数
分散の考え方
個々のデータと平均値との「偏差」(deviation)
の絶対値がすべて0ならば、<ばらつき>はな
いことになる。
X5  X
を偏差
という
X1
X2
X3
X
X4
X5
平均偏差
• 差をとって絶対値をとる
Xi  X
• 平均偏差(MD)mean deviation
1
n
n

i 1
Xi  X
分散と標準偏差
• 分散
1
2
S 
n
• 標準偏差
S 
1
n
n

( X i  X )2
i 1
n

( X i  X )2
i 1
分散と標準偏差の第二の算式
• 別式
• 分散
不偏性のため
S2 
1
n 1
n

( X i  X )2
i 1
• 標準偏差
S
1
n 1
n

( X i  X )2
i 1
分散の計算
1
n 1

n
X i2  2 XX i  X 2
i 1
 n
1 


n 1 
 i 1
 n
1 


n 1 
 i 1
 n
1 


n 1 
 i 1






X i2  2 X
X i  nX 2 

i 1


2
2
X i  2 X (nX )  nX 



X i2  nX 2 

n

算術平均とメジアンの性質
(
X

X
)

(
X

C
)
 i
 i
2
X

M

X

C

i
i
2
所得不平等度とばらつきの尺度
• ばらつきの尺度は、所得のばらつきの尺度と
しても使える。
• しかし、所得不平等度の尺度として最もよく使
われるのは、「ジニ係数」(1912年)である。
• ジニ係数とローレンツ曲線との間には密接な
関係がある。
ローレンツ曲線( M.O.Lorenz
1905年)を描く:データ
所得 シェア
累積所得 シェア
5分位階級
1963
1975
1963
1975
Ⅰ
7.3
8.5
7.3
8.5
Ⅱ
12.5
13.4
19.8
21.9
Ⅲ
16.6
17.2
36.4
39.1
Ⅳ
22.1
22.3
58.5
61.4
Ⅴ
41.5
38.6
100
100
データ「家計調査」
勤労者世帯
ローレンツ曲線を描く
弓形の面積
累
積
所
得
シ
ェ
ア
は、
完全平等のと
き
0
完全不平等の
とき 1/2
となる。
累積相対度数
その面積を2
倍したのが、
ジニ係数。
ジニ係数の計算
n
G  1   p(i)  p(i 1)q(i)  q(i 1)
i 1
こ こ で、 p(i), q(i)は、 ロ ーレンツ曲線上の座標。
( i  0,1,..., n. p(0)  q(0)  0, p(n)  q(n)  1. nは、 階級数。 )
q(1)  q(2) p(2)  p(1)  2
q(2)
台形の面積を求
める
q(1)
p(1)
p(2)
ジニ係数の計算(1963年)
• 1-[0.2×0.073+0.2×0.271+
0.2×0.562+・・・]=0.312.
• 1975年のジニ係数は、0.2764