Transcript Document

統計学入門(1)
第9回
基本統計量のつづき
--- 五点要約 と 箱ひげ図 ---
問題1
次のヒストグラムは、2006年の松坂投手のスライダーの球速(km/h)の
分布である。次の統計量の値がどれぐらいであるかを答えよ。
180
160
140
120
100
度数
80
60
40
20
0
116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146
球速
平均値(
129
標準偏差( 4.5
)中央値( 129
)
) 範囲 ( 24 )
統計学第9回
2
問題2
下のヒストグラムは、同じ年の直球の球速の分布である。ばらつきの大
きさを比較して、その違いをコメントせよ。
200
180
160
140
120
100
度数
80
60
40
20
0
133
135
137
139
141
143
145
147
149
151
153
155
球速
標準偏差は、4を若干下回るくらいの値であり、スライダーの場合の4.5より小さくなっており
バラツキが小さいと思われる
統計学第9回
3
今日の講義

基本統計のつづき

ローレンツ曲線とジニ係数

5点要約と箱ひげ図

5点要約:



最小値、第1四分位、中央値、第3四分位、最大値
箱ひげ図
練習問題
統計学第9回
4
ローレンツ曲線(Lorenz curve)
データのバラツキの大きさ(分配の格差)を示す下に凸な
弓形のグラフ、下方向に張るほど格差が大きい
100%
分配額の累積比率
80%
60%
均等分配線
ローレンツ曲線
40%
格差最大の分配線
20%
0%
0%
20%
40%
60%
世帯数の累積比率
80%
100%
ジニ係数(Gini's coefficient)
格差の程度を数値で測る指標
(均等分配) 0 ≦ジニ係数≦1 (格差最大)
の 面積
ジニ係数 =
の 面積
=
1/2
の 面積
100%
分配額の累積比率
80%
60%
40%
20%
0%
0%
20%
40%
60%
世帯数の累積比率
80%
100%
=
の面積×2
社員3名への給与の分配例
A社
100
B社
100
C社
10
100%
A
B
C
80%
60%
200
300
50
300
500
100
標準偏差 変動係数
A社 82
0.41
B社 163
0.54
C社 37
0.69
40%
20%
0%
0%
20%
40%
60%
3社のローレンツ曲線
80%
100%
A社の給与分配に関するローレンツ曲線の作成
給与の値は小さい順に並び替え
A社
値
1
1
1
人
累積 累積相対度数
0
0.000
1
0.333
2
0.667
3
1.000
人数の累積相対度数を横軸に
値
100
200
300
100%
給与
累積 累積相対度数
0
0.000
100
0.167
300
0.500
600
1.000
給与の累積相対度数を縦軸に
(1,1)
80%
60%
(0.667,0.500)
40%
20%
(0.333,0.167)
(0,0)
0%
0%
20%
40%
60%
80%
100%
ジニ係数の計算の仕方(3つの階級の場合)
100%
ジニ係数は
④の領域の面積の2倍
④
③
①
0%
0%
②
100%
ジニ係数=(0.5-①の面積-②の面積-③の面積)/(1/2)
ジニ係数の計算の仕方(3つの階級の場合)
(1,1)
100%
80%
60%
(0.667,0.500)
40%
20%
(0.333,0.167)
(0,0)
0%
0%
20%
40%
60%
80%
100%
①の面積=0.333×0.167 /2
②の面積=(0.667-0.333)×(0.167+0.500) /2
③の面積=(1-0.667)×(0.500+1) /2
ジニ係数=2×(0.5-①の面積-②の面積-③の面積)=0.22
3つの会社の給与の分析
3名ずつの社員の会社の給与
100%
A社
B社
C社
100
100
10
60%
200
300
50
40%
300
500
100
20%
A
B
C
80%
0%
0%
参考:標準偏差 変動係数
A社 82
0.41
B社 163
0.54
C社 37
0.69
ジニ係数
0.22
0.30
0.38
20%
40%
60%
3社のローレンツ曲線
80%
100%
総務省 統計局 家計調査:
第13表 貯蓄・純貯蓄・負債現在高階級別貯蓄及び負債の1世帯当たり現在高
第13表
貯蓄・純貯蓄・負債現在高階級別貯蓄及び
全 国・全 世 帯
100万円
未 満
集計世帯数
貯蓄
世帯数
606
33
貯 蓄 現 在 高 階 級
100
200
300
400
500
600
~
~
~
~
~
~
200
300
400
500
600
700
378
348
350
344
351
319
144
245
343
444
545
644
区間内の平均貯蓄額
[世帯数×平均貯蓄額]で区間内の貯蓄の総計が算出できる
700
~
800
278
743
世帯あたり貯蓄残高の分析

平成10年度と平成15年度のローレンツ曲線の比較
100%
平成15年度
GI=0.55
90%
80%
平成10年度
GI=0.50
70%
60%
50%
40%
30%
20%
10%
0%
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
平成10年度は貯蓄動向調査、平成15年度は家計調査から作成
年齢階級別所得のジニ係数(平成11年)
全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局)
等価可処分所得のジニ係数の国際比較
全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局)
ローレンツ曲線の比較
http://www.nihonkaigaku.org/ham/eacoex/100econ/110step/113incl/ppgininc/ppgininc.html
「東アジア共生へのシナリオ」(浜松誠二)より引用
分布の5点要約

5つの統計量を使った分布の把握

最小値、最大値
第1四分位、中央値、第3四分位

上記5つの統計量を使ったグラフ表示

箱ひげ図(ボックスプロット)
統計学第9回
17
基礎統計量の視覚化
箱ひげ図(Box and whiskers plot)
箱と箱からのびる線(ひげ)を使って、
データのバラツキを示したグラフ
あてはめる統計量(例)
データの値
ヒゲの上端
箱の上限
中心点
箱の下限
ヒゲの下端
グループA
グループB
最大値
第3四分位数
中央値
第1四分位数
最小値
図3-7 箱ひげ図
統計学第9回
18
箱ひげ図とヒストグラムを並べて書くと...
(人)
30
20
10
0
50
55
60
65
70
75
80
85
90
成績
図3-2 ヒストグラム (量的変数)
箱ひげ図を寝かせて描いてみると...
95 100
8
6
4
2
0
2
4
6
最
大
最
小
8
7
5
%
2
5
%
1
0
x
1
x
2
x
3
x
4
図
2
.
9
比
較
の
た
め
の
箱
ヒ
ゲ
図
x
5
中
央
値
箱ひげ図とヒストグラムの対応
7
5
3
1
-1
-3
-5
200
100
175
150
200
90
80
175
70
150
60
125
125
100
75
50
100
40
75
30
50
50
20
25
0
10
0
25
0
分析事例(店舗別の分析)
ボックスプロット (4class_rst.STA 31v*7948c)
3000
2500
2000
1500
金額
1000
500
0
742
784
中央値
25%-75%
外れ値以外の範囲
外れ値
極値
店舗
統計学第9回
22
分析事例(時間別の分析)
ボックスプロット (4class_rst.STA 31v*7948c)
4000
3500
3000
2500
2000
金額
1500
1000
500
0
0
2
4
6
8
10
12
14
16
18
20
22
24
中央値
25%-75%
外れ値以外の範囲
外れ値
極値
時間
統計学第9回
23
前回の練習問題の解答
(1)から(4)に対応するヒストグラムはそれぞれどれか。
統計学第9回
24
ボックスプロット (matsuzaka2006.sta 151v*2886c)
160
150
球速
140
130
120
110
100
ストレート
カットボール
カーブ
中央値
スライダー
チェンジアップ
フォーク
25%-75%
最小-最大
球種名
(a) 平均球速が最も遅いと思われる球種は何か
( カーブ
)
(b) ばらつきの大きさが最も大きいと思われる球種は何か
(チェンジアップ)
(c) スライダーの球速の平均値はどれくらいか
( 130km/h )
(d) スライダーの球速の標準偏差はどれくらいか
( 5km/h )
(e) チェンジアップの球速が130km/hを越す割合はどのくらいか ( 25%弱 )
(f) 投じたボールの球速が133km/hであった。どの球種であったと考えるのが妥当か。
(球種 フォーク 理由:
)
統計学第9回
25