Transcript Document
統計学入門(1)
第9回
基本統計量のつづき
--- 五点要約 と 箱ひげ図 ---
問題1
次のヒストグラムは、2006年の松坂投手のスライダーの球速(km/h)の
分布である。次の統計量の値がどれぐらいであるかを答えよ。
180
160
140
120
100
度数
80
60
40
20
0
116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146
球速
平均値(
129
標準偏差( 4.5
)中央値( 129
)
) 範囲 ( 24 )
統計学第9回
2
問題2
下のヒストグラムは、同じ年の直球の球速の分布である。ばらつきの大
きさを比較して、その違いをコメントせよ。
200
180
160
140
120
100
度数
80
60
40
20
0
133
135
137
139
141
143
145
147
149
151
153
155
球速
標準偏差は、4を若干下回るくらいの値であり、スライダーの場合の4.5より小さくなっており
バラツキが小さいと思われる
統計学第9回
3
今日の講義
基本統計のつづき
ローレンツ曲線とジニ係数
5点要約と箱ひげ図
5点要約:
最小値、第1四分位、中央値、第3四分位、最大値
箱ひげ図
練習問題
統計学第9回
4
ローレンツ曲線(Lorenz curve)
データのバラツキの大きさ(分配の格差)を示す下に凸な
弓形のグラフ、下方向に張るほど格差が大きい
100%
分配額の累積比率
80%
60%
均等分配線
ローレンツ曲線
40%
格差最大の分配線
20%
0%
0%
20%
40%
60%
世帯数の累積比率
80%
100%
ジニ係数(Gini's coefficient)
格差の程度を数値で測る指標
(均等分配) 0 ≦ジニ係数≦1 (格差最大)
の 面積
ジニ係数 =
の 面積
=
1/2
の 面積
100%
分配額の累積比率
80%
60%
40%
20%
0%
0%
20%
40%
60%
世帯数の累積比率
80%
100%
=
の面積×2
社員3名への給与の分配例
A社
100
B社
100
C社
10
100%
A
B
C
80%
60%
200
300
50
300
500
100
標準偏差 変動係数
A社 82
0.41
B社 163
0.54
C社 37
0.69
40%
20%
0%
0%
20%
40%
60%
3社のローレンツ曲線
80%
100%
A社の給与分配に関するローレンツ曲線の作成
給与の値は小さい順に並び替え
A社
値
1
1
1
人
累積 累積相対度数
0
0.000
1
0.333
2
0.667
3
1.000
人数の累積相対度数を横軸に
値
100
200
300
100%
給与
累積 累積相対度数
0
0.000
100
0.167
300
0.500
600
1.000
給与の累積相対度数を縦軸に
(1,1)
80%
60%
(0.667,0.500)
40%
20%
(0.333,0.167)
(0,0)
0%
0%
20%
40%
60%
80%
100%
ジニ係数の計算の仕方(3つの階級の場合)
100%
ジニ係数は
④の領域の面積の2倍
④
③
①
0%
0%
②
100%
ジニ係数=(0.5-①の面積-②の面積-③の面積)/(1/2)
ジニ係数の計算の仕方(3つの階級の場合)
(1,1)
100%
80%
60%
(0.667,0.500)
40%
20%
(0.333,0.167)
(0,0)
0%
0%
20%
40%
60%
80%
100%
①の面積=0.333×0.167 /2
②の面積=(0.667-0.333)×(0.167+0.500) /2
③の面積=(1-0.667)×(0.500+1) /2
ジニ係数=2×(0.5-①の面積-②の面積-③の面積)=0.22
3つの会社の給与の分析
3名ずつの社員の会社の給与
100%
A社
B社
C社
100
100
10
60%
200
300
50
40%
300
500
100
20%
A
B
C
80%
0%
0%
参考:標準偏差 変動係数
A社 82
0.41
B社 163
0.54
C社 37
0.69
ジニ係数
0.22
0.30
0.38
20%
40%
60%
3社のローレンツ曲線
80%
100%
総務省 統計局 家計調査:
第13表 貯蓄・純貯蓄・負債現在高階級別貯蓄及び負債の1世帯当たり現在高
第13表
貯蓄・純貯蓄・負債現在高階級別貯蓄及び
全 国・全 世 帯
100万円
未 満
集計世帯数
貯蓄
世帯数
606
33
貯 蓄 現 在 高 階 級
100
200
300
400
500
600
~
~
~
~
~
~
200
300
400
500
600
700
378
348
350
344
351
319
144
245
343
444
545
644
区間内の平均貯蓄額
[世帯数×平均貯蓄額]で区間内の貯蓄の総計が算出できる
700
~
800
278
743
世帯あたり貯蓄残高の分析
平成10年度と平成15年度のローレンツ曲線の比較
100%
平成15年度
GI=0.55
90%
80%
平成10年度
GI=0.50
70%
60%
50%
40%
30%
20%
10%
0%
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
平成10年度は貯蓄動向調査、平成15年度は家計調査から作成
年齢階級別所得のジニ係数(平成11年)
全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局)
等価可処分所得のジニ係数の国際比較
全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局)
ローレンツ曲線の比較
http://www.nihonkaigaku.org/ham/eacoex/100econ/110step/113incl/ppgininc/ppgininc.html
「東アジア共生へのシナリオ」(浜松誠二)より引用
分布の5点要約
5つの統計量を使った分布の把握
最小値、最大値
第1四分位、中央値、第3四分位
上記5つの統計量を使ったグラフ表示
箱ひげ図(ボックスプロット)
統計学第9回
17
基礎統計量の視覚化
箱ひげ図(Box and whiskers plot)
箱と箱からのびる線(ひげ)を使って、
データのバラツキを示したグラフ
あてはめる統計量(例)
データの値
ヒゲの上端
箱の上限
中心点
箱の下限
ヒゲの下端
グループA
グループB
最大値
第3四分位数
中央値
第1四分位数
最小値
図3-7 箱ひげ図
統計学第9回
18
箱ひげ図とヒストグラムを並べて書くと...
(人)
30
20
10
0
50
55
60
65
70
75
80
85
90
成績
図3-2 ヒストグラム (量的変数)
箱ひげ図を寝かせて描いてみると...
95 100
8
6
4
2
0
2
4
6
最
大
最
小
8
7
5
%
2
5
%
1
0
x
1
x
2
x
3
x
4
図
2
.
9
比
較
の
た
め
の
箱
ヒ
ゲ
図
x
5
中
央
値
箱ひげ図とヒストグラムの対応
7
5
3
1
-1
-3
-5
200
100
175
150
200
90
80
175
70
150
60
125
125
100
75
50
100
40
75
30
50
50
20
25
0
10
0
25
0
分析事例(店舗別の分析)
ボックスプロット (4class_rst.STA 31v*7948c)
3000
2500
2000
1500
金額
1000
500
0
742
784
中央値
25%-75%
外れ値以外の範囲
外れ値
極値
店舗
統計学第9回
22
分析事例(時間別の分析)
ボックスプロット (4class_rst.STA 31v*7948c)
4000
3500
3000
2500
2000
金額
1500
1000
500
0
0
2
4
6
8
10
12
14
16
18
20
22
24
中央値
25%-75%
外れ値以外の範囲
外れ値
極値
時間
統計学第9回
23
前回の練習問題の解答
(1)から(4)に対応するヒストグラムはそれぞれどれか。
統計学第9回
24
ボックスプロット (matsuzaka2006.sta 151v*2886c)
160
150
球速
140
130
120
110
100
ストレート
カットボール
カーブ
中央値
スライダー
チェンジアップ
フォーク
25%-75%
最小-最大
球種名
(a) 平均球速が最も遅いと思われる球種は何か
( カーブ
)
(b) ばらつきの大きさが最も大きいと思われる球種は何か
(チェンジアップ)
(c) スライダーの球速の平均値はどれくらいか
( 130km/h )
(d) スライダーの球速の標準偏差はどれくらいか
( 5km/h )
(e) チェンジアップの球速が130km/hを越す割合はどのくらいか ( 25%弱 )
(f) 投じたボールの球速が133km/hであった。どの球種であったと考えるのが妥当か。
(球種 フォーク 理由:
)
統計学第9回
25