情報科学の基礎

Download Report

Transcript 情報科学の基礎

統計学入門(1)
第5回
量的データの分布を調べる
--- ヒストグラム, その2 ---
今日の予定

ヒストグラム


ヒストグラムを使って分布の比較を行う


作成方法と読み方
2つのグループのバラツキ具合を比較する
練習問題
統計学入門(1)第5回
2
データ分析の視点

全体のバラツキをみる!


層別して、グループ間の特徴を比較!


水準化(コード化)、層別
変数間の関係をみる!


ヒストグラム・箱ヒゲ図、基礎統計量
多変量解析
時点変化をみる!

時系列分析法
統計学入門(1)第5回
3
分布(Distribution)
データのバラツキの形状 , もしくは、
様子を数量的に把握したもの
データが集中している範囲、バラツキの大きさ、
データの値や範囲を指定した場合、 そこに全体の
何%のデータが含まれるか・・・.
を教えてくれるもの
統計学入門(1)第5回
4
分布

データの値や範囲を指定した場合、



そこに全体の何%のデータが含まれるか・・・
値
範囲
・・・
・・・
質的データの場合
量的データの場合
統計学入門(1)第5回
5
ヒストグラム(Histogram)
度数分布表(量的データ)をグラフにしたもの
(
た
だ
し
、
区
間
が
等
間
隔
の
場
合
)
縦
軸
は
デ
ー
タ
の
度
数
(人)
30
20
10
0
50
55
60
65
70
75
80
85
90
95 100
成績
横軸がデータの値
図3-2 ヒストグラム (量的変数)
重 要 :
縦軸は起こりやすさを示す
統計学入門(1)第5回
6
前回の問題の解答:練習問題1
問題1
次のような集計表が得られた。ヒストグラムを作成し、
それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。
範囲
0-100
100-200
200-300
300-400
400-500
度数
10
20
25
18
12
0
100
200
(a) 50, (b) 150, (c) 250 (d) 350
起こりやすい順: (c) , (b), (d), (a)
300
400
500
練習問題2
基準の区間幅を50とした場合
問題1
次のような集計表が得られた。ヒストグラムを作成し、
それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。
範囲
0-100
100-150
150-200
200-300
300-500
度数
22
20
25
30
32
高さ
11
20
25
15
8
0
100
(a) 100, (b) 180, (c) 250 (d) 400
200
300
400
起こりやすい順: (b) , (a), (c), (d)
注意:100は100以上の区間としたときの解答
500
分布のチェックポイント

単峰
か 多峰 か
多峰であれば、分類を!

対称
か 非対称 か
対称であれば、ほぼ正規分布
対称でない場合、変換を行うことも
外れ値
統計学入門(1)第5回
9
単峰性(Unimodal)
データが集中している部分
(峰、山)が1つ
単峰で左右対称なヒストグラム
統計学入門(1)第5回
10
多峰性(Multimodal)
データが集中している部分(峰、山)が
2つ以上
2峰性のヒストグラム
統計学入門(1)第5回
11
多峰性の分布の例(松坂投手の球速)
300
250
200
150
100
50
0
110
115
120
125
130
135
統計学入門(1)第5回
140
145
150
155 km/h
12
球種別にみると、
260
240
220
200
180
160
140
120
100
80
60
40
20
0
111
121
131
141
151
111
121
Breaking b all
260
240
220
200
180
160
140
120
100
80
60
40
20
0
111
121
131
Slid er
141
131
141
151
111
121
Cut Ball
151
111
121
131
141
131
141
151
Fast Ball
151
111
Chang e Up
統計学入門(1)第5回
121
131
141
151
Fork Ball
13
歪んだ分布(Skewed
distribution)
右方向に裾をひく分布
右に歪んだ分布
左方向に裾をひく分布
左に歪んだ分布
統計学入門(1)第5回
14
歪んだ分布の例(貯蓄の分布)
総務省統計局家計調査
「家 計 調 査 年 報 平成17年≪貯蓄・負債編≫」
平成17年 貯蓄・負債の概況 より引用
(中央値のこと)
統計学入門(1)第5回
15
外れ値(Outlier)
データの大部分が含まれるデータ値の区間
からかけ離れたところに位置するデータ
外れ値があるヒストグラム
統計学入門(1)第5回
16
野球選手の打率の分布(2000年)
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0.220
0.240
0.260
0.280
0.300
0.320
打率
統計学入門(1)第5回
0.340
0.360
0.380
17
2つの分布の比較
年齢
96
84
72
60
48
36
24
12
0
20
25
30
35
40 45 50
性別: 男性
55
60
65 20
25
30
統計学入門(1)第5回
35
40 45 50
性別: 女性
55
60
65
18
2つの分布の比較
給与
140
120
100
80
60
40
20
0
0
10000
20000
30000 40000
性別: 男性
50000
60000 0
10000
統計学入門(1)第5回
20000
30000 40000
性別: 女性
50000
60000
19
2つの分布の比較

分布の形状の比較



山の数
対称性
分布の位置の比較
統計学入門(1)第5回
20
練習問題
(解説は次回講義で行われる)

ある1時間にコンビニエ
ンスストアでの購買金額
を記録し、そのデータを
店舗別に集計したところ
次のような集計表が得ら
れた。ヒストグラムを作
成し、(a)-(d)の問題に
答えなさい。
(a)
(b)
(c)
(d)
0-200
200-400
400-600
600-1000
1000-1500
1500-2000
2000-3000
3000-5000
合計
店舗A
28
36
32
40
35
25
30
40
266
店舗Aで購買金額が3500円と300円では、どちらの可能性が高いか
店舗Bで購買金額が700円と100円では、どちらの可能性が高いか
売上の平均はどちらの店舗が高いと思われるか
記録された1時間での総売上はどちらの店舗が高いと思われるか
統計学入門(1)第5回
店舗B
10
20
20
24
25
15
20
20
154
(
(
(
(
)
)
)
)
21