統計学の基礎

Download Report

Transcript 統計学の基礎

統計学基礎
Statistic
統計学の分類
統計学には大きく分けて次の二つがあります。
記述統計
推測統計
この講座では主に記述統計について学習していきます。
記述統計>例
ここに20個の数値があります。
173、168、162、175、182、
165、174、171、169、170、
169、168、172、175、163
176、167、164、172、170
● この数値の集まりが持つ性質を誰かに手短に伝え
たい場合、どのような方法が考えられるでしょうか?
記述統計>例
(方法1)・・・数値を一つずつ読み上げる。
(方法2)・・・このデータを要約して伝える。
(例) 「平均は170、最小値162から
最大値182までの20個のデータ」
◆ 方法2のほうが方法1よりも手短に分かり
やすくデータの集まりの持つ性質の特徴を
伝えることができるでしょう。
記述統計>概要
記述統計とは簡単に言うと観察対象となるデータを要約すること
です。
集団の持つ特色や傾向を表す要約データとして基本統計量を
用います。一般的に使われる基本統計量には次のようなものが
あります。
標本数、最小値、最大値、合計、平均、範囲、中央値、最頻値、
分散、標準偏差、四分位数、尖度、歪度、変動係数・・・
◆ではこれらの統計量の算出方法を一つずつ
見ていきましょう。
基本統計量
n
標本数 20
最大値 182
173、168、162、175、182
165、174、171、170、170
169、168、172、175、163
176、167、164、172、175
最小値 162
Mean(ミーン)。記号はμ(ミュー)で表す。
平均
170.6
Range(レンジ)
範囲
20
合計
÷
標本数
n

i 1
最大値-最小値
i
基本統計量>平均
ここで少し話しがそれますが・・・
平均について
厳密な言い方をすれば私たちが一般的に「平均」と呼んでいる
のは標本を足して標本数で割る「相加平均」(又は「算術平均」
とも呼ぶ)を指します。
これに対して標本同士を掛けて標本数のルートを求める方法
で算出したものを「相乗平均」又は「幾何平均」と呼びます。
では少し例を見てみましょう。
基本統計量>平均>例
ある日天井裏で音がするので押し入れから上がって見るとねず
みが2匹いました。
それから1ヵ月後、もう一度天井裏に上がって見ると4匹に増え
ていました。
そのまた1ヵ月後、もう一度天井裏に上がって見ると16匹に増
えていました。
そしてまた1ヵ月後、もう一度天井裏に上がって見ると・・・なんと
128匹に増えていました。
基本統計量>平均>問題
ある日
1ヵ月後
2ヵ月後
3ヵ月後
2匹
4匹
16匹
128匹
2倍
(問題)
4倍
8倍
このねずみは1ヶ月あたり何倍で増えていってるでしょうか?
基本統計量>平均>相加平均
● 相加平均で算出・・・(2+4+8)/3≒4.6倍
ある日
1ヵ月後
2匹
2ヵ月後
9.2匹
4.6倍
42.32匹
4.6倍
3ヵ月後
194.67匹
4.6倍
実際の3ヵ月後の数128匹とはだいぶ違った結果になりました。
基本統計量>平均>相乗平均
● 相乗平均で算出・・・
3
2×4×8=
3
64 = 4
ある日
1ヵ月後
2ヵ月後
3ヵ月後
2匹
8匹
32匹
128匹
4倍
4倍
4倍
3ヵ月後の数128匹とぴったり同じ結果になりました。
この例のように伸び率の平均を求める場合などでは相乗平均を使った
ほうが都合が良い場合もあります。では本題に戻ります。
基本統計量>最頻値
Mode(モード)
最頻値
データの中で最も多く現れる値
175
162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182
例えばこの標本集団がある学校で職員にとったアンケート
「来年度の募集生徒数を何人にするか?」の結果だとする
とこの最頻値「175」が採用されるかも知れません。最頻値
は一般的に言う「多数決」にあたります。
基本統計量>中央値
Median(メジアン)
中央値
データを横一列に並べた場合
170.5
中央にくる値
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182
• データ(標本数)が奇数の場合・・・中央の値
• データ(標本数)が偶数の場合・・・2値の平均
中央値は平均値よりも集団から外れた値の混入による影響
を受けにくいという特徴があります。
基本統計量>中央値>例
若年サラリーマン
15人に年収をきき
ました。
平均値240万円はこの集
団の年収の性質をよく表し
ているといえるでしょうか?
異分子の820万円がな
ければ平均値は約199
万円になります。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
平均
年収(万円)
150
150
160
160
170
180
180
200
210
230
230
240
260
260
820
240
中央値は200万円
になります。
この例では中央値の
方が平均よりもこの
集団の性質をよく表
していると言えるで
しょう。
異分子
基本統計量>四分位数
し ぶん い すう
データを横一列に並べた場合
25%、50%、75%地点にある値
四分位数
(クォータイル)
第1四分位数
1
2
3
4
5
6
7
第2四分位数
8
9
10
11
12
第3四分位数
13
14
15
16
17
18
19
20
162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182
167.5
170.5
(中央値)
174.5
基本統計量>ヒストグラム
ヒストグラム
データを階級別に分けてその度数
をグラフ化したもの
162 163 164 165 167 168 168 169 170 170 171 172 172 173 174 175 175 175 176 182
160~164
165~169
170~174
175~179
180~185
基本統計量>偏差
偏差とは・・・
平均と 各データとの値の差
i  
185
180
175
170
165
160
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
基本統計量>偏差
偏差を使ってこの集団の平均値からのばらつきの度合いを
表せないか?
偏差を合計したら・・・ 0になるので使えない
偏差の絶対値を合計したら・・・ 79
これなら使えそうですが統計学では一般的に、この方法は使
いません。ではどのような方法を使うかと言うと・・・
185
180
175
170
165
160
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
基本統計量>偏差平方・偏差平方和 (変動)
「偏差を2乗する」方法を使って正の数
値にします。この「偏差の2乗値」のこと
を 「偏差平方」と呼びます。
(i  )2
今回の例では偏差平方の合計は474.
95になります。これを「偏差平方和」又
は「変動」と呼び、データのばらつきを
表す指標の一つとして用いられます。
n
 (i  )2
i 1
185
180
175
170
165
160
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
標本
偏差
偏差2
(標本-平均)
(偏差平方)
1
162
-8.55
73.10
2
163
-7.55
57.00
3
164
-6.55
42.90
4
165
-5.55
30.80
5
167
-3.55
12.60
6
168
-2.55
6.50
7
168
-2.55
6.50
8
169
-1.55
2.40
9
170
-0.55
0.30
10
170
-0.55
0.30
11
171
0.45
0.20
12
172
1.45
2.10
13
172
1.45
2.10
14
173
2.45
6.00
15
174
3.45
11.90
16
175
4.45
19.80
17
175
4.45
19.80
18
175
4.45
19.80
19
176
5.45
29.70
20
182
11.45
131.10
0
474.95
合計
基本統計量>分散
ではこの変動を用いて平均からのばらつきを比較するとして、この集団と別の20
の標本とを比較することは出来ます。変動の数値の大きい方が、平均からのばら
つきが大きいと言えるでしょう。
では変動を用いて別の30の標本と比較することが出来るでしょうか?100の標
本と比較することが出来るでしょうか?
結果的には標本の数が違うので比較は出来ません。それなら変動を標本数で
割ったらどうでしょう?つまり偏差平方の平均です。これなら標本数の違う集団同
士でも比較が出来ます。この「偏差平方の平均」のことを「分散」と呼びます。
185
分散(Variance)は記号ではσ2 またはV で表しま
す。
n
 (
i 1
i
 )2
180
175
170
165
160
1
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
記述統計>基本統計量>標準偏差
● 今回の例では偏差平方和は474.95なのでその平均はおよそ23.75に な
ります。
では今回の20の標本を20人の身長のデータだとして、偏差平方の平均である
分散(23.75)は平均身長からのずれの長さの指標として使えるでしょうか?
分散は「平均からのずれ」である偏差を2乗した値の平均なのでそのまま身長の
単位の「cm」としては使えません。それでは2乗したものをまた元に戻すために平
方根(ルート)を求めれば同じ単位として使えそうです。ちなみに23.75の平方根
は4.873になります。
この分散の平方根のことを「標準偏差」と呼び、記号は「σ」(シグマ)で表します。標
準偏差は集団の平均からのばらつき度を、標本と同じ単位を使って表すことができ
ます。
n
 (  )
i 1
i
n
2
基本統計量>変動係数
標準偏差の大きさは元のデータが何かによって変わります。例えば今回は20
の身長データとして考えてみましたが、この人たちの体重を量り20の体重データ
の標準偏差を出したとします。すると当然、大きさの単位も大きさそのものも変
わってしまいます。その場合平均からのばらつきを元データと同じ単位で表す標
準偏差といえども、身長と体重では標準偏差の値同士を比較して、どちらの方が
バラつきが大きいなどと言うことは出来ません。
では種類の違うデータ同士のバラつきの比較は出来ないのでしょうか?標準偏
差の大きさは「各データの大きさと平均との差のバラつきの平均」をあらわしてい
るという点ではどの種類のデータであっても同じです。ではその標準偏差をその
データの大きさの尺度(スケール)の基本になる平均値で割ればどうでしょう。
データの種類間のスケールの違いが取り払われて単純に比較ができるようになる
はずです。この「標準偏差を平均で割る」ことで求めた値のことを変動係数と呼び
ます。変動係数は%の単位で表します。次に例を見てみましょう。
σ
μ
基本統計量>変動係数>例
次の表はある年のメロンとりんごの半年間の価格の推移を調べたものです。さてどち
らの方が平均価格に対する価格のバラつきが大きいでしょうか?標準偏差はあきら
かにメロンが大きいですがこれは単価の影響を受けているのでこのままでは単純に
比較ができません。
1月
2月
3月
4月
5月
6月
平均
メロン
2,200円
1,950円
2,200円
2,500円
2,600円
2,300円
2,292円
197円
りんご
220円
220円
230円
260円
280円
290円
250円
26円
りんごとメロンの価格の推移
3,000円
2,500円
2,000円
1,500円
1,000円
500円
0円
1月
2月
3月
りんご
4月
メロン
5月
6月
標準偏差
基本統計量>変動係数>例
ではそれぞれの標準偏差を平均値で割ってみましょう。求めた結果を%表示になお
します。結果はメロンが8.6%、りんごが10.5%なのでりんごの方が価格の変動
が大きいという意外な結果を知ることができました。
1月
2月
3月
4月
5月
6月
平均
メロン
2,200円
1,950円
2,200円
2,500円
2,600円
2,300円
2,292円
197円
りんご
220円
220円
230円
260円
280円
290円
250円
26円
標準偏差
平均
変動係数
メロン
197円
2,292円
8.6%
りんご
26円
250円
10.5%
標準偏差
推測統計>概要
ここで少し推測統計の話に移ります。
推測統計とは,集団から一部分を取り出して調査した
データをもとに,もとの集団について推測する方法です。
よく知られるところでは,内閣の支持率、選挙の出口調
査や視聴率などを調べる際など幅広く用いられている
手法です。
推測統計>概要>全数調査・標本調査
調査の対象となるもの全てを調べることを「全数調査」、一
部を取り出して調べることを「標本調査」と言います。全数
調査ができれば最も正確な答えが求められるでしょう。例と
しては5年ごとに行われる国勢調査は全数調査の一つと言
えます。しかし食品の抜き取り検査で出荷前の缶詰を全部
あけたら商売になりません。また、国内の全世帯で視聴率
の調査を行ったら莫大な費用がかかるでしょう。どちらも現
実的ではありません。
出来るだけ少ないデータで全体の傾向を知ることが出来れ
ば最も効率的で経済的です。それを可能にするのがこの
「推測統計」なのです。
推測統計>母集団と標本
ぼしゅうだん
推測統計では母集団と標本とを区別します。
● 母集団・・・調査の対象となる事柄や性質を有するもの全体。
● 標本 ・・・母集団から取り出した一部のもの。サンプル。
※ 母集団から標本を取り出すことを「標本抽出」、又は「サ
ンプリング」などと呼びます。
推測統計>標本抽出(サンプリング)
サンプリングは調査対象の母集団と同じ割合で行うことが重要です。例
えば母集団が国内在住の20代から50代の男性と女性であればその
人口と同じ割合でサンプリングしなければなりません。
20代男性
20代女性
50代女性
30代男性
30代女性
50代男性
40代男性
40代女性
推測統計>世論調査の失敗例
標本調査でよく引き合いに出される話に1936年の大統領選がありま
す。その調査結果は次のようなものでした。
割当法(クォータサンプリング)に
ギャラップ社
標本数 3000 より3000人
55.7%
44.3%
ルーズベルト
リテラリ・ダイジェスト社
標本数 230万
43.0%
ランドン
電話帳
自動車所有者名簿
57.0%
ルーズベルト
ランドン
実際の結果
60.2%
39.8%
ルーズベルト
ランドン
これは調査する際に標本数は多ければいいというも
のではないことを示す良い例です。ちなみに割当法とは
対象者を母集団(この例の場合では有権者)と同じ割合
になるように割り当てる方法です。(例:30代サラリーマ
ン、40代主婦・・・)
●
正規分布
世の中の多くの自然現象、社会現象は正規分布(Normal
Distribution)に従うと言われています。例えば人間や動
物の身長や体重、テストの成績、など多くのものがこの分
布に当てはまります。正規分布は平均を中心とした左右対
称のなだらかな曲線を描きます。発見者の名をとってガウ
ス曲線とも呼ばれます。
正規分布>例
(例)A高校の3年男子生徒340名のうち60名の生徒の身長
を測定したら次のような結果になりました。
身長
人数
158-161
3
162-165
7
166-169
11
170-173
17
174-177
13
178-181
8
182-186
1
合計
60
平均
171.4
A高校の3年男子生徒60名の身長
18
16
14
12
10
8
6
4
2
0
158-161
162-165
166-169
170-173
174-177
178-181
182-186
正規分布>例
今度は各階級ごとの人数の、調査数60人に対する比率を
求めヒストグラムを作成すると、縦軸の目盛以外は全く同
じになりました。比率の合計は「1」なので、この棒の長さの
合計も「1」になります。
身長
人数
比率
158-161
3
0.05
162-165
7
0.12
166-169
11
0.18
0.30
170-173
17
0.28
0.25
174-177
13
0.22
0.20
178-181
8
0.13
182-186
1
0.02
合計
60
1.00
平均
171.4
A高校の3年男子生徒60名の身長
0.15
0.10
0.05
0.00
158-161
162-165
166-169
170-173
174-177
178-181
182-186
正規分布>例
身長
人数
比率
158-159
1
0.01
160-161
2
0.02
162-163
4
0.04
164-165
7
0.06
166-167
11
0.10
168-169
15
0.14
170-171
17
0.15
172-173
17
0.15
174-175
14
0.13
176-177
12
0.11
178-179
6
0.05
180-181
3
0.03
182-183
1
0.01
合計
110
1.00
平均
171.4
次に調査対象を50名追加してデータに書
き加えました。ついでに階級を4cm区切り
から2cm区切りに変更しました。それでも
ヒストグラムの各棒の長さの合計が「1」で
あることに変わりありません。
A高校の3年男子生徒110名の身長
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
158159
160161
162163
164165
166167
168169
170171
172173
174175
176177
178179
180181
182183
正規分布>面積
それでは対象をA高校だけでなく市内の高校全体、あるいは
県内、国内と拡げて階級ももっと細かくわければ、ヒストグラム
の形状はおそらく下のような山形の形状になるでしょう。この
場合、棒の長さの合計はこの山の面積ということになりますの
で山の面積はやはり「1」になります。
1
正規分布>正規分布の性質
正規分布は左右対称なので平均値から右側の面積は全体の
50% (数値でいうと0.5)になります。となると左側の面積も
また全体の50%(0.5)になります。
50% 50%
μ
正規分布>正規分布の性質
正規分布にはおもしろい性質があり、平均値μや標準偏差σの
値にかかわらず平均から右側に標準偏差2個分離れた所から
切り離した部分の面積は必ず0.0228(2.28%)になります。
これが何を意味しているのか前に出てきた20の標本の例で
考えてみましょう。
2σ
μ
正規分布>正規分布の性質
20の標本をある高校の3年男子生徒の身長だとして、平均μ
は170.55、標準偏差σは4.87でした。2σは4.87×2なの
で9.74です。平均170.55に9.74を足すと180.29にな
ります。それより右側の面積が2.28%だということです。これ
はつまり、「ある朝この20人の中の誰かと道で会ったとしてそ
の人の身長が180.29cm以上である確率が2.8%だという
ことになります。
2σ
μ
170.55
180.29
正規分布>正規分布の性質
正規分布の平均μ、標準偏差σとの関係は下図のようにな
ります。例えば平均より2σ以下の人と会う確率もやはり、2.
28%です。逆に言うと平均から±2σ以内である確率は10
0-(2.28×2)=95.44%になります。
95.44%
2σ
2σ
μ
正規分布>正規分布の性質
平均値からσ何個分離れているかを表すのに「z」の記号を
使います。例えばzの値が2なら2σ、3なら3σのことです。
σをzで表した場合
1
1
2
3
2
μ
3
正規分布>標準正規分布
正規分布は平均μと標準偏差σを使ってN(μ、σ2)で表されま
す。このときN(0、1)の正規分布を「標準正規分布」と呼び
ます。
1
1
0
正規分布>正規分布の性質
下表はこのzと山形の右半分の面積との関係を
表した「正規分布表」の一部です。
小数点以
下二位
正規分布表
小数点以
下一位
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.5000
0.4960
0.4920
0.4880
0.4840
0.4801
0.4761
0.4721
0.4681
0.4641
0.1
0.4602
0.4562
0.4522
0.4483
0.4443
0.4404
0.4364
0.4325
0.4286
0.4247
0.2
0.4207
0.4168
0.4129
0.4090
0.4052
0.4013
0.3974
0.3936
0.3897
0.3859
0.3
0.3821
0.3783
0.3745
0.3707
0.3669
0.3632
0.3594
0.3557
0.3520
0.3483
0.4
0.3446
0.3409
0.3372
0.3336
0.3300
0.3264
0.3228
0.3192
0.3156
0.3121
0.5
0.3085
0.3050
0.3015
0.2981
0.2946
0.2912
0.2877
0.2843
0.2810
0.2776
0.6
0.2743
0.2709
0.2676
0.2643
0.2611
0.2578
0.2546
0.2514
0.2483
0.2451
0.7
0.2420
0.2389
0.2358
0.2327
0.2296
0.2266
0.2236
0.2206
0.2177
0.2148
0.8
0.2119
0.2090
0.2061
0.2033
0.2005
0.1977
0.1949
0.1922
0.1894
0.1867
0.9
0.1841
0.1814
0.1788
0.1762
0.1736
0.1711
0.1685
0.1660
0.1635
0.1611
1.0
0.1587
0.1562
0.1539
0.1515
0.1492
0.1469
0.1446
0.1423
0.1401
0.1379
1.1
0.1357
0.1335
0.1314
0.1292
0.1271
0.1251
0.1230
0.1210
0.1190
0.1170
1.2
0.1151
0.1131
0.1112
0.1093
0.1075
0.1056
0.1038
0.1020
0.1003
0.0985
1.3
0.0968
0.0951
0.0934
0.0918
0.0901
0.0885
0.0869
0.0853
0.0838
0.0823
1.4
0.0808
0.0793
0.0778
0.0764
0.0749
0.0735
0.0721
0.0708
0.0694
0.0681
1.5
0.0668
0.0655
0.0643
0.0630
0.0618
0.0606
0.0594
0.0582
0.0571
0.0559
正規分布>尖度
正規分布には下図のように様々な形があります。この形は平均値と標
準偏差の値により変わってきます。見た目の形がどうであれ正規分布
であればみな一様な比率の分布を示しています。
しかし、例えば右のような分布では裾の広が
り幅は同じでも中心付近に集まっているデー
タが多くなっています。これは正規分布よりも
尖っている例です。この尖りの度合いを表す
指標に尖度(せんど:Kurtosis(クルトシス))
があります。
正規分布>尖度
尖度は一般的に右の式で表します。
◆偏差の4乗和を標準偏差の4乗と標本数の積で割る
n
 (   )
i 1
正規分布の尖度は3になります。
右の式を使う場合もあります。もし正規分布
であれば尖度は0になり、正の値であれば正
規分布よりも尖り、負の値であれば正規分布
よりも偏平になります。
i
4
n 4
n
 (   )
i 1
i
n
4
4
3
上の式はいずれもデータが母集団そのものの場合であり、データが母
集団からとった標本で、そのデータから母集団を推定する場合には下
の式を使います。(MS-ExcelのKurt関数はこの定義を使っています)
正規分布>歪度
データ分布は必ず左右対称とは限りません。例えば次の例を見てください。これは
平成19年度秋の基本情報技術者試験のスコアの階級ごとの人数を表したグラフで
す。午前はおよそ正規分布に近い形状ですが、午後は左に歪んでいます。これは出
題が午前よりも得点し易い傾向にあったのではないかと考えられます。この場合、午
後のスコア分布がどの程度歪んでいるかは歪度(わいど:Skewness(スキューネ
ス))によって表すことが出来ます。歪度は分布の非対称性を表す尺度です。
H19年度秋期 基本情報技術者試験
人数
16,000
14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
午後
午前
245
295
345
395
445
495
545
スコア
595
645
695
745
800
正規分布>歪度
歪度は一般的に右の式で表します。
◆偏差の3乗和を標準偏差の3乗と標本数の積で割る
i   3
1 
3
n
正規分布の歪度は0になります。
上の式はデータが母集団そのものの場合であり、データが母集団か
らとった標本で、そのデータから母集団を推定する場合には次の式を
使います。(MS-ExcelのSkew関数はこの定義を使っています)
3
n
 Xi  Ⅹ 

 
(n 1)(n  2)  s 
自由度
ではここで話を変えて次の問題を考えてみてください。
(問題)
A高校で3人の生徒が10点満点の試験を行いました。点数はそ
れぞれ「2、1、3」という結果で、その平均は「2」になりました。
別の日にまた3人で試験を行った結果、うち2人の成績はどち
らも1でした。平均を「3」点にするためには、もう一人が何点とれ
ば良いでしょうか?
自由度
1+1+X
3
=3
1+1+X=3×3=9
X=9-(1+1)=7
上の計算でもう一人が7点をとれば3人の平均が3点になることが
わかります。
(問題)
ある日、また試験を行いました。3人のうち2人はどちらも「3」点で
した。平均を「2」点にするためにはもう一人は何点をとればよいで
しょうか?
自由度
2人の合計
6+X
3
6+X=3×2=6
=2
X=6-6=0
上の計算によりあと一人が0点をとれば平均点が「3」になることが
わかります。
これまで見てきたように3人のうち2人の点数にかかわらず、もう一人の
点数(不確定要素)を調整して合わせれば、平均の結果にあわせること
が出来ます。つまりX以外は値が自由になるということです。
今回3人で試験を受けてますので誰か一人がこのXの役を請け負うとし
て何点をとっても自由なのは「受験数-1」人になります。受験数を一般
的な標本数として「n-1」を自由度といいます。
不偏分散・標本標準偏差
統計学では、ある母集団の中からサンプリング
した標本を使って母集団を推定する場合、標本
数の代わりに自由度(n-1)を用います。例え
ば前回の20人の身長データの例では偏差 2
(偏差平方)和の平均である分散は
474.95/20で23.75でしたが、これが
100人の中から抽出した20の標本だというこ
とになるとその母集団100人の分散は
474.95/(20-1)で推定値を求めます。値
は約25(24.99)になります。この値のことを
不偏分散と呼びます。また不偏分散の平方根
を標本標準偏差と呼び、一般的に標準偏差の
記号σと区別して s で表します。実際、自由度
(n-1)で割ったほうが母集団の値に近づくこ
とが知られています。
標本
偏差
偏差2
(標本-平均)
(偏差平方)
1
162
-8.55
73.10
2
163
-7.55
57.00
3
164
-6.55
42.90
4
165
-5.55
30.80
5
167
-3.55
12.60
6
168
-2.55
6.50
7
168
-2.55
6.50
8
169
-1.55
2.40
9
170
-0.55
0.30
10
170
-0.55
0.30
11
171
0.45
0.20
12
172
1.45
2.10
13
172
1.45
2.10
14
173
2.45
6.00
15
174
3.45
11.90
16
175
4.45
19.80
17
175
4.45
19.80
18
175
4.45
19.80
19
176
5.45
29.70
20
182
11.45
131.10
0
474.95
合計
標準誤差(Standard Error)
今回の標本を、ある高校の3年男子生徒の中から抽出した20
人の身長だとします。そしてその平均は170.6でした。
では又別の日に、同じ高校の3年男子生徒の中から20人を無作
為に抽出して平均を算出したとすると、おそらく前回と全く同じに
はならないでしょう。また別の日に、同様に20人を抽出して・・・
このようにある母集団から何回も標本抽出を繰り返して得られ
た1回ごとの平均値の平均値は母平均(この場合はある高校の3
年男子生徒全体の平均)に限りなく近づいていきます。
では母集団の平均値と、標本抽出1回ごとの平均値とはどの位
ずれがあるのでしょうか?この値を表す指標として「標準誤差」
(SE:Standard Error)があります。厳密には標準誤差は平均以外
の統計量も含みますが、一般的に標準誤差と言えば今回の例の
ように「平均値の誤差」 (SEM:Standard Error of Mean)のことを指
します。
標準誤差(Standard Error)
標準誤差は「標本平均の標準偏差」です。これを図で表すと次
のようになります。
サンプリング 1(標本数20) 標本平均 1
サンプリング 2 (標本数20) 標本平均 2
サンプリング 3 (標本数20) 標本平均 3
サンプリング 4 (標本数20) 標本平均 4
①右図のようにサンプリングを繰り返し、例
えばある高校の3年男子が100人であ
ればその中で考えられる全ての組み合
わせで20人を抽出して、その標準偏差を
求める。ただしこの方法は母集団が大き
い場合には現実的ではありません。
サンプリング 5 (標本数20) 標本平均 5
サンプリング 6 (標本数20) 標本平均 6
サンプリング 7 (標本数20) 標本平均 7
サンプリング 8 (標本数20) 標本平均 8
サンプリング 9 (標本数20) 標本平均 9
サンプリング10 (標本数20) 標本平均10
②右図で得られた標本平均のひとつから
標本標準偏差/標本数の平方根で推定
値を算出する。
s
n
サンプリング11 (標本数20) 標本平均11
サンプリング12 (標本数20) 標本平均12
※ 一般的には②の方法を用います。
相関
相関とはある2つのものの間の関係のことです。2つの関係が強い
場合には「強い相関」、弱い場合には「弱い相関」などといいます。
では例として「身長」と「体重」の関係を考えてみましょう。一般的に
身長が高いと体重は重くなります。中には身長が低くて体重が比
較的重い人や、身長が高くても体重が比較的軽い人もいるでしょう。
しかしこの2つの間には確実に「片方が大きいともう片方も大きくな
る」関係が存在します。では「どの位深い関係があるか言葉で説明
せよ」と言われたら、なかなか難しいと思います。他にも少し例をあ
げてみます。
 最高気温とアイスクリームの売上高
 喫煙本数と肺がんの発症率
 世界各国の所得水準と出生率・・・
相関>相関の強さ・相関係数
ある変数を横軸、もう一つの変数を縦軸にとって散布図を作成した
場合、相関の種類により一般的に次のように分類されます。
負の強い相関
-1
-0.7
負の相関
無相関
-0.3
0
正の相関
0.3
正の強い相関
0.7
1
相関の強さを表す数値に「相関係数」があり「 r 」で表します。相関係数は-1から1
の範囲で表し、その大きさによって上のように分類されます。
(強さの階級分けは文献などにより多少異なる場合があります)
相関>相関係数>計算式
相関係数と一口に言っても次のようにいくつかの種類があります。
 ピアソンの積率相関係数
 スピアマンの順位相関係数
 ケンドールの順位相関係数
ただし、一般的に相関係数と言えばピアソンの積率相関係数のことを
指します。以降、「相関係数」はこのピアソンの積率相関係数のことであ
るとして話を進めていきます。
相関係数は次の式によって求められます。2つの変数を x と y とすると
共分散
x と y の偏差積の平均
x の標準偏差 × yの標準偏差
相関>相関係数>問題
るを こ
と記 れ
い録 は
えし 2
るた 0
で表 日
しで 間
ょす の
う。 最
かこ 高
?の 気
表温
かと
らあ
最る
高ア
気イ
温ス
とク
客リ
数ー
にム
は店
相の
関客
が数
あと
No
最高気温
偏差
偏差2
客数
偏差2
偏差
偏差積
1
33
1.1
1.1
382
60.9
3,708.8
63.9
2
33
1.1
1.1
324
2.9
8.4
3.0
3
34
2.1
4.2
338
16.9
285.6
34.6
4
34
2.1
4.2
317
-4.1
16.8
-8.4
5
35
3.1
9.3
341
19.9
396.0
60.7
6
35
3.1
9.3
360
38.9
1,513.2
118.6
7
34
2.1
4.2
339
17.9
320.4
36.7
8
32
0.1
0.0
329
7.9
62.4
0.4
9
28
-4.0
15.6
218
-103.1
10,629.6
407.2
10
35
3.1
9.3
402
80.9
6,544.8
246.7
11
33
1.1
1.1
342
20.9
436.8
21.9
12
28
-4.0
15.6
205
-116.1
13,479.2
458.6
13
32
0.1
0.0
368
46.9
2,199.6
2.3
14
25
-7.0
48.3
196
-125.1
15,650.0
869.4
15
28
-4.0
15.6
304
-17.1
292.4
67.5
16
30
-2.0
3.8
294
-27.1
734.4
52.8
17
29
-3.0
8.7
275
-46.1
2,125.2
136.0
18
32
0.1
0.0
336
14.9
222.0
0.7
19
34
2.1
4.2
384
62.9
3,956.4
128.9
20
35
3.1
9.3
368
46.9
2,199.6
143.0
8.2
321.1
3,239.1
142.26
平均
32.0
標準偏差(√8.2)
2.872
標準偏差(√3239.1)
56.91
相関>相関係数>問題>散布図
この表のデータから散布図を作成すると次のようになります。
客数(人)
最高気温とアイスクリーム店の客数
440
390
340
290
240
190
25
27
29
31
33
35
37
最高気温(℃)
前に見た散布図の例で確かめると割と強い正の相関がありそうに見えます。
実際はどうなのでしょう。
相関>相関係数>問題>答え
それでは相関係数の計算式に今回の例をあてはめてみましょう。
相関係数を求める式
x と y の偏差積の平均
x の標準偏差 × yの標準偏差
問 題
142.26
≒ 0.87
2.87 × 56.91
 相関係数は0.87なので「正の強い相関がある」ことがわかりました。
ハーフィンダール・ハーシュマン指数
ハーフィンダール・ハーシュマン指数(HHI)は、経済学の分野で市
場の集中度を測る指標として使われます。
「市場に参入している各企業のシェアの自乗の和」として定義され
ます。この指数が大きいほど(最小が0、最大が10,000)、市場集中度
が高い(独占傾向が強い)と判断されます。
① A社の独占市場 ( 100% )
HHI= 100(%)² = 10,000(最大)
② A社 70%、B社 10%、C社 10%、D社 10%
HHI= 70²+10² + 10² + 10² =5,200
③ A社 25%、B社 25%、C社 25%、D社 25%
HHI= 25²+25² + 25² + 25² =2,500
ハーフィンダール・ハーシュマン指数
H19.4 企業結合ガイドラインのポイント(公正取引委員会)によれ
ば、次のいずれかを満たせば「独占禁止法上通常問題となるとは考
えられない」としています。
1 企業結合後のハーフィンダール・ハーシュマン指数(以下 「HH
I」という。)が1,500 以下である場合
2 企業結合後のHHIが1,500 超2,500 以下であって,かつ,HHIの
増分(注)が250 以下である場合
3 企業結合後のHHIが2,500 を超え,かつ,HHIの増分が150 以
下である場合
ハーフィンダール・ハーシュマン指数(例題)
ある市場ではA社が30%、B社が20%、C社が20%、D社が15%、
E社が10%、F社が5%のシェアを持っています。このうちD社とF社
が合併を検討しています。この合併は独占禁止法上の問題はない
でしょうか?
(合併前)
302+202+202+152 +102 +5 2
=900+400+400+225+100+25
=2050
(合併後)
302+202+202 + 202 + 102
=900+400+400+400+100
=2200
◆ 合併後のHHIは2200、増分は150なので独占禁止法上の問題
はないと考えられます。
偏差値>例
ある高校では期末に3つの英語のテストを実施し、AさんとBさんとCさ
んの3人はそれぞれ別の試験を受けました。
 100点満点で平均点が70点の試験を受けたAさんは80点だった。
 200点満点で平均点が90点の試験を受けたBさんは85点だった。
 50点満点で平均点が30点の試験を受けたCさんは43点だった。
このAさんとBさんとCさんはそれぞれが受けたテストの成績簿を持っ
てある外資系の会社に面接に行きました。面接官はこの3人が受け
たそれぞれの試験がどんなレベルか全く知りません。この会社が英
語の実力のみで採用を判断する会社だとすれば、誰が採用される可
能性が高いでしょうか?(それぞれの成績簿にはテストの点数に加え
て偏差値も記入されています。)
偏差値
偏差値は試験のレベルにかかわらず、「平均点が50」とした場合
に自分が何点になるかを表した数値です。
試験の成績などを偏差値で表すことによって、試験の難しさにか
かわらず第3者が「70点か。平均より大分いい点をとってるなぁ」と
か、「48点か。少し平均より悪いな」などと判断する材料として使え
ます。偏差値はほとんどの場合25点から75点の範囲になる場合
が多いようですが、理論上は100点以上も、0点以下もありえます。
ただし、そうなることは現実問題としてはないでしょう。
偏差値は次の式によって求められます。
偏差値
(自分の点数-平均点)
×10
+ 50
標準偏差
自分の点数が平均点と同じであれば式の左側の部分が「0」に
なるので偏差値は「50点」になります。
また10を掛けているのは標準偏差を10点にするためです。つ
まり偏差値とは
平均点が50点、標準偏差(点のバラつき)が10点の仮想試験
に当てはめた場合の点数を表す指標といえるでしょう。
・・・ちなみにAさんは偏差値57点、Bさんは47点、Cさんは58点でCさんが採用される結
果となりました。