Transcript URL1

富山大学知能情報工学科
「統計学」第3回
第2章 標本データの記述(2)
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
前回の復習
• 母集団と標本
• データの分類
– 度数分布表
– ヒストグラム
• 算術的記述
– 代表値(average)=位置(location)の測度
平均値(mean)
中央値(median)
最頻値(mode)
平均値(算術平均)・中央値・最頻値の特徴
今日の内容
• 算術的記述
– 散布度(dispersion)=変動(variation)の測度
分散(variance),標準偏差(standard deviation)
範囲(range)
四分位範囲(interquartile range)
• 実践
– エクセルを用いた各種統計量(平均値、最大値、
最小値、範囲、分散,標準偏差、最頻値、中央値、
四分位範囲)の求め方
– 分類されたデータからの分散の計算
なぜ散布度を考えるのか?
• 分布の中心だけでなく,そのまわりにどれぐら
いの変動があるのかを考慮しなければならな
いことが多い.
– リスクの評価(「平均で1万円もうかる」だけでは
困る.変動の大きさを知りたい)
– テスト得点の比較(平均が50点の2つのテスト.
70点の価値は分布の広がりによる)
• 人はしばしば変動を無視してしまう(例:血液
型性格診断)
血液型別の性格特性
何
ら
か
の
性
格
特
性
の
程
度
平均値(仮想)の位置を図示
AB
A
B
O
血液型別の性格特性
何
ら
か
の
性
格
特
性
の
程
度
平均値の位置に加え,
個人差を図示
AB
A
B
O
血液型による差よりも,個人差がずっと大きいと,
性格診断には役立たない.
朝日新聞2012年12月5日 「温度差 各党も党内も」
朝日新聞2012年12月5日 「温度差 各党も党内も」
分散
• 平均値とペアで用いる.
• 平均からの偏差平方和(sum of square
deviation)を,測定値の数(n)あるいは測定
値の数から1を引いた数(n-1)で割る
n
1
2
s2 
(
X

X
)

i
n 1 i 1
1
2
2
2

{( X1  X )  ( X 2  X )   ( X n  X ) }
n 1
• 偏差平方和を測定値の数(n)で割った分散
は,「偏差の2乗の平均」である.
平均
1 n
2

Xi  X 

n i 1
平方
偏差
和
式は言葉で読むとよい.次のスライドも参照.
• 分散は,平均値のまわりでの,測定値のちら
ばりを表す.
– 直感的には,ヒストグラムの横幅
– 例1:データ {4, 5, 6}


1
2
2
2
2
4  5  5  5  6  5 
3
3
– 例2:データ {0, 5, 10}


1
50
2
2
2
0  5  5  5  10  5 
3
3
• 偏差平方和を測定値の数(n)で割った分散
は,次のように式変形できる.
1 n
1 n 2
2
2


X

X

X

X


i
i
n i 1
n i 1
「分散は,2乗の平均-平均の2乗」のように,
式は言葉で読むとよい.
なぜ平方(2乗)和なのか?
• 平均からの偏差(deviation)を単純に加算す
ると,ゼロになってしまう.(章末問題17)
n
( X  X )  0
i 1
i
• 偏差の絶対値を取って加算平均をしてもよい
が,絶対値は扱いにくいことがある.
n
| X  X |
i 1
i
平均偏差(mean deviation)
なぜn-1で割るのか?
• 測定値の数(n)で割るのは,「偏差平方の平均」
なのでわかりやすい.
– 各測定値が,平均の周りに,「平均して」どれくらい広
がっているかを表す
• しかし,母集団の分散を推定するという立場では,
n-1で割る方が望ましい性質を持つ(テキスト第6
章3節「不偏推定値」).
• テキストでは「標本分散」(sample variance)と呼
んでいるが,これは n で割った方を指すことも.
誤解の心配がない表現は「不偏分散」(unbiased
variance)
標準偏差
• 分散の,正の平方根
• 標準偏差の単位はもとの測定値の単位と同
じ
– 「平均175センチ」という表現はOK
– 「分散25センチ」はだめ
– 「標準偏差5センチ」はOK
標準偏差と分布の広がり
• 正規分布(第5章)をしている母集団からの,
大きな標本では,
– 「平均±1標準偏差」の範囲に全測定値のおよそ
68%(偏差値40~60)
– 「平均±2標準偏差」の範囲に全測定値のおよそ
95%(偏差値30~70)
Chart Title
約68%
0.45
0.4
0.35
約95%
0.3
0.25
Series1
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
1
2
3
4
範囲
• 最大の測定値と最小の測定値の差
• 他の測定値と著しく異なる値であるはずれ値
(outlier)の影響を受けやすい.
四分位数
• 四分位数(quartile):測定値を大きさの順に並べ,
等しく4分割するときの分割点となる数
• 下から順に,第1四分位数,第2四分位数,第3
四分位数と呼ぶ.
• 第2四分位数は中央値のこと.
• 分割点が2つの測定値の間に落ちるときは,そ
れら2つの測定値の中点をとる.
• データをヒストグラムに分類した後では,ヒストグ
ラムの全面積を4分割する点(例題1,例題2)
四分位数の求め方は複数ある
• 「測定値を等しく4分割する点」とはどこか、の
解釈の違いにより,四分位数の計算方法は
いくつかある.
• この違いにより,四分位数の値も異なったも
のになる.
比較的簡単な四分位数の求め方
【測定値の数が偶数のとき】
– 測定値を大きさの順に並べ,中央値の位置で半分に
分ける.
– 小さい方の測定値グループでの中央値が第1四分位
数,大きい方のグループでの中央値が第3四分位数
となる.
【測定値の数が奇数のとき】
– 両方のグループに中央値を含めて,あとは偶数の場
合と同様に求める.
(どちらのグループにも中央値を含めない方法もあ
る)
エクセルのQuartile関数
測定値 n 個,第1四分位数 Q1 は k 番目の測定値とする
1
k  (n 1) 1
4
0
1
n-1
n
「1 と n の間を 1:3 に分割する点」
=「0 と n-1 を 1:3 に分割する「数」に,1を加えた所」
• k が整数でない時,k の整数部分を q として
(小数部分はk-q), q 番目の測定値 Dq と q+1
番目の測定値 Dq+1 の間に四分位数があると
考える.
• 補間により四分位数を求める.
Q1  Dq  (k  q)(Dq1  Dq )
測定値 n 個,第1四分位数 Q1 は k 番目の測定値とする
(k  q)(Dq1  Dq )
Dq
Dq+1
Q1  Dq  (k  q)(Dq1  Dq )
例題:第1四分位数
• 0, 1, 4, 5, 6, 8, 9 という,7つの測定値の第1四分
位数 Q1 は?
手順1:第1四分位数となる k 番目の測定値
1
1
k  (n 1)  1  (7 1)  1  2.5
4
4
手順2:2番目の測定値は1,次は4.
Q1  Dq  (k  q)(Dq1  Dq )
 1  (2.5  2)(4 1)  2.5
参考:Excel 関数に対する変更
• Excel 2010 からは,QUARTILE 関数のかわり
に,QUARTIEL.INC あるいは QUARTILE.EXC 関
数を用いる.
– QUARTILE 関数もまだ使える
– QUARTILE 関数と QUARTILE.INC 関数は,戻り値を
0とすると最小値,4とすると最大値を返す.
QUARTILE.EXC 関数ではエラーになる.
四分位範囲
• 中央値とペアで用いる.(cf. 平均値と分散)
• 第3四分位数から第1四分位数を引いた値
• 四分位範囲を2で割った数値を,四分位偏差
(quartile deviation)と呼ぶことがある.
ヒストグラムでの四分位数
テキスト例題1での第1四分位数を例に
第1四分位数 17 19
人数(度数f)
20
15
11 12 12
10
5
6 7
2 1 2 1
9
0 0 1
0
11 14 17 20 23 26 29 32 35 38 41 44 47 50 53
週あたり労働時間
 測定値1あたり,面積1の正方形を積み上げてヒストグラムを作
ると考える.
 第1四分位数 = 左側の面積が25となる点
 24.5~27.5時間という階級までで面積19(あと6)
 次の階級の面積は 11 だから,ここを縦に11分割して6つ分
 階級の幅は3時間だから,境界値 27.5 時間に3 * (6/11) を加え
れば,これが第1四分位数
ヒストグラムでの四分位数
第1四分位数=29.1
6
Q1  27.5  3  29.1
11
11:6
27.5時間
階級幅3時間
スコアの変換(章末問題21)
• 測定値全体に定数 c を加える
– 平均も c を加えた値になる
– 分散,標準偏差は変化しない(山を平行移動した
だけなら,広がりは変化しない)
• 測定値を a 倍する
– 平均は a 倍される
– 分散は a2 倍される
– 標準偏差は a 倍される
スコアの変換(+ c)と平均値
n
1 n
1 n
( X i  c)  ( X i   c)

n i 1
n i 1
i 1
n
1
1
  X i  nc
n i 1
n
 X c
上のようなシグマを使った計算がわからなかったら,
要素を具体的に書き並べてみること!
スコアの変換(a倍)と平均値
n
n
1
1
aX i  a   X i

n i 1
n i 1
 aX
スコアの変換(+ c)と分散
1
2

( X i  c)  ( X  c)

n 1 i 1
1 n
2

(
X

X
)

i
n 1 i 1
n
平均に c が加えられていることに注意
スコアの変換(a倍)と分散
n
1 n
1
2
2

(aX i  aX ) 
a( X i  X )


n 1 i 1
n 1 i 1
n
1
2
 a2 
(
X

X
)

i
n 1 i 1
 a2  s2
平均が a 倍されていることに注意
1. エクセルを用いた各種統計量の求め方
2. 分類されたデータからの分散の計算
実践1:エクセルを用いた各種統計量の求め方
例題2のデータで,エクセルを用いて,平均値、最大値、最小値、範
囲、分散,標準偏差、最頻値、中央値、四分位範囲を求める.
① 元のデータから平均を求める方法は,AVERAGE 関数を用いる.
②
最大値はMAX関数,最小値はMIN関数を用いる.
実践1:エクセルを用いた各種統計量の求め方
③ 範囲を求める関数は存在しない.最大値から最小値を引いて求める.
④
分散を求めるにはVAR関数を用いる.この関数はテキストp.20に説明さ
れている標本分散(sample variance)を計算する.
2
平均からの偏差平方和 ( X i X ) を,n-1でなくnで割った分散を求めるに
は,VARP関数を使う.

実践1:エクセルを用いた各種統計量の求め方
⑤ 標準偏差を求めるにはSTDV関数を用いる.この関数はテキストp.20に
説明されている標本分散(sample variance)の,正の平方根である.VARP関
数で求めた分散の正の平方根として標準偏差を求めるならば,STDEVP関数
を用いる.
⑥
最頻値を求める関数はMODEである.
実践1:エクセルを用いた各種統計量の求め方
⑦ 中央値はMEDIAN関数で求める.この関数は,測定値を大きさの順に並
べ,その中央にある値を返す.
⑧
四分位範囲を求めるために,第1四分位数と第3四分位数を求める.こ
れにはQUARTILE関数を用いる.この関数は,データが入力されたセル範囲
の指定にくわえ,「戻り値」という値を指定する.0は最小値,1は第1四分位
数,2は第2四分位数(中央値),3は第3四分位数,4は最大値を返す.第3
四分位数と第1四分位数を求めたら,引き算して四分位範囲を求める.
戻り値
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 1 総度数を記録しておきます.数値を入力してもよいです
が,下図では度数分布表での各階級の度数を合計しています.
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 2 分散の計算には平均からの偏差平方和が必要です.その
ため,最初に平均を計算しておきます.分類されたデータでは,
各階級に属する測定値は,すべてその階級値をとったものと考
えます.たとえば,最初の階級では,血圧が95の人が2人いたと
考えます.そこで,階級値と度数の積を計算します.
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 3 階級値と度数の積をすべての階級にわたって合計します.
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 4 いま求めた合計値を,総度数で割ります.これが,分類
されたデータから求めた平均値になります.
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 5 各階級での,平均からの偏差の2乗を求めます.測定値
は階級値に置きかえられていますので,階級値から平均値を引
いて2乗します.その値に階級の度数をかけます.そして偏差
平方和を求めます.
実践2:分類されたデータからの分散の計算
章末問題28のデータを用いて,度数分布表に分類されたデータから分散
の計算を行う方法を説明します.
Step 6 各差平方和を,総度数から1を引いた数(ここでは49)
で割ると,分散が求められます.整数で測定されたデータでは,
統計量(平均,分散,標準偏差など)は小数点以下第1位まで求
めてください.この問題では287.0です.
演習課題
(2)章末問題29のデータを用いて,度数分布表に分類されたデー
タから分散の計算を行おう。
レポート内容:
 課題(1)の答えを解答用紙(1)に書いてください。
 課題(2)の答えを解答用紙(2)に書いてください。
名前と学籍番号をご記入のうえ、解答用紙(A4)を提出する。
提出先:工学部電子情報実験研究棟5階
締め切り時間:
NO.5506室のドアのポストに入れてください
再来週月曜日(5月11日) 午後5時まで
尚、講義用パワーポイントは
http://www3.u-toyama.ac.jp/tanglab/content51/content51.htmlからダウンロードできる。