クリック - ODN

Download Report

Transcript クリック - ODN

多変量データ分析B 第4回
第2章:モニタリング
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.5.12. SFC5限
第2章 モニタリングⅢ
1/39
第2章 モニタリング
目次
2.4 二変量の関係(2) -共に質的変量の場合ー
2.4.1
2.4.2
2.4.3
2.4.4
クロス集計とモザイク図
独立性と連関性
ピアソンのカイ2乗検定(独立性検定)
質的変量の連結
2.6 多変量の関係 -共に量的変量の場合-
2.6.1 層別散布図
2.6.2 散布図行列と相関係数行列
2.6.3 マハラノビスの距離
第2章 モニタリングⅢ
2/39
質的変量の関係:ポイント
2つの質的変量データ
サンプル
性別:x
成績:y
1
男
良
2
女
優
3
男
不可
1)基本特計量は計算できない
比率(頻度)に着目する
性別
男
・
女
・
計
i
女
良
・
n11 n12 n13 n14 n1
n21 n22 n23 n24 n2
n1 n2 n3 n4 n  n
2)ピアソンχ2統計量
a
・
n
成績
計
優 良 可 不可
女
可
アイテム(項目) カテゴリ-
性別
男,女
成績
優,良,可,不可
b
02   
i 1 j 1
期待度数: mij 
 nij  mij 
2
mij
ni  n j 行合計 列合計

n
総合計
3)クラメール関連係数
V
第2章 モニタリングⅢ
02
n min  a, b 1
0 V 1
3/39
2.4 二変量の関係(2) 共に質的変量
モザイク図にて,出現比率の違いを観察する
クロス集計表にて,数量的に判断する
扱うデータファイルは「車の調査」
(サンプルデータ)
独立性
独立性と量的変量の無相関とは対応する
「独立性がない」は「相関がある」に対応する
第2章 モニタリングⅢ
4/39
2.4.1 クロス集計とモザイク図 1/4
生産国で顧客に特徴があるかを調べるには
ˆê•Ï— Ê‚Ì•ª•z
«•Ê

Šù
¥/–¢
¥
’j
«
–¢
¥
—

«
Šù
¥
¶ŽY

‘
ƒTƒCƒY
ƒ^ƒCƒv
•Ä
‘
‘åŒ^
ƒ
[ƒN

“ú–{
’†Œ^
ƒtƒ@ƒ~ƒŠ
[
ƒˆ
[ƒ
ƒbƒp
¬Œ^

ƒXƒ|
[ƒc
“x
”
“x
”
“x
”
…

€
“x
”
Š„
‡
…

€
“x
”
Š„
‡
…

€
—

«
138 0.45545 Šù
¥
196 0.64686 ƒˆ
[ƒ
ƒbƒp
’j
«
165 0.54455 –¢
¥
107 0.35314 “ú–{
‡Œv

303 1.00000 
‡Œv
303 1.00000 •Ä
‘
‡Œv

Œ‡‘ª’lN
0
Œ‡‘ª’lN
0
2
…
€
2
…
€
Œ‡‘ª’lN
3
…
€
“x
”
40
148
115
303
0
Š„
‡
0.13201
0.48845
0.37954
1.00000
“x
”
…

€
“x
”
¬Œ^

137
’†Œ^
124
‘åŒ^
42
‡Œv

303
Œ‡‘ª’lN
0
3
…
€
Š„
‡
0.45215
0.40924
0.13861
1.00000
“x
”
…

€
“x
”
ƒXƒ|
[ƒc
100
ƒtƒ@ƒ~ƒŠ
[
155
ƒ
[ƒN

48
‡Œv

303
Œ‡‘ª’lN
0
3
…
€
Š„
‡
0.33003
0.51155
0.15842
1.00000
図2.30 車の調査のヒストグラム
ここをクリックすると,他のヒストグラムとリンクして日本車
がどのような顧客に購入されているか分るかも知れない
着眼点は,構成比率のパターンの違い
だとすると,他の生産国と比較することが極めて重要
第2章 モニタリングⅢ
5/39
2.4.1 クロス集計とモザイク図 2/4
データ分析でやった車の調査のデータ
スポーツ ファミリー ワーク 小計
119
32
196
既婚 45
未婚
小計
55
100
36
155
16
48
107
303
表のデータが無作為に得られたとすると,
①車の種類の比率が母集団の比率
②未既婚の比率が母集団の比率
問題は車のタイプと未既婚が互いに無関係かどう
か?
①関係があるとするとどの程度かわからない
②関係が無いとするほうが簡単
第2章 モニタリングⅢ
6/39
練習問題 1/2
既婚
未婚
スポーツ ファミリー
45
119
55
36
ワーク
32
16
小計
196
107
小計
100
48
303
155
互いに無関係であるときの比率を計算してみよ
スポーツ
既婚
ファミリー
ワーク
100×196/303^2=
0.2135
未婚
0.1165
小計
0.33
小計
0.65
0.0560
0.51
第2章 モニタリングⅢ
1.000
7/39
練習問題 2/2
この理想状態(帰無仮説)での頻度を計算する
スポーツ ファミリー ワーク 小計
196
既婚
未婚
小計
48
303
カイ2乗を計算する
a
b
02   
i 1 j 1
 nij  mij 
2
mij
2
2
45  64.686 119 100.264




64.686
100.264
答え:
第2章 モニタリングⅢ
8/39
2.4.1 クロス集計とモザイク図 3/4
2元のモザイク図で調べよう
•ªŠ„•\
¶ŽY

‘‚ƃTƒCƒY‚Ì•ªŠ„•\‚ɑ΂·‚镪
Í
ƒ‚ƒUƒCƒN
}
4
2
‘åŒ^
54
ƒTƒCƒY
0.75
36
17
’†Œ^
0.50
53
92
0.25
¬Œ^

19
0.00
ƒˆ
[ƒ
ƒ bƒp
26
“ú–{
•Ä
‘
¶ŽY

‘
ŽY
¶
‘
1.00
“x
”
¬Œ^

‘S‘Ì%
—ñ%
s%

ƒˆ
[ƒ
ƒ bƒp
19
6.27
13.87
47.50
“ú–{
92
30.36
67.15
62.16
•Ä
‘
26
8.58
18.98
22.61
137
45.21
ƒTƒCƒY
’†Œ^ ‘åŒ^
17
5.61
13.71
42.50
54
17.82
43.55
36.49
53
17.49
42.74
46.09
124
40.92
4
1.32
9.52
10.00
2
0.66
4.76
1.35
36
11.88
85.71
31.30
42
13.86
40
13.20
148
48.84
115
37.95
303
図2.31 モザイク図とクロス集計表
帯の太さから,生産国の構成比率が可視化できる
各ブロック(セル)の面積が頻度に対応
第2章 モニタリングⅢ
9/39
2.4.1 クロス集計とモザイク図 4/4
クロス集計表について
ŽY
¶
‘
•ªŠ„•\
“x
”
¬Œ^

‘S‘Ì%
—ñ%
s%

ƒˆ
[ƒ
ƒ bƒp
19
6.27
13.87
47.50
“ú–{
92
30.36
67.15
62.16
•Ä
‘
26
8.58
18.98
22.61
137
45.21
列和
ƒTƒCƒY
’†Œ^ ‘åŒ^
行和
17
5.61
13.71
42.50
54
17.82
43.55
36.49
53
17.49
42.74
46.09
124
40.92
4
1.32
9.52
10.00
2
0.66
4.76
1.35
36
11.88
85.71
31.30
42
13.86
40
13.20
148
48.84
115
37.95
度数 :セルの度数,行/列の周辺度数,合計度数
全体%:セルの度数,行/列の合計度数が合計度数に占める割合
列% :セルの度数が列の合計度数に占める割合
行% :セルの度数が行の合計度数に占める割合
期待値:二変量が独立との仮定下で計算された各セルの期待度数(E)
(対応する行合計と列合計の積を全体合計で割った値)
偏差 :実際のセル度数(O)から期待値(E)を引いたもの
(独立性の仮説から外れた値)
セルのカイ 2 乗:(O-E)2/E で求めた各セルのカイ 2 乗
(この総和がピアソンのカイ 2 乗)
303
第2章 モニタリングⅢ
10/39
カテゴリの並べ替え
JMPではコンピュータのコード値により,グラフのカテゴリの
表示順が決定される
分析者は,分りやすいグラフを作成したいのであればJMP
に順序を知らせる必要がある
【操作 2.12:カテゴリの並べ替え】
①グラフで表示されるカテゴリの順番を変更するために,データテーブルの変
量名をクリックして,”列(C)”メニューの“値のチェック”から“リストチェ
ック”をクリックする.
②表示されたウインドウで,“上へ移動”ボタン,“下へ移動”ボタンを使い,
カテゴリの表示順番を決める.
③“OK”ボタンをクリックし,モザイク図などを描画する.
図2.32 カテゴリのリストチェック
第2章 モニタリングⅢ
11/39
2.4.2 独立性と関連性 1/2
2つの変量間に関連があること
行カテゴリの構成比率が列のカテゴリによって異なること
相互作用があるということ
独立であること
行カテゴリの構成比率が列のカテゴリによらず変わらないこと
ならば,行のカテゴリをまとめてしまえばよい
すなわち,列側の構成比率(1変量)でみればよい
第2章 モニタリングⅢ
12/39
2.4.2 独立性と関連性 2/2
JMPの出力
ŒŸ’è
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x(-1)*‘Ώ
”–Þ“x
R2
æ(U)
4
36.30962 0.1200
297
266.21700
301
302.52662
303
2倍
ƒJƒC2
æp’l(Prob>ChiSq)
72.619
<.0001
66.313
<.0001
このp値で判断
図2.32 独立性検定と尤度比検定
JMPの検定は,基本的に対数線形モデルの尤度比検定
(この方法は授業では紹介しない)
JMPの検定にはもう1つPearson検定(独立性)がある
どちらの検定も大標本用のため,セル内の度数が少ないと
近似が悪くなり警告が発生される
第2章 モニタリングⅢ
13/39
2.4.3 ピアソンのカイ2乗検定 1/3
少し数理的内容
行和,列和,総和を∑(シグマ記号)で表すと
ni  ni1  ni 2 
n j  n1 j  n2 j 
n  n11  n12 
 nij 
 nij 
 nij 
b
 nib  nij
j 1
a
 naj   nij
i 1
a
b
 nab  nij
i 1 j 1
シグマ記号が2つ着くが恐れるべからず
意味:行(横)と列(縦)の全部を足して合わせて幾ら
第2章 モニタリングⅢ
14/39
2.4.3 ピアソンのカイ2乗検定 2/3
行と列の関連性は,度数でみるよりも
全体を1とした比率で見たほうが分りよいだろう
(モザイク図の思想)
表2.4 クロス集計表の確率
表2.3 クロス集計表
n2j
n2b
A2
p21 p22
p2j …
…
pij …
…
paj …
p2b p2+
p+j …
nab
na+
Aa
pa1 pa2
n+j
n+b
n
計
p+1 p+2
…
Ai
…
pi1
度数
pi2
…
n2+
…
p1b p1+
…
p1j …
ni b ni +
計
…
…
…
…
…
p11 p12
naj
…
…
n+1 n+2
A1
…
…
…
…
…
nij
na2
Bb
B1
…
ni 2
Bj …
…
n1+
…
…
ni 1
Aa na1
計
n1b
…
…
Ai
n1j
B2
…
n12
計
…
A2 n21
…
…
n12
Bb
Bj
…
A1 n11
…
…
B2
…
B1
p+b
1
pib
pi+
pab pa+
比率
第2章 モニタリングⅢ
15/39
仮説検定
帰無仮説:H0
すべての i と j に対して pij=pi+×p+j
対立仮説:H1
ある i と j に対して
pij≠pi+×p+j
厳密に考えれば,帰無仮説が生じることはまずない.
しかし,先に独立であることを考えて
そこから,どれくらい実際のデータが乖離しているかを
測定したのち,
その量が確率的に起こりうる可能性か否か
判断する
→標本誤差を持つパターンの違い:真の値は誰も分らない
16/39
第2章 モニタリングⅢ
期待度数 mij 1/2
期待度数とは,帰無仮説が厳密に成り立つとき
の度数
期待度数は小数点以下の値を持つ(正整数でない)
期待度数があるべき姿
実際の値は色々な都合でばらついている
その差異の大きさで判断
手が届く理想か(正しいとする姿:採択)
手が届かない理想か(夢物語なら理想を変えるか:棄却)
nの標本がある と き  Ai , Bj のセルに属する 厳密な個数はmij
第2章 モニタリングⅢ
17/39
期待度数 mij 2/2
n2j
n2b
A2
p21 p22
p2j …
…
pij …
…
paj …
p2b p2+
p+j …
nab
na+
Aa
pa1 pa2
n+j
n+b
n
計
p+1 p+2
…
Ai
…
pi1
pi2
…
n2+
…
p1b p1+
…
p1j …
ni b ni +
計
…
…
…
…
…
p11 p12
naj
…
…
n+1 n+2
A1
…
…
…
…
…
nij
na2
Bb
B1
…
ni 2
Bj …
…
n1+
…
…
ni 1
Aa na1
計
n1b
…
…
Ai
n1j
B2
…
n12
計
…
A2 n21
…
…
n12
Bb
Bj
…
A1 n11
…
…
B2
…
B1
p+b
1
pib
pi+
pab pa+
周辺確率の決定
n j
行和/全体,あるいは列和/全体でよい.
ni
pi  , p j 
パターンの違いには関係しない
n
n
ni n j ni n j
 2
各セルの確率は周辺確率の積 pij  pi  p j  
n n
n
ni n j
期待頻度は mij  n  pij 
n
第2章 モニタリングⅢ
18/39
2.4.3 ピアソンのカイ2乗検定 3/3
•ªŠ„•\
ŒŸ’è
ŽY
¶
‘
ƒTƒCƒY
’†Œ^ ‘åŒ^
“x
”
¬Œ^

Šú‘Ò’l
•Î
·
ƒZƒ‹‚̃JƒC2
æ
ƒˆ
[ƒ
ƒ bƒp
19
17
4
18.085816.36965.54455
0.914190.63036-1.5446
0.0462 0.0243 0.4303
“ú–{
92
54
2
66.917560.567720.5149
25.0825-6.5677 -18.515
9.4016 0.7122 16.7098
•Ä
‘
26
53
36
51.996747.062715.9406
-25.997 5.9372920.0594
12.9975 0.7490 25.2425
137
124
42
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
40
ŒŸ’è
–Þ“x”ä
Pearson
148
Ž©—R“x(-1)*‘Ώ
”–Þ“x
R2
æ(U)
4
36.30962 0.1200
297
266.21700
301
302.52662
303
ƒJƒC2
æp’l(Prob>ChiSq)
72.619
<.0001
66.313
<.0001
115
総和
303
図2.34 実度数,期待度数など
残差平方和:実度数 - 期待度数  nij  mij 
i 1 j 1
出現頻度が違うので等分散化する
a
b
  
2
0
カイ2乗
i 1 j 1
a
n
 mij 
2
ij
mij
b
2
2
 nij  mij 



m
i 1 j 1 
ij


a
b
標準化変量の2乗和
第2章 モニタリングⅢ
19/39
2.4.4 質的変量の連結
JMPの計算式の利用
0.75
ƒ^ƒCƒv
•ƒTƒCƒY
ƒ‚ƒUƒCƒN
}
1.00
ƒ
[ƒN’†Œ^

ƒ
[ƒN‘åŒ^

ƒ
[ƒN

¬Œ^
–¢
¥’j
«
ƒtƒ@ƒ~ƒŠ
[’†Œ^
ƒtƒ@ƒ~ƒŠ
[‘åŒ^
0.50
ƒtƒ@ƒ~ƒŠ
[
¬Œ^
Šù
¥/–¢
¥
•
«•Ê
ƒ‚ƒUƒCƒN
}
1.00
0.75
–¢
¥
—
«
0.50
Šù
¥’j
«
0.25
•Ä
‘
ƒ
[ƒN‘åŒ^

ƒ
[ƒN’†Œ^

ƒ
[ƒN

¬Œ^
ƒtƒ@ƒ~ƒŠ
[’†Œ^
ƒˆ
[ƒ
ƒbƒp “ú–{
ƒtƒ@ƒ~ƒŠ
[‘åŒ^
0.00
ƒXƒ|
[ƒc’†Œ^
ƒXƒ|
[ƒc
¬Œ^
0.00
ƒXƒ|
[ƒc‘åŒ^
ƒXƒ|
[ƒc‘åŒ^
ƒXƒ|
[ƒc
¬Œ^
0.25
ƒtƒ@ƒ~ƒŠ
[
¬Œ^
Šù
¥
—
«
ƒXƒ|
[ƒc’†Œ^
ƒ^ƒCƒv
•ƒTƒCƒY
¶ŽY

‘
図2.35 生産国とタイプ&サイズのモザイク図
図2.37 練習問題2.2-③のモザイク図
関数群の文字関数からCONCAT関数を使う
第2章 モニタリングⅢ
20/39
2.6 多変量の関係 1/2
1変量の分析:基本統計量
頻度の確認:ヒストグラム,度数表
・代表値
:平均値
・ちらばり
:平方和→分散(標準偏差)
範囲
・かたよりなど:歪み,尖り
2変量の関係:変量間の結びつき
変数1
変数2
関連性の指標
量的
量的
(ピアソン)相関係数
多変量の関係:変量間の結びつき
・散布図行列,相関係数行列
・外れ値分析
第2章 モニタリングⅢ
21/39
2.6 多変量の関係 2/2
モニタリングの着眼点と活用する主なグラフ
調べる目的
ポイント
グラフ
1
変
量
・分布の形の確認
・欠測値,ゼロ値
・外れ値
・正規分布か
・層別の必要はあるか
・外れ値はあるか
・ヒストグラム
・正規分位点プロット
・箱ひげ図
2
変
量
・2次元分布の確認
・独立性の検討
・外れ値
・散布図
・モザイク図
・層別ヒストグラム
多
変
量
・多次元分布の確認
・独立性の検討
・外れ値
・相関関係や関連性は
あるか
・層別の必要はあるか
・外れ値はあるか
・特異な変量はあるか
・相関関係はあるか
・外れ値はないか
第2章 モニタリングⅢ
・散布図行列
・層別散布図
・外れ値分析
22/39
2.6.1 層別散布図
g ’·(ƒCƒ“ ƒ`)‚Æ‘ ̐

d (ƒ|ƒ“ ƒh)‚Ì“ñ•Ï—Ê‚ÌŠÖŒ W
ˆê•Ï—Ê‚Ì•ª•z
«•Ê

”N—î
17
180
M
16
160
15
‘̏
d(ƒ|ƒ“ƒh)
140
14
120
100
F
13
80
12
60
50
55
60
65
g’·(ƒCƒ“ƒ`)

“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950 
«•Ê=="F"
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950 
«•Ê=="M"
’¼
ü‚Ì‚ ‚Ä ‚Í‚ß 
«•Ê=="F"
’¼
ü‚Ì‚ ‚Ä ‚Í‚ß 
«•Ê=="M"
70
75
性別により直線の傾き
に差異があるかどうか
が焦点
図2.47 性別で層別した身長と体重の散布図
・2次元平面で,複数の層別因子(質的変量)の影響を
調べるには,層別散布図が有効
・あやめ.JMPの種類で層別した散布図を思い起こそう
第2章 モニタリングⅢ
23/39
あやめの問題 1/3
層別
データ全体から幾つかのグループに分類(層別)したとき
分類毎に散布図を作ると“ものの本質”が分かる
層別
無相関
異なるグループを混ぜると
相関が消える
第2章 モニタリングⅢ
強い相関
強い相関
24/39
あやめの問題 2/3
第2章 モニタリングⅢ
25/39
あやめの問題 3/3
‚ª‚­‚Ì’·‚³‚Æ‚ª‚­‚Ì•
‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
Setosa領域
‚ª‚-‚Ì•
4.0
3.5
新しいデータ1
Setosaの95%確率楕円内
Virginica,Versicolorの
95%確率楕円の外
3.0
このデータは,Setosaと
考えるのが妥当であろう
2.5
2.0
それ以外
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚-‚Ì’·‚³
“ñ•Ï—ʏ
³‹K‘ȉ~ P=0.950 Ží—Þ=="setosa"
Setosa以外だが,Virginicaか
Virginicaの可能性が高い
“ñ•Ï—ʏ
³
‹K‘ȉ~
P=0.950
Ží—Þ=="versicolor"
Versicolorかまでは分からない
“ñ•Ï—ʏ
³‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
第2章 モニタリングⅢ
26/39
2.6.2 散布図行列と相関係数行列
‘½•Ï—Ê
‘ŠŠÖ
F

·‚`
1.0000
0.1466
0.1460
0.1364
0.1480

F
·‚`
F

·‚a
F

·‚b
F

·‚c
F

·‚d
F

·‚a
0.1466
1.0000
0.3734
0.1442
-0.0077
F

·‚b
0.1460
0.3734
1.0000
0.8218
0.6624
F

·‚c
0.1364
0.1442
0.8218
1.0000
0.9576
F

·‚d
0.1480
-0.0077
0.6624
0.9576
1.0000
ŽU•z 
}
s—ñ
15
10
25
1
22 22
1
25
1
1
25 22
22 1
22
1
25
22
F

·‚`
5
55
221
50
22
1
F

·‚a
45
25
25
25
25
40
60
1
1
1
50
1
F

·‚b
25
40
35
60
50
40
30
20
25
22
22
1
22
25
50
40
30
20
10
25
221
25
5
10
15
25
1
22 22
22
40 45 50 55 35
22
1
25
1
25
45
1
25 22
F

·‚c
1
22 22
25
25
22 1
25
55
F

·‚d
65 20 30 40 50 60 10 20 30 40 50
図2.48 色差Aから色差Eの散布図行列など
第2章 モニタリングⅢ
27/39
2.6.3 マハラノビスの距離 1/12
マハラノビス(Mahalanobis インドの天才)
インド統計研究所の設立者:偉大な統計学者
マハラノビスの汎距離
1936年にマハラノビスが確率
カイ2乗分布に基ずく距離を提
唱した.
判別分析を解説する際によく出てくるが
それが本質ではない.
実際.回帰分析,多の多変量解析でも
その概念が広く使われている点に注意!!
第2章 モニタリングⅢ
28/39
2.6.3 マハラノビスの距離 2/12
個体間の距離を考える
A
1変量の場合
B C
D
普通(ユーグリッド距離と言います)に考えれば
AとBの距離 と CとDの距離は同じである
A
B C


D
出現確率が等しいを距離と考えると,分布状況により
ユーグリッド距離が等しい = 同じ出現確率
AB=CD
Pr  A  x  B  Pr C  x  D
AからBの方が確率的に遠い
第2章 モニタリングⅢ
29/39
2.6.3 マハラノビスの距離 3/12
少し数学的ですが…1次元では
ある特性は,平均μ,分散σ2の正規分布に従うとする
(モデルの世界)
ある値,xが得られたときに,それが全体でどのあたり
に位置するかは…

x 
 のと き df  1
  
2
2
-4
6
16
26
X(実尺度)
0.4
0.35
0.3
0.25
0.2
0.0014
0.0214
0.05
0.3413
0.1
0.1359
0.15
0.3413
平均から,どれほど離れてい
るかを向きを考えずに評価す
るならばu2を求める.u2は自由
度1のカイ2乗分布からの実現値
 2  
-14
0.45
0.1359

N  0,1
2
Prob.
u
x
0.0014
0.0214
0
-6
-5
-4
2
 x1  1   x2  2 
 +
 のと き df  2



1
 
2

-3
-2
-1
0
1
2
3
4
5
6 Z(標準化)
x
2  
第2章 モニタリングⅢ
30/39
2.6.3 マハラノビスの距離 4/12
色差のデータ
印刷機の印刷条件を変えて,同じカラー原稿を印刷
し色の差(基準色からのユーグリッド距離)を測っ
てみる.
原稿は,どんなものがやってくるかわからない(お
客さま次第である)
アイドル写真の印刷(肖像権があるのでむやみ印
刷できません)から,JMPのグラフの出力まで様々
ここでは,ある印刷機のくせを考えてみよう
第2章 モニタリングⅢ
31/39
2.6.3 マハラノビスの距離 5/12
相関係数r=0の場合
どの向きに対しても点
が存在する確率は同じ
O
O
A
B
相関係数r=0の場合
B
A
∴OA=OB
存在する確率は違う
O
B
A
∴OA≠OB
第2章 モニタリングⅢ
32/39
2.6.3 マハラノビスの距離 6/12
少し数学的ですが…2次元では
①2つの特性が無相関(独立のとき)
u1 
x1  1
1
, u2 
x2  2
2
から ,2次元で平均から どれだけ
離れている かは距離の2乗から
u12  u22
で評価でき る . こ の量は自由度
2のカイ2乗分布から の実現値
u2
u12  u22
u1
②では,2つの特性間に無視できない相関があったときは
どうするか?
第2章 モニタリングⅢ
33/39
2.6.3 マハラノビスの距離 7/12
単純にユーグリッド距離
直角三角形の斜辺の距離
三平方の定理から
原点(平均ベクトル)から#1の
距離は
横軸の距離の2乗+縦軸の距
離の2乗の平方根
原点(平均ベクトル)から#22
の距離は
横軸の距離の2乗+縦軸の距
離の2乗の平方根
65
60
55
50
45
40
35
30
25
20
0
1
·‚b
F
2次元で考える
22
10 20 30 40 50 60 70
F·‚c

図2.50
OA2   x#1,1  x1    x#1,2  x2 
2
OA 
2
OB2   x#22,1  x1    x#22,2  x2 
 x#1,1  x1    x#1,2  x2  OB 
2
2
マハラノビスの距離
2
2
 x#22,1  x1    x#22,2  x2 
第2章 モニタリングⅢ
2
2
:面積
:距離
34/39
2.6.3 マハラノビスの距離 8/12
2次元で考える
測定単位に依存しないよう
に標準化する
2
2
 x x   x x 
OA   #1,1 1    #1,2 2 
 s1   s2 
2
2
 x#22,1  x1   x#22,2  x2 
2
OB  
 

s
s

1
 
2

2
·‚b
F
 x#1,1  x1   x#1,2  x2 
2
OA  
 

s
s

1
 
2

2
x 
x x   x
OB   #22,1 1    #22,2 2 
s1
s2

 

2
65
60 出現確率の等高線 1
55
50
45
40
35
22
30
25
20
0 10 20 30 40 50 60 70
F·‚c

図2.50
マハラノビスの距離
2
第2章 モニタリングⅢ
35/39
2.6.3 マハラノビスの距離 9/12
出現確率の影響を考慮する
2次元正規分布を考える
相関がある場合は,同じユーグリッ
ド距離でも確率楕円の長軸方向に
ある点の方が出現確率が小さい
u1 
x1  x
:このような記号を使う
s1
u  u  2ru1u2
D 
1 r 2
2
2
1
2
2
65
60
55
50
45
40
35
30
25
20
0
1
·‚b
F
2次元で考える
22
10 20 30 40 50 60 70
F·‚c

図2.50
マハラノビスの距離
この式で計算された距離をマハラノビスの平方距離という
3次以上の高次の世界では,もっと式が複雑になる
36/39
第2章 モニタリングⅢ
2.6.3 マハラノビスの距離 10/12
等確率長円
重心からの距離Dの
等しい点の軌跡
2変量正規母集団の重心からの距離
 x1  1 
2
u1  


 1 
2
 x2  2 
2
u1  


 2 
2
u2  u12  u22 (ユークリッドの平方距離)
母相関ρを持っている
B
A
標準化変量
u2
Z1
Z2
0 μ2
・距離は無相関にして計算する
・相関係数を考慮して無相関になる方向を探す
座標を確率楕円の長軸方向
へ回転させると無相関になる
z1  u1  u2  / 2
z2  u1  u2  /
分散を1に調整すると
2
z12
z22
z12
z22
D 



V  z1  V  z2  1   1  
2
μ1
0
u1

1
2
2
u

u
 2u1u2 

1
2
2
1 
第2章 モニタリングⅢ
37/39
2.6.3 マハラノビスの距離 11/12
少し数学的ですが…行列表現の導入
 u1 
u 
 u2 
 1   -1
1  1  
Π
,Π 

1   2    1 
 1
 u1  u2 
1  1     u1 
1
u'Π u   u1, u2 

u ,u




2 
2  1 2 


u

u
1      1  u2  1  

1
2
1
1
2
2

u
u


u

u


u

u

u

2

u
u

u






2
2
1
2 
1 2
2
1  2 1 1
1  2 1
-1
一般に多次元では D2  u'Π-1u
多変量標準正規分布 f  x  
 1 2
exp
 D 
p
 2  | Π |  2 
1
D2は自由度pのカイ2乗分布(平均p,分散2p)に従う
問題は,Π の逆行列が存在するかいなか?
第2章 モニタリングⅢ
38/39
2.6.3 マハラノビスの距離 12/12
多変量での評価
JMPでは,外れ値解析にマハラノビスの距離を利用している.
色差のデータでは5次元の世界での距離を計算
ŠO‚ê’l•ª
Í
Mahalanobis‚Ì‹——£
5
22
‹——£
4
3
1
2
25
1
0
0
5
10
15
20
25
30
”ԏ
s
†
‹——£
ƒWƒƒƒbƒNƒiƒCƒt–@‚É‚æ‚é‹——£
15.0
12.5
10.0
7.5
5.0
2.5
0.0
22
1
0
対象個体(例#22)を
除いた状態で距離をつくり,
除いた対象を予測する.
集団から外れた個体はよ
り距離が遠く判定されるこ
とが多い
25
5
10
15
20
25
30
”ԏ
s
†
図2.49
外れ値分析
第2章 モニタリングⅢ
39/39