Transcript ppt

第6章 判別分析
判別分析とは
複数の母集団を設定して,あるサンプルがどの母集団に属
するのかを推定する方法
被説明変数 :質的変数
説明変数
:量的変数
説
明
変
数
被説明変数
量的変数 質的変数
量的変数
質的変数
判別分析
7.1 適用例と解析ストーリー
(1)適用例と解析の目的
例:健常者/患者?
検査値1 x1,検査値2 x2
表7.1
検査値1検査値2
サンプルNo. 診断
x1
x2
y
1
健常者
50
15.5
2
健常者
69
18.4
3
健常者
93
26.4
4
健常者
76
22.9
5
健常者
88
18.6
6
患者
43
16.9
7
患者
56
21.6
8
患者
38
12.2
9
患者
21
16.0
10
患者
25
10.5
健常者
患 者
30.0
25.0
20.0
15.0
10.0
5.0
0.0
0
20
40
60
80
100
(2)判別分析の解析ストリー
(1) 健常者を母集団[1],患者を母集団[2]とする.各母集
団における確率分布を母平均が異なる正規分布と想定する.
サンプルから母集団の中心(平均値)へのマハラノビスの
距離の2乗値の小さい方へ判別する.
(2) 誤判別確率を求め,判別方式の精度を評価する.
(3) 変数選択を行い,有用な変数を選択する.
(4) 得られた判別方式を利用して,どちらの母集団に属する
のか
不明なサンプルの判別を行う.
7.2 説明変数が1個の場合の解析方法
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
μ1
μ2
85
82
79
76
73
70
67
64
61
58
55
52
49
46
43
37
34
31
28
(μ1 +μ2 )/2
25
22
19
16
13
10
7
4
1
0
40
0.05
7.2 説明変数が1個の場合の解析方法
(1)マハラノビスの距離と判別式
z (1[1]  1[2] )(x1  1)
(2) 誤判別の確率
0.45
0.4
0.35
0.3
0.25
系列1
系列2
0.2
0.15
0.1
0.05
モデル
健常者 患者
b
実 健常者 a
際 患者
c
d
合計 誤判別率
a+b
b/(a+b)
c+d c/(c+d)
101
97
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
33
29
25
21
17
13
9
5
1
0
(2) 誤判別の確率
x*  1
1
2  x*
 2
 2 1  12
x  1   2
*
(3) 変数選択
pp.106
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
②変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
(4) 得られた判別式の利用
7.3 説明変数が2個の場合の解析方法
(1)マハラノビスの距離と判別方式
2つの集団の分散,共分散が等しい場合(線形判別式)
母集団[1]におけるx=[x1,x2]’の確率分布として
正規分布N(μ[1],Σ)を仮定する
[1]


11 12 
[1]
1 
   [1] ,   



 21 22 
2 
同様に母集団[2]におけるx=[x1,x2]’も仮定する
[ 2]


11 12 
[ 2]
1 
   [2] ,   




 21 22 
 2 
注)2集団(群)の分散・共分散は同じ
(1)マハラノビスの距離と判別方式
 11  12 
   12
22 
 

マハラノビスの距離の2乗
[ k ]2
D
 (x  μ[ k ] )' 1 (x  μ[ k ] )
1
11 12 




 21 22 
[k ]
11
12



x




[k ]
[k ]
1
1 
 [ x1  1 , x2  2 ] 12
[k ] 
22  
   x2  2 

 ( x1  1[ k ] )2 11  ( x2  2[ k ] )2 22  2( x1  1[ k ] )(x2  2[ k ] ) 12
2
2
  ( xi  i[ k ] )(x j  [jk ] ) ij
i 1 j 1
2つの母集団から等しい距離の集合=判別直線
[1] 2
D
[ 2] 2
D
(x  μ[1] )' 1 (x  μ[1] )  (x  μ[ 2] )' 1 (x  μ[ 2] )
(1)マハラノビスの距離と判別方式
判別直線
(x  μ[1] )' 1 (x  μ[1] )  (x  μ[ 2] )' 1 (x  μ[ 2] )
 11  12   x1  1 
[   ,    ] 12
0
22  
   x2  2 

11
12

  x1  1 


[1]
[ 2]
[1]
[ 2]
z  [ 1  1 , 2  2 ] 12
を線形判別関数と定義
22  
   x2  2 

[1]
1
[ 2]
1
[1]
2
[ 2]
2
z  0  D[1]2  D[ 2]2  母集団[1]に属する
z  0  D[1]2  D[ 2]2  母集団[2]に属する
1 [1]
1 [1]
[ 2]
ただし, 1  (1  1 ), 2  (2  2[2] )
2
2
判別直線の求め方
( x1  1[1] )2 11  ( x2  2[1] )2 22  2( x1  1[1] )(x2  2[1] ) 12
 ( x1  1[2] )2 11  ( x2  2[2] )2 22  2( x1  1[2] )(x2  2[2] ) 12
(x  2 x   )  (x2  2 x   )2 22  2(x1x2  1[1] x2  x12[1]  1[1]2[1] ) 12
2
1
2
1
[1]
1 1
[1]2
1
[1]2
1
11
2
[1]
2 2
[1]2
2
[ 2]2
2
[1]
2
[ 2]
2
 (x  21[1] x1   ) 11  (x22  22[2] x2   )2 22  2(x1x2  1[2] x2  x12[2]  1[2]2[2] ) 12
 2(1[1] 11  2[1] 12) x1  2(  22  1[1] 12) x2  21[1]2[1]
 2(1[2] 11  2[2] 12) x1  2(  22  1[2] 12) x2  21[2]2[2]
(1[1] 11  2[1] 12) x1  (2[1] 22  1[1] 12) x2  1[1]2[1]
 (1[2] 11  2[2] 12) x1  (2[2] 22  1[2] 12) x2  1[2]2[2]
((1[1]  1[2] ) 11  (2[1]  2[2] ) 12) x1  ((2[1]  2[2] ) 22  (1[1]  1[2] ) 12) x2  1[1]2[1]  1[2]2[2]  0
11
12

  x1  1 


[1]
[ 2]
[1]
[ 2]
[1  1 , 2  2 ] 12
0
22  
   x2  2 

(2) 誤判別の確率
δ  μ[1]  μ[2] と定義
1
δ
'

δ
xがN (μ[1], )に従うとき, zはN (
, δ' 1δ)に従う ( p.116)
2
本当は母集団[1]に属するのに母集団[2]と判定される確率=Pr(z<0)
z - δ' 1δ / 2 0 - δ' 1δ / 2
Pr(z  0)  Pr(

)
1
1
δ'  δ
δ'  δ
 Pr(u   δ' 1δ / 2)
 Pr(u  δ' 1δ / 2)
本当は母集団[2]に属するのに母集団[1]と判定される確率も同様
判別効率
pp.115
(3) 変数選択
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
②変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
7.4 行列とベクトルによる表現