潜在クラス分析入門

Download Report

Transcript 潜在クラス分析入門

潜在クラス分析入門
山口和範
内容

条件付独立





シンプソンのパラドックス
対数線形モデルにおける表現
局所独立
潜在変数モデル
Lem入門
簡単に復習を…

クロス集計表における独立性の検定



c2検定
独立期待度数
3元表、多元表



集計表の併合
併合可能性
条件付独立
条件付き分布

2つの変数X, Yがあり、X = x となる場合に
のみYの分布を考えたとき、その分布を
X = x があたえられたときの
Yの条件付き分布という
クロス集計表
x1
x2
x3
計
y1
10
15
10
35
y2
15
10
5
30
y3
5
15
5
25
計
30
40
20
90
条件付き分布
変数X
Y
変
数
x1
x2
x3
計
y1
10
15
10
35
y2
15
10
5
30
y3
5
15
5
25
計
30
40
20
90
X=x2が与えられたときの、Yの条件付き分布
周辺分布
x1
x2
x3
計
y1
10
15
10
35
y2
15
10
5
30
y3
5
15
5
25
計
30
40
20
90
同時分布
x1
x2
x3
計
y1
10
15
10
35
y2
15
10
5
30
y3
5
15
5
25
計
30
40
20
90
独立

2つの変数が独立であれば、
周辺分布は、いかなる条件付き分布とも
同じになる
積事象の確率
P(AB)

P(A|B) :


= P(A) P(B|A)
= P(B) P(A|B)
Bの下でのAの条件付確率
P(B|A) :

Aの下でのBの条件付確率
事象AとBが独立
P(AB) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
独立性の検定

観測度数と独立期待度数の比較
a
b ( nij  eij )
c   
2
eij
i 1 j 1
ただし、
eij 
nin j
n..
2
p 値の計算と検定結果


検定統計量の分布は、自由度(a-1)(b-1)の
c2分布
c2分布の分布点を求める関数
=CHIDIST(c2 , df)
p値を設定された有意水準(通常は5%)と比
較し、p値が小さい場合は独立でないと判
断する
3元表の分析
B 商品購入
性別
女
A 商品購入あり
あり
なし
計
あり
15
4
19
なし
64
16
80
79
20
99
あり
19
90
109
なし
2
10
12
男 計
21
100
121
計
100
120
220
女 計
男
ちょっとここでLemを
man
dim
lab
mod
dat
3
2 2 2
S A B
{SAB}
[…]
B 商品購入
性別
女
A 商品購入あり
あり
なし
計
あり
15
4
19
なし
64
16
80
79
20
99
あり
19
90
109
なし
2
10
12
男 計
21
100
121
計
100
120
220
女 計
男
ちょっとここでLemを
man
dim
lab
mod
dat
3
2 2 2
S A B
{SAB}
[15 4 64 16
19 90 2 10]
B 商品購入
性別
女
A 商品購入あり
あり
なし
計
あり
15
4
19
なし
64
16
80
79
20
99
あり
19
90
109
なし
2
10
12
男 計
21
100
121
計
100
120
220
女 計
男
Model の改良1
man
dim
lab
mod
dat
3
2 2
S A
{SA
[15
19
2
B
SB AB}
4 64 16
90 2 10]
B 商品購入
性別
女
A 商品購入あり
あり
なし
計
あり
15
4
19
なし
64
16
80
79
20
99
あり
19
90
109
なし
2
10
12
男 計
21
100
121
計
100
120
220
女 計
男
Model の改良2
man
dim
lab
mod
dat
3
2 2
S A
{SA
[15
19
2
B
SB}
4 64 16
90 2 10]
B 商品購入
性別
女
A 商品購入あり
あり
なし
計
あり
15
4
19
なし
64
16
80
79
20
99
あり
19
90
109
なし
2
10
12
男 計
21
100
121
計
100
120
220
女 計
男
例題データ用のモデル
A
S
条件付独立
B
結果

AとBには連関あり

男性のみでのAとBは連関なし

女性のみでのAとBは連関なし
グループを併合すると
相関が生じる例
相関なし(女性のみ)
相関なし(男性のみ)
もし、Sが潜在変数であれば…
man
dim
lab
mod
dat
3
2 2
S A
{SA
[15
19
2
B
SB}
4 64 16
90 2 10]
lat
man
dim
lab
mod
dat
1
2
2 2
S A
{SA
[34
2
B
SB}
94 66 26]
潜在変数モデル
A
S
局所独立
B
併合と分割
15
4
19
90
34
94
64
16
2
10
66
26
分割は?
併合と分割
15
4
19
90
34
94
64
16
2
10
66
26
独立に近い表に
分けることは一意!?
分割は?
Lemの出力
*** LATENT CLASS OUTPUT ***
A
A
B
B
1
2
1
2
S 1
0.4970
0.9115
0.0885
0.1171
0.8829
S 2
0.5030
0.2561
0.7439
0.7879
0.2121
同時確率
*** (CONDITIONAL) PROBABILITIES ***
* P(SAB) *
1
1
1
1
2
2
2
2
1
1
2
2
1
1
2
2
1
2
1
2
1
2
1
2
0.0531
0.3999
0.0051
0.0388
0.1015
0.0273
0.2948
0.0794
(0.0334)
(0.0502)
(0.0058)
(0.0240)
(0.0493)
(0.0269)
(0.0281)
(0.0398)
条件付確率:Pr(A|S)、Pr(B|S)
*** LATENT CLASS OUTPUT ***
A
A
B
B
1
2
1
2
S 1
0.4970
0.9115
0.0885
0.1171
0.8829
S 2
0.5030
0.2561
0.7439
0.7879
0.2121
同時確率と条件付確率

Pr(SAB)=Pr(AB|S)Pr(S)

もし、条件付独立(局所独立)であれば、
Pr(SAB)=Pr(A|S)Pr(B|S)Pr(S)
Lemの出力
*** LATENT CLASS OUTPUT ***
A
A
B
B
1
2
1
2
S 1
0.4970
0.9115
0.0885
0.1171
0.8829
S 2
0.5030
0.2561
0.7439
0.7879
0.2121
・・・
Pr(S)
・・・
Pr(A|S)
・・・
Pr(B|S)
注意:観測変数が2つしかないのでモデルの識別可能性はない。あくまで理解のための例題!
EM体験を

Excelで手作業EMを
EMで計算したこと

E-step

完全データを作成


これは、尤度が完全データの線形関数なので
M-step

完全データから単純集計を

(局所)独立であるので、クロス集計の必要なし
E-stepの計算の中で
Pr(S=1|AB)
=Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB))
Bayesの定理
P( A1 ) P( X | A1 )
P( A1 | X ) 
P( A1 ) P( X | A1 )  P( A2 ) P( X | A2 )
E-stepの計算の中で
Pr(S=1|AB)
=Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB))


観測されたパターンが各クラスに属する可能性
を計算
事後確率、帰属確率、ファジークラスタリングの
重み
Lemの例題で本格的なLCAを
LCAの定式化
 ijklt   
X
t
A| X
it

B| X
jt

C| X
kt

D| X
lt
E-step
 ABCDX
n *ijklt
 [n *
ABCDX
ijklt
n
ABCD
ijkl
ABCD
ijkl
|n
 
X
t
T

t 1
X
t
A| X
it


A| X
it
; ,
X
t
B| X
jt


B| X
jt
C| X
kt

A| X
it

C| X
kt
,
D| X
lt

D| X
lt
B| X
jt
,
C| X
kt
,
D| X
lt
]
M-step(単純集計)
1
ˆ 
N
X
t
n*
ABCDX
ijklt
i , j , k ,l
n*
n*
ABCDX
ijklt
ˆ
A| X
it

j , k ,l
ABCDX
ijklt
i , j , k ,l
n*
n*
ABCDX
ijklt
,  , ˆ
D| X
lt

i , j ,k
ABCDX
ijklt
i , j , k ,l
LCAの実践において

クラス数の決定



適合度
情報量規準によるモデル選択
クラスの解釈


反応確率
事後的な集計
適合度

観測度数 VS 期待度数

観測変数すべてのクロス集計表上で…

もし、2値型変数が10個あれば、セルの数
は1024(=210)