Transcript ppt

13.1 パス解析
(1)標準偏回帰係数
yi   0  1 xi1   2 xi 2   i
 i~N (0,  2 )
最小2乗法により偏回帰係数
を求めた。
ˆ1 , ˆ2
x1は長さであり、単位がcmで表示されている。
単位をmmで計算して偏回帰係数ˆ1 ' , ˆ2 '
を求めると、
1 ˆ ˆ
ˆ
1 '  1 ,  2 '  ˆ2
10
各変数の偏回帰係数の値を比較することに意味はない。
各変数を標準化して、求めた偏回帰係数のことを標準偏回帰
係数と呼ぶ。(定数項はいつも0となる)
(1)標準偏回帰係数
yの予測式 yˆ  ˆ0  ˆ1 x1  ˆ2 x2
 y  1 ( x1  x1 )  2 ( x2  x2 )
を変形すると
sx1 ( x1  x1 ) ˆ sx 2 ( x2  x2 )
y y
ˆ
  1
 2
sy
sy
sx1
sy
sx 2
標準偏回帰係数を用いた予測式 uˆ y  b1u1  b2u 2
sx1
sx 2
すると
ˆ
ˆ
b1  1 , b2   2
sy
sy
と比較
となり、標準偏回帰係数の大小を比較することには、意味が
ある。
(2)疑似相関と偏相関係数
x(身長)
100
100
学力試験の得点
学力試験の得点
80
80
z(年齢)
y = 1.5909x
高2・高3- 214.45
R=0.041
2
R = 0.3868R=0.208
中3・高1
60
y(学力)
中1・中2 R=0.180
60
40
40
20
20
0
0130
130
140
140
150
160
150 身長(cm)
160
身長(cm)
170
170
180
180
190
190
(2)疑似相関と偏相関係数
rxy  rxz ryz
偏相関係数 rxyz 
2
2
(
1

r
)(
1

r
xz
yz )
(13.8)
xを目的関数、zを説明変数として単回帰分析を行うと、
S xz
xˆi  x 
( zi  z )
S zz
S yz
同様に、
yˆ i  y 
( zi  z )
S zz
それぞれの回帰分析における残差は、
S yz
S xz
exi  xi  xˆi  ( xi  x ) 
( zi  z ), e yi  yi  yˆ i  ( yi  y ) 
( zi  z )
S zz
S zz
exi はzの影響を取り除いたxの変動部分を表し、
e yi
はz
exi e yi
の影響を取り除いたyの変動部分を表す。
と
の相
関係数は、zの影響を取り除いた実質的なxとyの相関係数
偏相関係数
x(身長) y(成績) z(年齢)
135
60
10
175
100
18
145
65
12
155
75
14
165
85
16
140
68
11
150
75
13
160
70
15
170
88
17
180
95
18
x(身長)
x(身長) 1.000
y(成績) 0.935
z(年齢) 0.996
rxyz 
y(成績)
z(年齢)
1.000
0.936
1.000
rxy  rxz ryz
(1  rxz2 )(1  ryz2 )
 0.108
(3) パスダイアグラムと線形構造方程式
X2
α21
α32
X1
線形構造方程式
α42
x2   21x1   2
X4
α41
α31
パスダイアグラム
X3
α43
x3   31x1   32 x2   3
x4   41x1   42 x2   43 x3   4
:因果関係または,時間的先行性を表すグラフ
「X1がX2,X3,X4がの原因である」または
「X1がX2,X3,X4よりも時間的に先行する」
パス係数
:つながりの強さを表す係数(αij)
各変数を標準化して偏回帰係数を求めれば,それがパス係数の推定量
(4)相関の分解
(13.15)式の両辺にx2をかけると、
x2 x4   41x1 x2   42 x22   43 x2 x3  x2 3
(13.16)
各変数が標準化されていたり、誤差と変数の独立性より、
E( xi2 )  1, E( xi x j )  ij , E( xi j )  0
(13.16)の期待値をとると
E ( x2 x4 )   41E ( x1 x2 )   42 E ( x22 )   43 E ( x2 x3 )  E ( x2 3 )
 24   4112   42   43  23
同様に(13.13)式にx1をかけて、期待値をとると、
12   21
(13.17)
(13.18)
(4)相関の分解
(13.14)式の両辺にx2をかけ期待値をとり、 (13.18)式に代
入すると、
 23   3112   32   31 21   32
(13.19)
24  (13.17)式に代入すると、
 42
  43 32
  21 41   21 43 31
これらを
(直接効果) (間接効果)
(疑似相関)
(相関係数)=(直接効果)+ (間接効果)+ (疑似相関)
【総合効果】=(直接効果)+ (間接効果)
(相関係数)= 【総合効果】+ (疑似相関)
(4) 相関の分解
24   42   43 32   21 41   21 43 31
相関係数=直接効果+間接効果+疑似相関
直接効果+間接効果=総合効果
X2
α21
α32
X1
α42
X4
α41
α31
X3
α43
(13.20)
13.2 グラフィカルモデリング
(1) 相関係数行列と偏相関係数行列
偏相関係数: 他の変数の影響を取り除いた後の相関係数
他の変数が一定という条件での相関係数
偏相関係数が0→条件付き独立
rij,rest 
 r ij
ii
r r
jj
r ij 相関行列の逆行列の(i,j)成分
(13.22)
x1
x2
x3

xn
重回帰
xi
ei
xj
ej
偏相関係数
相関 rij , rest 
 r ij
r ii r jj
残差
相関行列の逆行列
r 11



ii
r




 


ij
jj
r  r







偏相関係数
rij,rest 
 r ij
ii
r r
jj
13.2 グラフィカルモデリング
p個の変数x1, x2,…, xpの母相関係数行列Π=[ρij]、
その逆行列をΠ-1=[ρij]と表す。
母偏相関係数
ijrest  
 ij
(13.22)
 ii  jj
母相関係数行列
1 12 13

1
 23


 sym. 1


14  1 0.6 0.6 0.6 
 24  
1
0.36 0.36

34   sym. 1 0.36

1 



1 
13.2 グラフィカルモデリング
母相関係数行列の逆行列
  11  12  13  14  2.688  0.938  0.938  0.938



22
23
24 
1
.
563
0
0





 1  

sym.
1.563
0.36 
sym.  33  34  



44 
1
.
563
  


母偏相関係数行列
 12rest 13rest


 23rest



sym.



14rest   0.458 0.458 0.458
 24rest  

0
0 

34rest  
sym.

0 

 



 
(2) 独立グラフ
母相関係数行列
12
 1
  
1
sym.
母偏相関係数行列
12rest
 
  

sym.
ρ23・1 =0
13   1
 23   
1 
0.9
1
sym.
0.8 
0.72
1 
13rest   0.778 0.502
 23rest   

0 
 

 
x1を与えたとき、x2とx3の母偏相関係数がゼロ
「x1を与えたとき、x2とx3が条件付き独立である
(2) 独立グラフ
ρij・rest =0
ρij・rest ≠0
xiとxjはグラフで結ばない
xiとxjはグラフで結ぶ
0.778 0.502
 
  

0 
 sym.
 
 0.458 0.458 0.458



0
0



sym.

0 





x2
x1
x3
x3
x2
x1
x4
(3) 共分散選択
実際のデータ解析では、データにばらつきがあるので、標
本偏相関係数が0になることは、ほとんどない。
0に近い標本偏相関係数が得られた場合は、それに対応す
る母偏相関係数を0と見なす。データに基づき、いくつか
の母偏相関係数を0とみなし、それに対応する独立グラフ
を描いて、条件付き独立を考察する。このような操作を共
分散選択と呼ぶ。
共分散選択を行い、得られたモデルの妥当性を評価しなが
ら、適切なモデルの選択を行うことが、グラフィカルモデ
リングである。
13.3 因子分析
(1)因子分析とは
多くの変数の相関関係を小数の潜在因子によって説明するための
手法
共通因子(潜在因子)
因子負荷量
独自因子(潜
在因子)
因子得点(個人ごと)
ε1
国語 u1
文系的能力 f1
ε2
英語 u2
理系的能力 f2
数学 u3
ε3
理科 u4
ε4
(2)因子分析のモデル
多くの変数の相関関係を小数の潜在因子によって説明するための
手法
共通因子(潜在因子) :f1,f2
ui1  b11 f i1  b12 f i 2   i1
因子得点(個人ごと):fi1,fi2
ui 2  b21 f i1  b22 f i 2   i 2
因子負荷量
:b11, b21,…, b32, b42
ui 3  b31 f i1  b32 f i 2   i 3
独自因子(潜在因子):ε1, ε2, ε3, ε4
ui 4  b41 f i1  b42 f i 2   i 4
共通因子
確率変数 N(0,12)
独自因子
確率変数 N(0,d2i)
因子負荷量 定数
共通因子間と独自因子間、共通因子と独自因子間は、無相関
(2)因子分析のモデル
V (u1 )  V (b11 f1  b12 f 2   1 )
 V (b11 f1 )  V (b12 f 2 )  V ( 1 )
 b112  b122  d12
C (u1 , u2 )  C (b11 f1  b12 f 2   1 , b21 f1  b22 f 2   2 )
 b11b21V ( f1 )  b12b22V ( f 2 )
 b11b21  b12b22
共通因子間は無相関
fifj=0
独自因子間は無相関
εiεj=0
共通因子と独自因子間は無相関 fiεj=0
(2)因子分析のモデル
1 12 13

1
 23


 sym. 1


14 
 24 
34 

1 
b112  b122 b11b21  b12b22 b11b31  b12b32 b11b41  b12b42  d12

 
2
2
b21  b22
b21b31  b22b32 b21b41  b22b42  


2
2

sym.
b31  b32
b31b41  b32b42  

 
2
2
b41  b42  

d12
0
0
0
b11 b12 


b b 
2
d
0
0
1

B   21 22 , D  
  BB ' D

b31 b32 
sym. d12 0 



2
d1 

b41 b42 
0
0
d12
0
sym. d12
0

0
0
2
d1 
(2)因子分析のモデル
(13.37)の対角要素に注目すると、
b2j1  b2j 2  1  d 2j ( h2jとおく)(j  1,2,3,4)
h2jは、 uj の変動のうち、共通因子によって説明できる部分
を表すので、uj の共通性と呼ぶ。 d2jは共通因子で説明でき
ないばらつきなので、独自性と呼ぶ。
因子分析の用語
① 因子負荷量 factor loading:得られた因子と、各変数との相関係数。
この値が高いほど、因子との関係が強いことになる。全変数と因子と
の相関係数を示したものを因子構造と呼ぶ。
② 共通性 communality:各変数の分散のうち、因子で説明できる割合
を示したもの。重回帰分析における決定係数に相当する。したがって、
1-共通性=独自性(独自因子の影響力)ということになる。
③ 因子寄与 factor contribution:因子の相対的な影響力の強さを示す。
因子寄与=各因子負荷量の二乗和(直交解の場合のみ成立)。つまり、
ある因子の各変数に対する決定係数の総和。
④ 寄与率(因子寄与率):因子寄与を変数の数で割ったもの。もとの変
数の全分散のうち、その因子が説明する分散の割合。
(3)解析の流れ
①共通因子の個数の設定
標本相関係数行列の固有値のなかで、1を超えるも
のの数
②共通負荷量の推定(主因子法)
1  d12
12
13
14

2
1

d
 23
 24
2

D

sym. 1  d 32
 34






2
1  d 4 
(13.34)式のモデルがよく当てはまっているならば、
1  2  3  4  0
D
の固有値は、
(3)解析の流れ
λ1とλ2に対応する(長さ1の)固有ベクトルをそれぞれ
c1  [c11, c21, c31, c41 ]' , c 2  [c12 , c22 , c32 , c42 ]'
とする。


Bˆ  



1 c11
1 c21
1 c31
1 c41
2 c12 

2 c22 
2 c32 

2 c42 
回転の不定性
回転の不定性:解として因子空間は定まるけれども,
その中での座標軸のとり方は任意でよい
↓
因子の解釈が容易になるように回転を施しても良い.
(因子負荷量がゼロに近いものとゼロから大きく離れるもの
に分離)
バリマックス基準:各要素の2乗の分散の輪を最大にすると
いう基準
直交解
orthogonal solution:因子間の相関を0と仮定して計算する方法。
斜交解 oblique solution:因子間に相関を許容する計算法。
2次元の回転を表す行列は,
cos   sin  
T 

sin

cos



直行行列 T ' T  I
その逆行列(逆回転)は
cos(  )  sin(  )  cos( ) sin(  ) 
1
T 

T'


 sin(  ) cos(  )   sin(  ) cos( )
上で得られた因子負荷量の推定値B̂
に対して
Bˆ *  Bˆ T '
と,おくと
Bˆ * Bˆ * '  Bˆ T ' TBˆ '  Bˆ Bˆ '
B̂ *
となる.すなわち,
も(13.39)
を満たす因子負荷量の推定値である.
bˆ*jk
B̂ * の(j,k)要素を
と表す
 f i1 
ui1  b11 f i1  b12 f i 2   i1  [b11, b12 ]    i1
 fi 2 
 f i1 
 [b11, b12 ]T ' T     i1  b11* f i1*  b12* f i*2   i1
 fi 2 
ただし,
[b11, b12 ]T '  [b11* , b12* ]
 f i1   f i1* 
T    *
 fi 2   fi 2 
(13.45)
軸の回転
因子分析ソフト
ソフト名: 調査統計システム
ファイル: Statistics.exe / 14,256,946Bytes / 2007.1.9
http://www.vector.co.jp/soft/dl/win95/edu/se159875.html
生徒No.
1
2
3
4
5
6
7
8
9
10
国語
x1
86
71
42
62
96
39
50
78
51
89
英語
x2
79
75
43
58
97
33
53
66
44
92
数学
x3
67
78
39
98
61
45
64
52
76
93
理科
x4
68
84
44
95
63
50
72
47
72
91
相関行列
国語 英語
1.000 0.967
0.967 1.000
0.376 0.415
0.311 0.398
数学
0.376
0.415
1.000
0.972
理科
0.311
0.398
0.972
1.000
ui1  b11 f i1  b12 f i 2   i1

変数
因子負荷量
1
2
3
国語 0.800 -0.579 -0.088
英語 0.838 -0.520 0.095
数学 0.836 0.526 -0.094
理科 0.812 0.566 0.085
固有値 2.701 1.203 0.033
累積% 68.9% 99.5% 100.4%
ui 4  b41 f i1  b42 f i 2   i 4
バリマックス基準
変数
因子負荷量
1
2
3
国語
-0.974 -0.090 0.160
英語
-0.960 0.094 0.228
数学
-0.216 -0.088 0.965
理科
-0.171 0.091 0.974
因子寄与 1.947 0.033 1.957
文系的能力 f1
-0.974
-0.960
国語 u1
ε1
英語 u2
ε2
理系的能力 f2
0.965
0.974
数学 u3
ε3
理科 u4
ε4
寄与率
分散の合計(総変動) V (u1 )  V (u2 )  V (u3 )  V (u4 )  4
個々の因子の寄与率は,それにかかっている因子負荷量の
推定値の2乗和を総変動で割ったものと定義する.
*
(13.46)
f の寄与率  (bˆ*2  bˆ*2  bˆ*2  bˆ*2 ) / 4
1
11
21
31
41
*
*2
*2
*2
f 2 の寄与率  (bˆ12*2  bˆ22
 bˆ32
 bˆ42
)/4
(13.47)
個々の因子の寄与率は,回転によって変化する.
累積寄与率を個々の因子の寄与率の和と定義.
累積寄与率  (hˆ12  hˆ22  hˆ32  hˆ42 ) / 4
(13.48)
共通性は回転に対して不変なので,累積寄与率は,回転に対して不変
*2
*2
*2
*2
*2
*2
累積寄与率  [(bˆ11*2  bˆ21
 bˆ31
 bˆ41
)  (bˆ12*2  bˆ22
 bˆ32
 bˆ42
)] / 4
*2
*2
*2
*2
*2
*2
 [(bˆ11*2  bˆ12*2 )  (bˆ21
 bˆ22
)  (bˆ31
 bˆ32
)  (bˆ41
 bˆ42
)] / 4
 (hˆ 2  hˆ 2  hˆ 2  hˆ 2 ) / 4
1
2
3
4
ui1  b11 f i1  b12 f i 2   i1

ui 4  b41 f i1  b42 f i 2   i 4
因子得点の推定
*
fˆ1  ˆ11u1  ˆ12u2  ˆ13u3  ˆ14u4
*
fˆ  ˆ u  ˆ u  ˆ u  ˆ u
2
21 1
22 2
23 3
24 4
最小2乗法により,係数βを求める.
 ˆ11   S11
ˆ  
 12    S 21
    
  
 ˆ1 p   S p1
 S1 p 
 S1 p 
  

 S pp 
S12
S 22

S p2
1
S jk  (n  1)rjk , S jf *  (n  1)bˆ*j1
1
 S1 f1* 
S 
 2 f1* 
  


 S pf1* 
bˆ*j1は因子負荷量の推定値,b*j1はu jとf1*の母相関係数
13.5 多段層別分析
表13.3 多段層別分析のデータ形式
No.
1
2
…
i
…
n
x1
x11
x21
…
xi1
…
xn1
x2
x12
x22
…
xi2
…
xn2
…
…
…
…
…
…
xp
x1p
x2p
…
xip
…
xnp
y
y1
y2
…
yi
…
yn
3.3.4 重回帰分析の難しさ
表3.3 コンパクトカメラの満足度
No
1
2
3
4
5
99
100
小型軽量
3
5
2
4
4
…
5
1
持ち運び
3
4
2
4
4
…
5
1
操作性
4
2
2
3
2
…
2
3
総合満足度
3
2
1
2
3
…
4
2
重回帰分析結果
回帰式1 y=a1(小型軽量)
+a0
回帰式2 y=a1(小型軽量)+a2(持ち運び)
+a0
回帰式3 y=a1(小型軽量)+a2(持ち運び)+a3(操作性)+a0
回帰式1 回帰式2 回帰式3
定数項
1.889
1.243
-0.582
小型軽量
0.176
-0.317
-0.189
0.737
0.779
係数 持ち運び
操作性
残差2乗和
重相関係数
0.468
125.845
106.687
83.905
0.212
0.436
0.603
4.1 重回帰分析の数理
4.1.1 共分散行列・相関係数行列
相
関
係
数
行
列
小型軽量 持ち運び
小型軽量
1.000
持ち運び
0.842
1.000
-0.411
0.212
-0.372
0.384
操作性
総合満足度
操作性
1.000
0.273
総合満足度
1.000
5.2 説明変数が2個の場合の解析方法
(1)最小2乗法による回帰式の推定
観測値
yi   0  1 xi1   2 xi 2   i
 i~N (0,  2 )
予測値
yˆi   0  1 xi1   2 xi 2
(5.4)
残 差
 i  yi  yˆi  yi  ( 0  1 xi1   2 xi 2 )
(5.5)
残差平方和 S e    i   [ yi  (  0  1 xi1   2 xi 2 )]
2
S e
 2 [ yi  (  0  1 xi1   2 xi 2 )]  0
 0
S e
 2 xi1[ yi  (  0  1 xi1   2 xi 2 )]  0
1
S e
 2 xi 2 [ yi  (  0  1 xi1   2 xi 2 )]  0
1
2
(5.3)
(5.6)
(5.7)
(5.8)
(5.9)
(1)最小2乗法による回帰式の推定
0  y  1 x1   2 x2
(5.13)
1
 1  S11 S12  S1y 
    S
 S 
S
22   2y 
 2   21
 S22S1y  S12S2y 
1


2 
S
S

S
S
S11S22  S12  12 1y 11 2y 
(5.28)
多重共線性
多重共線性 (Multicollinearity)
通称「マルチコ」。独立変数間に非常に強い相関があったり,一
次従属な変数関係がある場合には,解析が不可能であったり,
たとえ結果が求まったとしてもその信頼性は低くなる。
 1 
1
  
2
S
S

S
 2
11 22
12
S11S22  S12  0
2
2
S12
1
S11S22
S12
r12 
1
S11S22
 S22S1y  S12S2y 
- S S  S S 
 12 1y 11 2y 