9. 主成分分析 Principal Component Analysis (PCA)

Download Report

Transcript 9. 主成分分析 Principal Component Analysis (PCA)

9. 主成分分析
Principal Component Analysis (PCA)
• 気象学(In Meteorology)では経験的直交関数分析
(Empirical Orthogonal Function Analysis)
EOF 解析ともいう。
• 互いに相関のある多種類の特性値のもつ情報を互いに
無相関な少数個の総合特性値に要約する手法である。
(Statistical method for summary of the data)
Example:
○多くの科目の得点。(数学、英語、、;学生)
Math, English, : students
○多くの地点の気温時系列データ
(札幌、東京、、、、、;1970,71,….2005)
Temperature at Sapporo, Tokyo, : years
sum
特性値(例えば、地点)
デ
ー
タ
(
例
え
ば
、
年
)
Xij
Data: observation point
Data: year
データ | 特
性値
X1
X2
………..
Xp
1
X11
X12
………..
X1p
2
X21
X22
………..
X2p
.
.
.
n
.
.
.
.
.
.
.
.
.
Xn1
Xn2
.
.
.
…….
Xnp
平均
[X1]
[X2]
…….
[Xp]
分散共分散行列:対称行列
Variance-covariance matrix
 s1,1 s1, 2

 s2,1 s2, 2
S 
.... ....

 s p,1 s p, 2

.....
.....
.....
.....
s1, p 

s2, p 

....

s p, p 
here,
s j ,k


1 n
  xij  x j xik  xk
n i 1

( j, k  1,2,.......p
Z1  l1,1x1  l1,2 x2  ...... l1, p x p
2
i ,1
l
 li, 2  ..... li, p  1
2
2
(1)
(2)
[条件]:conditions rotation of axis
1) 第1主成分Z1の係数(L1,j)は(2)の束縛条件のもと
で、Z1の分散が最大となるように定める。(To
maximize the variance of Z1)
2) 第2主成分Z2の係数は、(2)を満たし、かつ、Z2が
Z1と無相関(直交する)の条件のもとで Z2の分散が
最大になるように定める。(Z1 and Z2 are
orthogonal)
Variance.of .Z1
1
2
V (Z1 )   (Z1  Z )
n


2
p p


1
  l1, j xij  x j    l1,il1,i Si ,i
n i 1  j 1
 i 1 i1
for
2 variables
n
p
V (Z 1)  l S  2l11l12S12  l S
2
11 11
2
12 22
 S11 S12  l11  t 
   l1 Sl1
V (Z1 )  l11, l12 
 S12 S22  l12 
ラグランジェの未定乗数法
Lagrangian multiplier


Q  V    l1,i 1

2

Q
2
  l1,i 1

Q
  l1,i Si ,i  l1,i  0
l1,i i
for.2.variables
 S11l11  S12l12  l11

S12l11  S22l12  l12
 S11 S12  l11   l11 

    
 S21 S22  l12   l12 
(S  I )l  0
if S  I  0,
l11  l12  0,  useless
分散共分散行列の固有値・固有ベクトル
(Eigen-value and Eigen vector of the
Matrix)
 S  I  0
S11  ,
S12
0
S21
S22  

 0
  4S S
  S11  S22   S11S22  S
2

(S11  S22) 
2
12
S11  S22
2
2
2
2
2
S11  S22   D  4 S11S22  S12


 4S11S22 1  r
2
12
 0
 both roots are positive
11 22

S
2
12

固有ベクトルは
l11
S12

l12   S11
より 比が求まり
束縛条件
2
11
l
l
2
12
1
から 規格化したベクトルが求まる。
固有ベクトルの性質から


Sl1  l1
t 
t 
 V Z1   l1 Sl1  l1 l1  
したがって、分散は固有値に等しい。
最大の固有値とそれに対応する固有ベクトルがZ1
を与える。第1主成分という。
Z1  l11x1  l12x2

  S11  S22   S11S22  S
2
2
12
 0
根と係数の関係から
1  2  S11  S22
固有値の和は全分散に
等しい。
一般に、固有値の和は全分散に等しい。
p

k 1
k
p
 TrS    Skk
k 1
j

k
J の寄与率という
• 第2主成分は、同様に求めるが、結局、2番目
に大きい固有値に対応する固有ベクトルとな
る。
• 以下、同様。
• 結局、分散共分散行列の固有値問題を解き、
固有値の大きい順に対応する固有ベクトルを
係数とするものが順次、主成分となる。
K番目が、第k主成分。
主成分得点(スコア) 図のOH
For
data
0
1
0
x , x2 ,.......x p
Score.of .k  component
Zk  l x  lk 2 x2  ... lkp x p
0
k1 1
0
0
0
再規格化
 
li  li i
2
l  i
主成分ベクトル:単位あり。
スコアが1のときの主成分
パターンとなる。
score
ti  ti / i
then,
 (t)  1
スコア時系列:標準偏差が
1に規格化。
主成分分析の手順
• データから分散共分散行列または相関行列
を計算する。
• 固有値・固有ベクトルを求める。
• 固有値の大きいものから、だい1,2、。。。主
成分となる。
• スコア(PC)時系列を求める。
• PCの分散が1になるよう規格化。(固有値の
ルート)
Rule of thumb (North)
• 一般に固有ベクトル(主成分パターン)は定
在的な空間パターンを表す。
• 連続する固有値(ベクトル)が別のものか、
どうか。
2
    
N
• 移動性のものは2つのパターンとして現れ
ることが多い。
1
2
例
 2 1

S  
 1 2
2
1
0
1
2
2   
1  0
  2  1
2
  3, 1
 2 1  l1   l1 

   3 
 1 2  l2   l2 
2l1  l2  3l1  l1  l2
 1 
  2
,
l1  
 1 


 2
1
1
Z1 
x1 
x2
2
2
例2
1 1 

S  
1 4 
1 
1
0
1 4
2  5  3  0
5  25 12

2
5  13

2
  4.3, 0.7
  0.29    0.96
, l2  

l1  
 0.96
 0.29 
北極振動または北
半球環状モード
(Arctic Oscillation
or Northern
Annular Mode)
20N以北の北半球
月平均海面気圧場
の主成分分析(EO
F)から得られた第1
主成分パターン
EOF1 of the winter
NH SLP
北極振動にともなう海面気圧偏差。等値線間隔は0.5hPa。
負の領域に陰影
冬(12,1,2月平均)の北極振動指数(○つき実線)と札幌の
平均気温(太実線)。
IPCC第4次報告書10章 Figure 10.17
北大西洋海面水温
のEOF1
「実践!気候データ
解析(松山・谷本)」
より
空間EOF1
時間EOF1
主成分と回帰直線の違い
Y
主成分軸からの距離の
自乗和を最小にする。
回帰直線とのy
軸方向の差(dy)
の自乗和を最小
にする
X
正準相関分析 Canonical correlation
• 2組の互いに相関のあるデータがある。
X1, X2, …………, Xs
Y1, Y2, ……………., Yt
s
uk   lk ,i xi ,
i 1
(sとtは異なっても良い)
t
vk   mk , j y j
j 1
u1, u2 , ......., us
r1
v1, v2 , ......., vs , .... vt
以下の条件を満たすとき、u, v を正準変量( canonical
variable ) といい、uk と vk の相関係数 rk を第 k 正準
相関 (canonical correlation) という。
•
•
•
•
•
1) uk, vk の平均0、分散1
2) uk, um は無相関 (k =/ m)
3) vk, vm は無相関 (k =/ m)
4) uk, vm は無相関 (k =/ m)
5) uk と vk の相関は rk で大きさの順。
 S R


 R T 
結合-EOF は左の行列
(2つの変数を合わせたも
の)の固有値・固有ベクト
ル。
Rはs行 t 列の行列

1
2
 S  RT R l  0


正準相関分析は上記を解く。
特異値分解
(singular value
decomposition
: SVD)

 

R  1u1v1  2u2v2  ...... r ur vr  UrV 
i  i 2
: eigen value of
RR





(1) Rv j   j u j and R u j   j v j



(2) R Rv j   j v j


(3) RRu j   j u j
 1

: U RV   0
0

0
2
0
0

0  


「実践!気候データ解析(松山・谷本)」
より