9. 主成分分析 Principal Component Analysis (PCA)
Download
Report
Transcript 9. 主成分分析 Principal Component Analysis (PCA)
9. 主成分分析
Principal Component Analysis (PCA)
• 気象学(In Meteorology)では経験的直交関数分析
(Empirical Orthogonal Function Analysis)
EOF 解析ともいう。
• 互いに相関のある多種類の特性値のもつ情報を互いに
無相関な少数個の総合特性値に要約する手法である。
(Statistical method for summary of the data)
Example:
○多くの科目の得点。(数学、英語、、;学生)
Math, English, : students
○多くの地点の気温時系列データ
(札幌、東京、、、、、;1970,71,….2005)
Temperature at Sapporo, Tokyo, : years
sum
特性値(例えば、地点)
デ
ー
タ
(
例
え
ば
、
年
)
Xij
Data: observation point
Data: year
データ | 特
性値
X1
X2
………..
Xp
1
X11
X12
………..
X1p
2
X21
X22
………..
X2p
.
.
.
n
.
.
.
.
.
.
.
.
.
Xn1
Xn2
.
.
.
…….
Xnp
平均
[X1]
[X2]
…….
[Xp]
分散共分散行列:対称行列
Variance-covariance matrix
s1,1 s1, 2
s2,1 s2, 2
S
.... ....
s p,1 s p, 2
.....
.....
.....
.....
s1, p
s2, p
....
s p, p
here,
s j ,k
1 n
xij x j xik xk
n i 1
( j, k 1,2,.......p
Z1 l1,1x1 l1,2 x2 ...... l1, p x p
2
i ,1
l
li, 2 ..... li, p 1
2
2
(1)
(2)
[条件]:conditions rotation of axis
1) 第1主成分Z1の係数(L1,j)は(2)の束縛条件のもと
で、Z1の分散が最大となるように定める。(To
maximize the variance of Z1)
2) 第2主成分Z2の係数は、(2)を満たし、かつ、Z2が
Z1と無相関(直交する)の条件のもとで Z2の分散が
最大になるように定める。(Z1 and Z2 are
orthogonal)
Variance.of .Z1
1
2
V (Z1 ) (Z1 Z )
n
2
p p
1
l1, j xij x j l1,il1,i Si ,i
n i 1 j 1
i 1 i1
for
2 variables
n
p
V (Z 1) l S 2l11l12S12 l S
2
11 11
2
12 22
S11 S12 l11 t
l1 Sl1
V (Z1 ) l11, l12
S12 S22 l12
ラグランジェの未定乗数法
Lagrangian multiplier
Q V l1,i 1
2
Q
2
l1,i 1
Q
l1,i Si ,i l1,i 0
l1,i i
for.2.variables
S11l11 S12l12 l11
S12l11 S22l12 l12
S11 S12 l11 l11
S21 S22 l12 l12
(S I )l 0
if S I 0,
l11 l12 0, useless
分散共分散行列の固有値・固有ベクトル
(Eigen-value and Eigen vector of the
Matrix)
S I 0
S11 ,
S12
0
S21
S22
0
4S S
S11 S22 S11S22 S
2
(S11 S22)
2
12
S11 S22
2
2
2
2
2
S11 S22 D 4 S11S22 S12
4S11S22 1 r
2
12
0
both roots are positive
11 22
S
2
12
固有ベクトルは
l11
S12
l12 S11
より 比が求まり
束縛条件
2
11
l
l
2
12
1
から 規格化したベクトルが求まる。
固有ベクトルの性質から
Sl1 l1
t
t
V Z1 l1 Sl1 l1 l1
したがって、分散は固有値に等しい。
最大の固有値とそれに対応する固有ベクトルがZ1
を与える。第1主成分という。
Z1 l11x1 l12x2
S11 S22 S11S22 S
2
2
12
0
根と係数の関係から
1 2 S11 S22
固有値の和は全分散に
等しい。
一般に、固有値の和は全分散に等しい。
p
k 1
k
p
TrS Skk
k 1
j
k
J の寄与率という
• 第2主成分は、同様に求めるが、結局、2番目
に大きい固有値に対応する固有ベクトルとな
る。
• 以下、同様。
• 結局、分散共分散行列の固有値問題を解き、
固有値の大きい順に対応する固有ベクトルを
係数とするものが順次、主成分となる。
K番目が、第k主成分。
主成分得点(スコア) 図のOH
For
data
0
1
0
x , x2 ,.......x p
Score.of .k component
Zk l x lk 2 x2 ... lkp x p
0
k1 1
0
0
0
再規格化
li li i
2
l i
主成分ベクトル:単位あり。
スコアが1のときの主成分
パターンとなる。
score
ti ti / i
then,
(t) 1
スコア時系列:標準偏差が
1に規格化。
主成分分析の手順
• データから分散共分散行列または相関行列
を計算する。
• 固有値・固有ベクトルを求める。
• 固有値の大きいものから、だい1,2、。。。主
成分となる。
• スコア(PC)時系列を求める。
• PCの分散が1になるよう規格化。(固有値の
ルート)
Rule of thumb (North)
• 一般に固有ベクトル(主成分パターン)は定
在的な空間パターンを表す。
• 連続する固有値(ベクトル)が別のものか、
どうか。
2
N
• 移動性のものは2つのパターンとして現れ
ることが多い。
1
2
例
2 1
S
1 2
2
1
0
1
2
2
1 0
2 1
2
3, 1
2 1 l1 l1
3
1 2 l2 l2
2l1 l2 3l1 l1 l2
1
2
,
l1
1
2
1
1
Z1
x1
x2
2
2
例2
1 1
S
1 4
1
1
0
1 4
2 5 3 0
5 25 12
2
5 13
2
4.3, 0.7
0.29 0.96
, l2
l1
0.96
0.29
北極振動または北
半球環状モード
(Arctic Oscillation
or Northern
Annular Mode)
20N以北の北半球
月平均海面気圧場
の主成分分析(EO
F)から得られた第1
主成分パターン
EOF1 of the winter
NH SLP
北極振動にともなう海面気圧偏差。等値線間隔は0.5hPa。
負の領域に陰影
冬(12,1,2月平均)の北極振動指数(○つき実線)と札幌の
平均気温(太実線)。
IPCC第4次報告書10章 Figure 10.17
北大西洋海面水温
のEOF1
「実践!気候データ
解析(松山・谷本)」
より
空間EOF1
時間EOF1
主成分と回帰直線の違い
Y
主成分軸からの距離の
自乗和を最小にする。
回帰直線とのy
軸方向の差(dy)
の自乗和を最小
にする
X
正準相関分析 Canonical correlation
• 2組の互いに相関のあるデータがある。
X1, X2, …………, Xs
Y1, Y2, ……………., Yt
s
uk lk ,i xi ,
i 1
(sとtは異なっても良い)
t
vk mk , j y j
j 1
u1, u2 , ......., us
r1
v1, v2 , ......., vs , .... vt
以下の条件を満たすとき、u, v を正準変量( canonical
variable ) といい、uk と vk の相関係数 rk を第 k 正準
相関 (canonical correlation) という。
•
•
•
•
•
1) uk, vk の平均0、分散1
2) uk, um は無相関 (k =/ m)
3) vk, vm は無相関 (k =/ m)
4) uk, vm は無相関 (k =/ m)
5) uk と vk の相関は rk で大きさの順。
S R
R T
結合-EOF は左の行列
(2つの変数を合わせたも
の)の固有値・固有ベクト
ル。
Rはs行 t 列の行列
1
2
S RT R l 0
正準相関分析は上記を解く。
特異値分解
(singular value
decomposition
: SVD)
R 1u1v1 2u2v2 ...... r ur vr UrV
i i 2
: eigen value of
RR
(1) Rv j j u j and R u j j v j
(2) R Rv j j v j
(3) RRu j j u j
1
: U RV 0
0
0
2
0
0
0
「実践!気候データ解析(松山・谷本)」
より