Transcript PPT - 静岡大学
データ解析
http://coconut.sys.eng.shizuoka.ac.jp/data/
静岡大学工学部
安藤和敏
2005.12.14
主成分分析のデータ
(変数が3個の場合)
No
変数 x
変数 y
変数 z
1
x1
y1
z1
2
x2
y2
z2
…
…
…
…
i
xi
yi
zi
…
…
…
…
n
xn
yn
zn
合成変数 u
a b c 1
2
2
2
を満たす a, b, c に対して,
u ax by cz
という変数変換を考える.
2
ただし,ここで u の分散 su が最大になるよ
うに,a, b, c を選びたい.
uの分散
n
n
1
1
2
2
2
su ui u axi byi czi ax by cz
n i 1
n i 1
n
n
n
1
1
1
a 2 ( xi x ) 2 b 2 ( yi y ) 2 c 2 ( zi z ) 2
n i 1
n i 1
n i 1
1 n
1 n
2ab ( xi x )( yi y ) 2bc ( yi y )( zi z )
n i 1
n i 1
1 n
2ca ( zi z )( xi x )
n i 1
a 2 s x2 b 2 s 2y c 2 s z2 abs xy bcs yz cas zx
uの分散の最大化
条件
a b c 1
2
2
2
を満足する [a,b,c] のうちで,
su2 a 2 s x2 b 2 s 2y c 2 s z2 abs xy bcs yz cas zx
を最大にするものを求めたい.
主成分の必要条件
2
su を最大にする [a,b,c]は,以下の方程式の
解である必要がある.
s x2
s xy
s
zx
s xy
2
sy
s yz
s zx a
a
s yz b b ,
2 c
c
sz
a2 b2 c2 1
つまり,そのような[a,b,c]は,分散共分散行列の
固有ベクトル(で長さが1のもの)である.
主成分の十分条件
2
su
2 2
a sx
2 2
b sy
2 2
c sz
abs xy bcs yz cas zx
s x2 s xy s zx a
2
a b c s xy s y s yz b
s
2 c
zx s yz s z
a
2
2
2
a b c b a b c .
c
主成分の必要十分条件
2
uの分散 su の極値を与える [a,b,c] は,
s x2
分散共分散行列 s xy
s
zx
s xy
s 2y
s yz
s zx
s yz の固有ベクトル
2
sz
2
であり,そのとき, su (=固有ベクトル)となる.
2
したがって, su の最大値を与える[a,b,c]は,分散
共分散行列の最大の固有値に属する固有ベクトル
(で,長さが1のもの)である.
合成変数 u
a b c d e 1
2
2
2
2
2
を満たす [a, b, c, d, e] に対して,
u ax by cz dv ew
という変数変換を考える.
2
ただし,ここで u の分散 su が最大になるよ
うに,[a, b, c, d, e] を選びたい.
分散共分散行列
s x2
s xy
S s xz
s xv
s xw
とする.
s xy
s xz
s xv
2
sy
s yz
s yv
s yz
2
sz
s zv
s yv
s zv
2
sv
s yw
s zw
svw
s xw
s yw
s zw ,
svw
2
sw
uの分散
2
su
3変数のときと同様にして,
2
su
a b c d
eS a b c d
e
T
であることが分かる.
さらに,u の分散を最大化する[a, b, c, d, e]は,
Sの最大の固有値λ1に属する固有ベクトルである.
主成分の必要条件
2
su を最大にする [a,b,c,d,e]は,以下の方程式の
解である必要がある.
a
a
b
b
S c c , a 2 b 2 c 2 d 2 e 2 1
d
d
e
e
つまり,そのような[a,b,c,d,e]は,分散共分散行
列Sの固有ベクトル(で長さが1のもの)である.
主成分の必要十分条件
[a,b,c,d,e]が, Sの固有値λに属する固有ベクトル
であるならば,
2
su
a b c d
a b c d
eS a b c d
e a b c d
e
T
e
T
a b c d e .
2
2
2
2
2
2
s
したがって, u の最大値を与える[a,b,c,d,e]は,
分散共分散行列の最大の固有値に属する固有ベ
クトル(で,長さが1のもの)である.
第1主成分
Sの最大固有値λ1に属する固有ベクトル
[a1,b1,c1,d1,e1] を係数として得られる合成変数
u a1x b1 y c1z d1v e1w
が主成分である.
以降では,uを第1主成分と呼んでu1と書くことにしよう.
すなわち,
u1 a1x b1 y c1z d1v e1w
分散共分散行列の固有値
s x2
s xy
S s xz
s xv
s xw
s xy
s xz
s xv
2
sy
s yz
s yv
s yz
2
sz
s zv
s yv
s zv
2
sv
s yw
s zw
svw
s xw
s yw
s zw ,
svw
2
sw
の固有値をλ1>λ2 > λ3 > λ4 > λ5 とする.
第2主成分
2番目に大きい固有値λ2 に属する固有ベクトル(で
長さが1のもの)を[a2,b2,c2,d2,e2]とする.
[a2,b2,c2,d2,e2]を係数とする合成変数
u2 a2 x b2 y c2 z d2v e2w
は第2主成分と呼ばれる. u2の分散は,第1主成分
u1 a1x b1 y c1z d1v e1w
に次いで2番目に大きい分散を与える.
なぜならば,
第2主成分
[a2,b2,c2,d2,e2]が,Sの固有値λ2に属する固有ベク
トルであるので,
2
su
2
a2
a2
b2
b2
2
2 a2
c2
c2
2
b2
d2
e2 S a2
d2
e2 2 a2
2
c2
2
d2
2
e2
b2
b2
.
2
c2
c2
d2
d2
e2
T
e2
T
第3,第4,第5主成分
3番目に大きい固有値λ3 に属する固有ベクトル(で
長さが1のもの)を[a3,b3,c3,d3,e3]とする.
[a3,b3,c3,d3,e3]を係数とする合成変数
u3 a3 x b3 y c3 z d3v e3w
は第3主成分呼ばれ,u3の分散はλ3となる.
以下同様に,第4主成分,第5主成分も定義さ
れる.
寄与率
第1主成分u1 の寄与率C1は,
C1
su21
2
sx
2
sy
2
sz
2
sv
2
sw
1
2
sx
2
sy
2
sz
2
sv
2
sw
で定義される.
u1の寄与率は,与えられた多変量デ
ータのもつ情報量のうち, u1 で表現できる情報量で
あると解釈できる(⇒p.12を見よ).
寄与率
一般に第i主成分ui の寄与率Ciは,
Ci
su2i
2
sx
2
sy
2
sz
2
sv
2
sw
i
2
sx
2
sy
2
sz
2
sv
2
sw
で定義される.
uiの寄与率は,与えられた多変量デ
ータのもつ情報量のうち, ui で表現できる情報量で
あると解釈できる(⇒p.12を見よ).
累積寄与率
第1主成分u1 の寄与率C1はと第2主成分u2 の寄
与率C2の和
'
C2
2
2
su1 su2
s x2 s 2y s z2 sv2
sw2
1 2
s x2 s 2y s z2 sv2 sw2
は第2主成分までの累積寄与率と呼ばれる.
これは,第1主成分u1と第2主成分u2の2つの合成変数
によって,与えられた多変量データの情報をどの程度表
現しているかを示す指標である.
累積寄与率
以下同様に,第3主成分までの累積寄与率,
'
C3
su21 su22 su23
2
sx
2
sy
2
sz
2
sv
2
sw
1 2 3
2
sx
2
sy
2
sz
2
sv
2
sw
第4主成分までの累積寄与率も同様に定義される.
'
C4
su21 su22 su23 su24
2
sx
2
sy
2
sz
2
sv
2
sw
1 2 3 4
2
sx
2
sy
2
sz
2
sv
2
sw
これらの量の意味するところはもはや明らかであろう.
とりあげる主成分の数
第1主成分u1 の寄与率C1が十分大きいもので
あれば,もうこれ以上の主成分を調べる必要はない
が,寄与率C1の大きさが満足いくものでなければ,
第2主成分まで調べる必要がある.そこで,第2主成
分までの累積寄与率もまだ満足いくものでなければ,
累積寄与率が満足がいく数字になるまで,以降の主
成分を調べていく.
ただし,とりあげる主成分の数を増やすことは,与え
られたデータを少ない変数で表現するという,主成分
分析本来の目的に反するので,望ましいことではない.
主成分の解釈
主成分の意味を考えるための手助けになるものと
して,変量プロットと主成分得点プロットがある.両
方とも,視覚的に主成分を捕らえるためのもので
ある.
変量プロット
第1,第2主成分u1 ,u2 が,それぞれ以下の式で
表されているとする.
u1 a1x b1 y c1z d1v e1w
u2 a2 x b2 y c2 z d2v e2w
以下の5つの点を二次元平面にプロットしたものが,
変量プロットである.
(a1, a2 ), (b1, b2 ), (c1, c2 ), (d1, d2 ), (e1, e2 )
主成分得点プロット
2つの主成分,例えばu1 とu2 を考えて,以下の式
によって,各データ[xi, yi, zi, vi, wi]の第1,第2主成
分得点を計算する.
u1i a1xi b1 yi c1zi d1vi e1wi
u2i a2 xi b2 yi c2 zi d 2vi e2 wi
こうして得られるn個の点 u1i , u2i
i 1,, n
を2次元平面上にプロットしたものが主成分得点プ
ロットである.
Excelで学ぼう
ファイル:第3章/3_3
本日のまとめ
• 第i主成分uiがどのようにして得られるかを理解した.
(データの分散共分散行列のi番目に大きい固有値λi
に属する固有ベクトルから得られる.)
• 寄与率,累積寄与率の定義とその意味を理解した.
• Excelを用いて,第i主成分ui主成分を計算する方法,
第i主成分得点を計算する方法を理解した.
• 変量プロット,主成分得点プロットの概念,及び,
Excelを用いてこれらのプロットの求め方を理解した.