クリック - ODN

Download Report

Transcript クリック - ODN

多変量データ分析B 第6回
第3章:主成分分析
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.5.26. SFC5限
第3章 主成分分析 Ⅱ
1/39
3.2 三変量による主成分分析
狙い
回転プロットによる表現
座標表現とベクトル表現の理解
総合得点よりも主成分の方がよい総合指標
第3章 主成分分析 Ⅱ
2/39
3.2.1 三変量の総合指標 1/2
扱うデータ:電子部品A
寸法と重量のデータ
‘½•Ï—Ê
‘ŠŠÖ
‚
‚³
‰º•
d—Ê

‚‚³

1.0000
0.4946
0.5739
‰º•
0.4946
1.0000
0.6893
d—Ê

0.5739
0.6893
1.0000
ŽU•z
}
s —ñ
70
65
60
‚‚³

55
3次元のデータをどの方向で
みようが本当は分析者の自由
9.5
9
‰º•
8.5
‘½•Ï—Ê
‘ŠŠÖ
8
5.5
5.25
5
4.75
4.5
4.25
d—Ê

55 60 65 70
8
8.5
9
9.5
4.25 4.755 5.25
‚
‚³
‰º•
d—Ê

‚‚³

1.0000
0.4946
0.5739
‰º•
0.4946
1.0000
0.6893
d—Ê

0.5739
0.6893
1.0000
ŽU•z
}
s—ñ
図3.7 3変量での散布図行列
70
65
‚‚³

散布図行列は立方体の面ごとに見ている状態
60
55
第3章 主成分分析
Ⅱ
9.5
3/39
3.2.1 三変量の総合指標 2/2
高さ,下幅,重量で部品の総合的な大きさ指標を作
ろう
測定単位や性格が異なるので,そのまま和を取れ
ない
そこで,標準化変量の和を作ろう
u1  u2  u3
y
3
高さ : u1 
x1  60.32
3.806
2
2
2
 1   1   1 
        1
 3  3  3
下幅: u2 
x2  8.62
0.300
重量: u3 
x3  4.69
0.298
問題:この合成指標よりも,性質のよい(情報量が最大)
合成変数(線形結合)があるか
第3章 主成分分析 Ⅱ
4/39
3.2.2 三変量の主成分の算出 1/7
テキストでは,最近全然流行らないパワー法で計算し
ています.
パワー法は計算精度が悪く敬遠されていますが,手計算
(無論電卓は必要)で解けることがうれしい
多くのソフトは,ヤコビ法を使って解いています
0.495 0.574   l11 
 l11 
 1
 0.495
l    l 
1
0.689
 12 

  12 
 0.574 0.689
 l 
l 
1

 13 
 13 
相関行列
初期値として(1,1,1)を与える
第3章 主成分分析 Ⅱ
5/39
3.2.2 三変量の主成分の算出 2/7
0.495 0.574 1  2.069 
 1
 0.495
1   2.184 
1
0.689

  




 0.574 0.689

1  1  2.263 

1  0.495  0.574  2.069
0.495  1  0.689  2.184
0.574  0.689  1  2.263
0.495 0.574  0.550  1.182 
 1
 0.495
 0.580   1.266 
1
0.689


 





 0.574 0.689
 0.601
1
1.316
 



0.495 0.574  0.542  1.178 
 1
 0.495
 0.583   1.268 
1
0.689


 




 0.574 0.689

1   0.606  1.318 

 0.550 
  0.580  2乗和を1に基準化
 0.601 


代入する
 0.543 
  0.582 
 0.605 


2乗和を1に基準化
 0.541
  0.583 
 0.606 


2乗和を1に基準化
代入する
第3章 主成分分析 Ⅱ
6/39
3.2.2 三変量の主成分の算出 3/7
固有ベクトルの値が安定したら繰り返し計算を止める
0.495 0.574  0.542  1.178 
 1
 0.495
 0.583   1.268 
1
0.689


 

 0.574 0.689
1   0.606  1.318 

 0.541
  0.583 
 0.606 


この比がλになる
第1主成分の完成:単純な和(√p=3で割っているが)ではない
z1  0.541 u1  0.583 u2  0.606  u3
分散最大化(主成分)は,標準化した等しい重みの係数
を掛けた線形結合ではない.
相関のあり方により値が変わる(この表現は正確ではない)
第3章 主成分分析 Ⅱ
7/39
3.2.2 三変量の主成分の算出 4/7
第2主成分以降をどう求めるか
回帰の残差を求めても,そこには第2&第3主成分が
混ざっている
第1主成分は1番しぼりだ
アイデア
残差の相関係数行列を使い,再びパワー法で解けばよい
回帰残差と回帰で説明できる(第1主成分)部分とは無相関
より,残差には第1主成分の情報はない
スペクトル分解の公式を使う(回帰残差を計算するよりも)
0.495 0.574   1l112 1l11l12 1l11l12 
 1


R*   0.495
1
0.689    1l11l12 1l122 1l12l13 
 0.574 0.689
1   1l11l12 1l12l13 1l132 

0.495 0.574   0.639 0.688 0.715   0.361 0.193 0.141
 1
R*   0.495
1
0.689    0.688 0.741 0.770    0.193 0.259 0.081
 0.574 0.689
1   0.715 0.770 0.800   0.141 0.081 0.200 

第3章 主成分分析 Ⅱ
8/39
3.2.2 三変量の主成分の算出 5/7
 0.361 0.193 0.141 0.819   0.429 
 0.193 0.259 0.081 0.528    0.277 


 

 0.141 0.081 0.200   0.225   0.118 
 



第2主成分の完成
 0.819 
  0.528 
 0.225 


この比がλになる
z2  0.819  u1  0.528  u2  0.225 u3
最後のしぼり汁
 0.361 0.193 0.141  2l212 2l21l22 2l21l22 


R* *   0.193 0.259 0.081   2l21l22 2l222 2l22l23 
2
 0.141 0.081 0.200    l l  l l

  2 21 22 2 22 23 2l23 
 0.361 0.193 0.141  0.352 0.227 0.097   0.009 0.034 0.044 
  0.193 0.259 0.081   0.227 0.146 0.062    0.034 0.113 0.143
 0.141 0.081 0.200   0.097 0.062 0.027   0.044 0.143 0.174 

 
 

第3章 主成分分析 Ⅱ
9/39
3.2.2 三変量の主成分の算出 6/7
 0.009 0.034 0.044  0.188   0.056 
 0.034 0.113 0.143 0.618    0.185 


 

 0.044 0.143 0.174   0.764   0.229 
 



第3主成分の完成
 0.188 
  0.618 
 0.764 


この比がλになる
z3  0.188 u1  0.618 u2u  0.764  u3
2  0.525
z1  0.541 u1  0.583 u2  0.606  u3
z2  0.819  u1  0.528  u2  0.225 u3
3  0.300
z3  0.188 u1  0.618 u2u  0.764  u3
1  2.18
第3章 主成分分析 Ⅱ
10/39
3.2.2 三変量の主成分の算出 7/7
活用術 3.1:固有ベクトルと因子負荷量の性質
固有ベクトルは,その列方向についても行方向についても2乗和を計算する
と 1 になる.因子負荷量については,列方向の2乗和が 1 になるが,行方向の
2乗和は固有値になる.つまり,元の変量と主成分の相関係数の 2 乗和 ―寄与
率― を最大とするものが主成分であるともいえる.
固有ベク ト ル
z1
z2
z3
因子負荷量
z1
z2
z3
u1
u2
u3
固有ベク ト ルの2乗
u1
u2
u3 計
0.541 0.583 0.606
z1
0.293 0.340 0.367 =1

0.819 0.528 0.225
z2
0.671 0.279 0.051 =1
0.188 0.618 0.764
z3
0.035 0.382 0.584 - 1
計 1
1
1
u1
u2
u3
因子負荷量の2乗
u1
u2
u3 計
0.798 0.860 0.894
z1
0.637 0.739 0.799 =2.2

0.593 0.382 0.162
z2
0.352 0.146 0.026 =0.5
0.104 0.338 0.418
z3
0.011 0.114 0.175 =0.3
計 1
1
1
第3章 主成分分析 Ⅱ
11/39
3.2.3 回転プロット 1/3
JMPの主成分分析の方法
①グラフメニューの回転プロットから
②多変量メニューの多変量の相関から
電子部品Aを使い回転プロットを利用しよう
今度は可視化による主成分の探索!!!
【操作 3.3:回転プロット】
①“グラフ(G)”メニューから下位コマンドの“回転プロット”をクリックする.
②表示されたウインドウで,
“列の選択”から“高さ”
,
“下幅”
,
“重量”を選択
し,
“Y,列”に割り当てる.
“OK”ボタンをクリックして,回転プロットを描
画する.
③”ツール(O)“メニューの”手のひらツール“をクリックする.
④ポインタを回転プロット上まで移動すると,
ポインタは手のひらの形に変る.
これを確認したら,
マウスボタンをクリックしながらプロットをつかんで回す.
クリックしている間は,軸が手のひらツールの動きに従い回転する.
第3章 主成分分析 Ⅱ
12/39
3.2.3 回転プロット 2/3
回転コントロールボタン
変量リスト
手のひらツールを使う
図3.9 電子部品Aの回転プロット
第3章 主成分分析 Ⅱ
手の位置を変えると
その位置に従って
回転する
13/39
3.2.3 回転プロット 3/3
x
x
y
z
z
y
図3.8 回転した方向によりプロットの分布の様子が大きく異なる
手のひらツールを使い,
①水平方向(横軸)のばらつきがもっとも大きくなる方向をさがせ.
②逆にばらつきがもっとも小さくなる方向をさがせ.
第3章 主成分分析 Ⅱ
14/39
3.2.4 主成分分析の実行とその解釈
‰ñ“]ƒvƒ
ƒbƒg
•ª:
¬
X: 
‚‚³
Y: ‰º•
Z: 
d—Ê
Žå
¬•ª1
Žå
¬•ª2
Žå
¬•ª3
‰ñ“]ƒvƒ
ƒbƒg
下
幅
y
P1
P3
z
x
¬•ª:

‚‚³

‰º•
d—Ê

X: Žå
¬•ª1
Y: Žå
¬•ª2
Z: Žå
¬•ª3
主y
成
分
‚‚³

2
P2 高さ
z
主成分1
x
—Ê
d
‰º•
高さと下幅の散布図での
2つの主成分の空間での
主成分方向の表示
元の変量のベクトル表示
Žå
¬•ª•ª
Í
Žå
¬•ª•ª
Í
ŒÅ—L’l
2.1756
Šñ—^—¦
72.5193
—ݍ
ÏŠñ—^—¦
72.5193
ŒÅ—LƒxƒNƒgƒ‹
‚‚³

0.54114
‰º•
0.58301
d—Ê

0.60602
0.5246
0.2999 ŒÅ—L’l
2.1756
Šñ—^—¦
17.4857 9.9951
72.5193
ÏŠñ—^—¦
90.0049 100.0000 —ݍ
72.5193
ŒÅ—LƒxƒNƒgƒ‹
‚‚³
0.81936 0.18924 
0.54114
-0.52772 0.61774 ‰º•
0.58301
d

—Ê
-0.22396 -0.76327
0.60602
0.5246
0.2999
17.4857 9.9951
90.0049 100.0000
0.81936 0.18924
-0.52772 0.61774
-0.22396 -0.76327
図3.10 回転プロットとPCA
見ている方向が違うと座標軸になったり,ベクトルになったりする
15/39
第3章 主成分分析 Ⅱ
3.2.5 バイプロット
y
主
成
分
2
y
‚‚³

z
x
—Ê
d
‰º•
主
成
分
2
主成分1
‚‚³

z
—Ê
d
‰º•
x
主成分1
図3.11 GHバイプロット(左)とJKバイプロット(右)
個体と変量を同時に表すグラフをバイプロットという
・GHタイプ:主成分得点を標準化して,因子負荷量を同時プロット
・JKタイプ:主成分得点と固有ベクトルの同時プロット
第3章 主成分分析 Ⅱ
16/39
3.2.6 バリマックス回転 1/6
ˆöŽq‰ñ“]
‰ñ“]ˆöŽq‚̃pƒ^
[ƒ“
‚‚³

0.2890107 0.9517011
‰º• 0.9186951 0.2038968
d—Ê 0.8151875 0.4009748

‰ñ“]
s—ñ
0.80409
-0.59450
‹¤’ʍ
«
‚‚³

‰º•
d—Ê

JMPでは,主成分を回転することで
より軸の性格を明瞭にするために
バリマックス回転を行う
0.59450
0.80409
0.98926
0.88557
0.82531
•W
€“¾“_ŒW
”
‚‚³

-0.37755 1.12777
‰º• 0.75100 -0.35089
d—Ê

0.51421 -0.00438
•ªŽU Šñ—^—¦—ݍ
ÏŠñ—^—¦
1.5921 53.069
53.069
1.1081 36.936
90.005
図3.12 バリマックス回転後のバイプロット
第3章 主成分分析 Ⅱ
17/39
因子分析
• 因子分析(探索的因子分析)
– 目標
• 因子分析と主成分分析の違いについて
• 因子分析のコンピュータ出力(JMP)を
読み取れる力を身につけよう
• 因子分析は数学モデルであることを理解しよう
• 因子分析の潜在因子の概念を理解しよう
実際には,主成分分析と因子分析とは違う
といった方がよさそうである.
長い間の論争があり,社会科学者は厳密に
両者を分けたがる.
18/39
第3章 主成分分析 Ⅱ
適用例と解析ストーリー
データ
試験の成績データ
生徒
国語 x1 英語 x2 数学 x3
理科 x4
1
86
79
67
68
2
71
75
78
84
3
42
43
39
44
4
62
58
98
95
5
96
97
61
63
6
39
33
45
50
7
50
53
64
72
8
78
66
52
47
9
51
44
76
72
10
89
92
93
91
1)潜在因子数の決定
2)因子軸の回転
3)因子得点と
潜在因子の解釈
第3章 主成分分析 Ⅱ
19/39
因子分析とは 1/6
・因子分析には,様々な方法が提案されている
・主成分解 ・主因子解
・最尤解 ・アルファ因子解 など
この部分はSPSSが優れている
因子分析
・心理学者のスピアマンが創始者であるとされる
・心理学者のサーストンが多因子モデルを提唱
・様々な数学的モデルが発展
チャトフィールド&コリンズら統計学者は批判的
・現在の展開
→SEM(因子分析とパス解析)により真の意味で有用な
道具として認知されている
(詳しくは,豊田秀樹 狩野裕の成書を)
・今回は古典的因子分析についての概要を述べる
潜在因子の概念:共通因子 特殊因子により変量を分解
第3章 主成分分析 Ⅱ
20/39
因子分析とは 2/6
1因子モデル
学力と科目特有の能力
e1
社会
e2
国語
e3
英語
e4
e1
理科
e5
数学
e6
音楽
e7
美術
回帰分析を行うが
説明変数は観測されていない
という奇妙なもの
特殊因子
観測変数
(観測変数固有の
(目的変数)
観測不可能な変数) 第3章 主成分分析 Ⅱ
学力
共通因子
(測定不可能な
説明変数)
21/39
因子分析とは 3/6
多因子モデル:複数の学力指標と科目特有の能力
e1
社会
e2
国語
共通因子1
e3
英語
e4
e1
理科
e5
数学
共通因子2
共通因子3
e6
e7
音楽
美術
ここの双方向線がない
ものが直交解,あるのもが斜交解
主成分分析では,
・特殊因子(回帰分析での誤差変数)と共通因子の区別がない
・→の向きが逆(合成か分解か:解釈に大きなズレがある)
22/39
第3章 主成分分析 Ⅱ
因子分析とは 4/6
回転による単純構造化
・回転にはバリマックス回転などがある
・共通因子を回転することによって,因子と観測変数間に単純
構造を仮定する
2成分
2成分
数学
数学
理科国語
理科国語
英語
英語
社会
社会
個別能力
対立概念
1成分
1成分
(変数分類)
美術
美術
音楽
音楽
主成分分析では
因子の回転により
・1成分は総合力
・1因子は主要科目学力
・2成分は芸術対主要科目学力
・2因子は芸術力 23/39
第3章 主成分分析 Ⅱ
因子分析とは 5/6
バリマックス回転
による単純構造化
e1
社会
e2
国語
e3
変数分類
e4
e1
文系能力
英語
理科
理系能力
e5
数学
e6
音楽
芸術能力
e7
美術
・各因子の順番は無意味
・共通因子の意味が重要
・回転方法により解が異なる
・不適解が存在する
-誤差変数の分散が負,共通因子と観測変数との相関が1を超える
24/39
第3章 主成分分析 Ⅱ
因子分析とは 6/6
因子モデルの定式化
zij  a j1 fi1 
 a jk fik  a jm fim  d j uij
添え字記号について
i  1, n(個体数)
j  1, , p(観測変数の数)
k  1, , m(共通因子数 m<p)
相関係数行列の分解
R  A'A  D
2
対角要素は 非対角要素はゼロ
対角要素は特殊因子による分散
1ではない
25/39
第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 2/6
データは,学生の試験を使う
①メニューの<グラフ>から<回転プロット>をクリック
②ウインドウで<列の選択>から“国語”,“英語”,“数学”,“理科”
を選択し<OK>ボタンをクリック
③クリックして,メニューの<白色の背景>をクリック
ƒbƒg
▼ ‰ñ“]ƒvƒ
¬•ª:

X: 
‘Œê
Y: ‰pŒê
Z: 
” Šw
—
‰È
Žå
¬•ª1
Žå
¬•ª2
Žå
¬•ª3
Žå
¬•ª4
Žå
¬•ª•ª
Í
ŒÅ—L’l
2.7207
Šñ—^—¦
68.0183
—ݍ
ÏŠñ—^—¦ 68.0183
ŒÅ—LƒxƒNƒgƒ‹
‘Œê

0.48727
‰pŒê
0.51054
” Šw

0.50832
—
‰È
0.49349
y
P1
P2
zP4
P3
x
③クリックして,
メニューの
<主成分分析>
をクリック
1.2218 0.0524 0.0051
30.5450 1.3103 0.1264
98.5633 99.8736 100.0000
0.52734
0.47400
-0.48075
-0.51587
第3章 主成分分析 Ⅱ
0.49897
-0.53867
0.50411
-0.45467
0.48529
-0.47383
-0.50632
0.53256
26/39
P3
Žå
¬•ª3
Žå
¬•ª4
‰ñ“]
¬•ª1
‰ñ“]
¬•ª2
3.2.6 バリマックス回転 3/6
ƒbƒg
▼ ‰ñ“]ƒvƒ
¬•ª:

X: 
‘Œê
Y: ‰pŒê
Z: 
” Šw
—
‰È
Žå
¬•ª1
Žå
¬•ª2
Žå
¬•ª3
Žå
¬•ª4
‰ñ“]
¬•ª1
‰ñ“]
¬•ª2
y
R1
zP4
P3
R2
P1
P2
‰ñ“]
s—ñ
0.70885
-0.70536
x
‹¤’ʍ
«
‘Œê

‰pŒê
” Šw

—
‰È
ˆöŽq‰ñ“]
‰ñ“]ˆöŽq‚̃pƒ^
[ƒ“
‘Œê 0.1585748 0.9801093

‰pŒê0.2273632 0.9653822
” Šw 0.9691604 0.2147385

—
‰È 0.9792057 0.1699628
①クリックして,メニューの
<成分の回転>をクリック
‰ñ“]
s—ñ
②2因子モデルを考えるので,
0.70885 0.70536
-0.70536 0.70885
回転する成分を2とする
‹¤’ʍ
«
‘Œê

‰pŒê
” Šw

—
‰È
0.98576
0.98366
0.98538
0.98773
ˆöŽq‰ñ“]
‰ñ“]ˆöŽq‚̃pƒ^
[ƒ“
‘Œê 0.1585748 0.9801093

‰pŒê0.2273632 0.9653822
” Šw 0.9691604 0.2147385

—
‰È 0.9792057 0.1699628
0.70536
0.70885
0.98576
0.98366
0.98538
0.98773
2因子の説明力
(寄与率)
•W
€“¾“_ŒW
”
‘Œê -0.127111 0.546547

‰pŒê-0.083075 0.522289
” Šw

0.525229 -0.090923
—
‰È 0.541269 -0.119790
因子得点
•ªŽU Šñ—^—¦—ݍ
ÏŠñ—^—¦
1.9750 49.374
49.374
1.9676 49.189
98.563
第3章 主成分分析 Ⅱ
27/39
3.2.6 バリマックス回転 4/6
‰ñ“]ƒvƒ
ƒbƒg
軸の変更
を行う
¬•ª:

‘Œê

‰pŒê
” Šw

—
‰È
Žå
¬•ª1
Žå
¬•ª2
Z: Žå
¬•ª3
Žå
¬•ª4
X: ‰ñ“]
¬•ª1
Y: ‰ñ“]
¬•ª2
文
系
能
力
y
P2
‘
ΐ
‰pŒê
z
P1
x
”
Šw
—
‰È
理系能力
ˆöŽq‰ñ“]
‰ñ“]ˆöŽq‚̃pƒ^
[ƒ“
‘Œê 0.1585748 0.9801093

‰pŒê0.2273632 0.9653822
” Šw 0.9691604 0.2147385

—
‰È 0.9792057 0.1699628
きれいな変数分類ができている
バリマックス回転の特徴
‰ñ“]
s—ñ
・ある1つにの因子についての因子負荷量が大きくなるが
0.70885 0.70536
-0.70536 0.70885
それ以外では小さい
‹¤’ʍ
«
‘Œê

‰pŒê
” Šw

—
‰È
0.98576
0.98366
0.98538
0.98773
第3章 主成分分析 Ⅱ
28/39
3.2.6 バリマックス回転 5/6
因子軸
文系能力
対
立
概
念
理系能力
総合力
バリマックス法は
因子負荷量の2乗分散を
最大化して単純構造化する
g a 
 1 p 2 2  1 p 2 2 
1/ 4   ai     ai    max
 p i 1  
 p i 1
因子軸
総合力を分かち,対立概念局別に因子を構成する
利点:単純化構造のために潜在的因子の解釈が容易
欠点:うまく単純化構造が得られない場合の解釈が困難
不適解の存在と解法の多様性(どの方法を用いるか)
29/39
第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 6/6
因子得点による布置
総合能力
2.0
5
文
系
能
力
1.5
1
1.0
8
.5
10
2
0.0
理系能力
-.5
7
3
9
-1.0
-1.5
-1.5
4
6
-1.0
-.5
0.0
.5
1.0
1.5
2.0
REGR factor score 1 for analysis 1
因子分析では,総合能力を示す変数(最終目的変数y:例:総合満足度など)を
入れて分析しない→多因子モデルでは総合ぶりが因子群になると解釈困難!!
多くの分析では後から因子得点散布図上にベクトルを追記する(選好回帰)
第3章 主成分分析 Ⅱ
30/39
3.3 主成分分析の活用指針
・主成分分析の目的と到達レベル
・主成分分析の主要な用語とアウトプット
・主成分分析の手順
第3章 主成分分析 Ⅱ
31/39
3.3.1 主成分分析の目的と到達レベル
目的
・多変量データを少数(2~5 程度)の直交した指標で説明する.
・新しい指標を作り個体の特徴を掴む.
・多変量データを少数(2~5 程度)の直交した指標で説明する.
・多変量空間における外れ値を抽出する.
・新しい指標を作り個体の特徴を掴む.
データ分析者の
PCA の到達レベルは,例えば以下のようなものであろう.
・多変量空間における外れ値を抽出する.
・混沌とした市場情報からプロダクトマップや知覚マップを作成する.
データ分析者の PCA の到達レベルは,例えば以下のようなものであろう.
・各種の成績や業績から支店や営業所の強み・弱みを抽出する.
・混沌とした市場情報からプロダクトマップや知覚マップを作成する.
・対象の行動を分析し,それに合った質問・判定項目を作成する.
・各種の成績や業績から支店や営業所の強み・弱みを抽出する.
・対象の行動を分析し,それに合った質問・判定項目を作成する.
第3章 主成分分析 Ⅱ
32/39
3.3.2 主成分分析の主要な用語とアウトプット
固有値:主成分の分散,得られた主成分の情報の大きさを表す
固有ベクトル:元の変量へ掛けるべき係数:重み
寄与率:
主成分で,元の変数の情報をどれだけ説明で
きるかを表す量
第1 主成分:
累積寄与率:
1
2
第2主成分:
1  2  3  p
1  2  3  p
主成分で,大きい固有値を持つ方から寄与率
を累積した量
第1 主成分:
1
1  2  3  p
第2主成分:
第3章 主成分分析 Ⅱ
1  2
1  2  3  p
33/39
3.3.2 主成分分析の主要な用語とアウトプット
因子負荷量:主成分と元の変量との相関係数である.
主成分の解釈に使う.
因子負荷量の絶対値が大きい場合が主成分と
元の変数との関連が強いことを表す.
変量1

変量2
変量3
変量p
主成分1 rz1,u1  l11 1
rz1,u 2  l12 1
rz1,u3  l13 1
rz1,up  l1 p 1
主成分2 rz 2,u1  l21 2
rz 2,u 2  l22 2 rz 2,u3  l23 2
rz 2,up  l2 p 2
主成分得点:求めた主成分の線形結合の値である.
この分散が1になるように固有値の平方根
( 1 , 2 , p )で割って標準化する.
因子負荷量と主成分得点を並べて解釈する場合,
標準化された主成分得点を使う.
第3章 主成分分析 Ⅱ
34/39
3.3.3 主成分分析の手順 1/5
①分析に必要な変量を選定する.分析目的に対して無意味な変量を含んでいる
と分析結果の解釈が困難になるため,変量選定には十分な吟味が必要である.
②個体の数は 100 以上が望ましい.計算される相関係数は標本誤差を含む.そ
こから得られる主成分も標本誤差を含んだものになる.個体数が少ない場合
の主成分の解釈は控えめにする.
③DB の活用や実際にアンケート等によりデータを収集する.収拾されたデー
タは分析しやすいようにデータ行列にまとめる.データは多変量正規分布から
得られたと仮定できることが望ましい.必要であれば,対数変換や単位当りの
比率 ―例えば,選挙データであれば得票率,都道府県の経済データであれば,
人口 1 千人当りの電力消費量など― に加工しておく.
第3章 主成分分析 Ⅱ
35/39
3.3.3 主成分分析の手順 2/5
④データのモニタリングによって,外れ値には色を変えたり,マーカを変えた
りしておく.JMP の機能が強力にサポートしてくれるはずである.
⑤各変量の基本統計量 ―特に平均や標準偏差など- を調べておく.PCA は平
均位置の情報を取り除いた分析であるので,報告書には必ず平均値や標準偏
差は記入しておく.
⑥PCA を実行する.多くの多変量解析の書では,はじめに分散共分散行列から
出発する方法について解説してあるが,特別な理由がない限り相関係数行列
から出発する方法を選ぶ.
⑦固有値と寄与率を求める.解釈する成分の選択方法は,経験的に以下の基準
が知られているが,絶対的なルールではないことを理解する.
・固有値が 1 以上のもの(元の変量の情報量が 1 であるから,合成指標とし
36/39
第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 3/5
計算の過程
手順1.分析する変量を標準化する
xj  xj
uj 
: j  1,2, , p
sj
手順2.合成変量として,第1主成分を以下のようにおく
重みの未知数は aj (j=1,2,・・・,p)
z1  a1u1  a2u2 
 apup
手順3.z1の分散Vz1が最大になるような固有値,固有ベクトルを
求める.
第3章 主成分分析 Ⅱ
37/39
3.3.3 主成分分析の手順 4/5
手順4.順次,第p主成分が得られるようにp個の固有値と固有
ベクトルを求める(ヤコビ法と呼ばれるアルゴリズム).
手順5.寄与率と累積寄与率を求める.
寄与率:
累積寄与率:
k
k 1  2   k
 ,
1  2   p p
p
手順6.分析者による解釈
主成分の選択 基準固有値1以上
(固有値の平均以上を選択する)
累積寄与率80%以上
主成分を解釈する
因子負荷量のグラフを描く
主成分得点のグラフを描く
サンプルや変量を分類,特徴つけする
第3章 主成分分析 Ⅱ
38/39
3.3.3 主成分分析の手順 5/5
⑦固有値と寄与率を求める.解釈する成分の選択方法は,経験的に以下の基準
が知られているが,絶対的なルールではないことを理解する.
・固有値が 1 以上のもの(元の変量の情報量が 1 であるから,合成指標とし
ては,それ以下の情報量しか持たない主成分は解釈しないとする立場)
・累積寄与率が 0.7~0.8 を越えるところまでの成分を解釈する.
⑧特徴ある個体の抽出を行う.成分の両端にある個体を比較することで新たな
知見が得られる場合がある.
⑨因子負荷量や主成分得点の散布図などを用いて成分の命名,キャッチフレー
ズをつける.
⑩成分の解釈が困難な場合にはバリマックス回転により単純構造化を試みる.
第3章 主成分分析 Ⅱ
39/39