クリック - ODN

Download Report

Transcript クリック - ODN

多変量データ分析B 第7回
第3章:主成分分析
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.6.02. SFC5限
第3章 主成分分析 Ⅲ
1/55
3.4 主成分分析の実際
数学系成績
問題の概要:学生88名の数学系5教科の試験結果(古典的例題)
力学,ベクトル,代数,解析,統計
注)出典:Mardia,K.V.他 Multivariate Analysis,Academic,Press,1979
典型的な主成分の例題
目的:幾つかの合成指標を作成する
①総合的指標の作成
単なる合計点との違いを理解する
②対立概念の理解
88名の結果から5つの教科の対立する軸
-強みと弱みーを設定する
③2次元マップの作成
散布図により教科と生徒の分類を行う
第3章 主成分分析 Ⅲ
2/55
数学系成績 1/18
手順1.JMPを起動しメニューからファイル→開くをクリックする
フォルダの選択
手順3.右のダイアログが
表示される
①ファイルの種類で
EXCELを選ぶ
②主成分例題を
クリック
第3章 主成分分析 Ⅲ
3/55
数学系成績 2/18
手順4.表示されたダイアログから,数学系成績のシートを選ぶ
②OKを押す
①選ぶ
手順5.数学系成績の
データがJMPに
読み込まれた
第3章 主成分分析 Ⅲ
4/55
数学系成績 3/18
JMPでの事前分析:ヒストグラムの作成
目的:外れ値や分布状況の確認
手順1.メニューの分析から1変量の分布を選ぶ
手順2.ダイアログが表示される
①分析対象の変数を選ぶ
ここでは5つの科目すべてを選ぶ
②OKボタンを
クリックする
②Y,列ボタンをクリックし
リストに5科目が表示されている
ことを確認する
第3章 主成分分析 Ⅲ
5/55
数学系成績 4/18
ここの赤▼をクリックして,スケールの統一を選ぶ
ˆê•Ï—Ê‚Ì•ª•z
—ÍŠw
ƒxƒNƒgƒ‹
‘ã
”
‰ ð
Í
“
Œv
90
90
90
90
90
80
80
80
80
80
70
70
70
70
70
60
60
60
60
60
50
50
50
50
50
40
40
40
40
40
30
30
30
30
30
20
20
20
20
20
10
10
10
10
10
0
0
0
0
0
ƒ‚
[ƒ
ƒ“ƒg
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
38.954545
•W
€ •Î
·
17.486224
•½‹Ï‚Ì•W
€ Œë
·
1.8640377
•½‹Ï‚̏
ã ‘¤95%
M—ŠŒÀŠE42.659522
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
35.249569
N
88
d ‚݂̏

‡ Œv
88
‡ Œv

3428
•ªŽU
305.76803
˜c“x
-0.329821
ë “x

-0.457353
•Ï“®ŒW
”
44.888789
Œ‡‘ª’l N
1
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
50.590909
•W
€ •Î
·
13.146947
•½‹Ï‚Ì•W
€ Œë
·
1.4014693
•½‹Ï‚̏
ã ‘¤95%
M—ŠŒÀŠE53.376481
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
47.805337
N
88
d ‚݂̏

‡ Œv
88
‡ Œv

4452
•ªŽU
172.84222
˜c“x
-0.227085
ë “x

0.3151193
•Ï“®ŒW
”
25.986778
Œ‡‘ª’l N
1
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
50.602273
•W
€ •Î
·
10.624781
•½‹Ï‚Ì•W
€ Œë
·
1.1326055
•½‹Ï‚̏
ã ‘¤95%
M—ŠŒÀŠE52.853449
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
48.351097
N
88
d ‚݂̏

‡ Œv
88
‡ Œv

4453
•ªŽU
112.88597
˜c“x
-0.323423
ë “x

1.297272
•Ï“®ŒW
”
20.996648
Œ‡‘ª’l N
1
•½‹Ï
46.681818
•W
€ •Î
·
14.845213
•½‹Ï‚Ì•W
€ Œë
·
1.582505
•½‹Ï‚̏
ã ‘¤95%
M—ŠŒÀŠE49.827218
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
43.536418
N
88
d ‚݂̏

‡ Œv
88
‡ Œv

4108
•ªŽU
220.38036
˜c“x
-0.639839
ë “x

-0.458507
•Ï“®ŒW
”
31.800846
Œ‡‘ª’l N
1
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
42.306818
•W
€ •Î
·
17.255589
•½‹Ï‚Ì•W
€ Œë
·
1.839452
•½‹Ï‚̏
ã ‘¤95%
M—ŠŒÀŠE45.962928
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
38.650708
N
88
d ‚݂̏

‡ Œv
88
‡ Œv

3723
•ªŽU
297.75536
˜c“x
0.4697358
ë “x

-0.311596
•Ï“®ŒW
”
40.786781
Œ‡‘ª’l N
1
全体的に5つの科目ともに,単峰形の分布をしていること
を確認しておく.
第3章 主成分分析 Ⅲ
6/55
数学系成績 5/18
各教科の正規性のチェックを行う
教科名の前の赤▼から正規分位点プロットを選び正規性を調べる
ここの赤▼をクリックして正規分位点プロットを選ぶ
正規分位点プロット
データを小さい方から大きい方に
並べ替え,その順番が正規分布を
仮定したときの標準化得点(z得
点)と直線関係にあるかどうかを
検討する.
プロットが蛇行したり,曲線傾向
にあると正規性が成り立っていな
いと判断する
各教科ともにプロットが直線傾向にあり,正規性が成り立って
いることを確認して欲しい
7/55
第3章 主成分分析 Ⅲ
数学系成績 6/18
合成指標の作成
代数と統計の合成指標を作る
最も自然な合成指標は,数学力1=代数+統計(合計点)である
100
これには大きな問題がある
80
60
合計点とは,右のグラフの緑の
矢線にプロットから垂線を下ろし
原点(0,0)からの距離である.
40
プロットの傾向
20
統
計
0
0
10
20
30
40
50
60
70
80
90
100
代数
問題点
主成分とは
第3章 主成分分析 Ⅲ
8/55
数学系成績 7/18
散布図の見方
散布図では,平均線を追加することにより,データの布置を
明快につかむことができる
特に主成分分析を行う事前準備として重要である
平均50
100
第1主成分
分散が最大になる方向の
軸を探すこと
平均42 =主成分からのずれ量が
最小となること
=データのあてはまりが
最良である軸を決める
80
60
40
①原点移動
20
統
計
0
0
10
20
30
40
50
60
70
80
90
100
代数
第3章 主成分分析 Ⅲ
9/55
数学系成績 8/18
l112  l122  1 の制約とは何か
重心(平均ベクトル)からの
距離を変えないで軸を回転させる
回転の中心は重心
0
10
80
平均50
60
z
l12a代数
z l11a統計
1統計
2代数
100
50
a 1統
均
平
z
40
80
20
統
計
0
60
0
平均42
60
0
0
10
20
30
40
50
60
70
80
90
100
数
代
42
均
平
50
統
計
40
20
2
30
a
20
計
10
数
代
40
70
第1主成分:総合ぶり
0
10
z  0,VZ  
90
z  l11統計  l12代数
80
代数
第2主成分:得意-不得意
第3章 主成分分析 Ⅲ
10/55
数学系成績 9/18
P(x,y)
y
z1
θ
z2
cos2   sin 2   1
a1  cos , a2  sin 
θ
x
視点の変更:座標の回転
行列で書くと
z1  x cos  y sin
z2   x sin  y cos
 z1   cos sin   x 
 z    sin cos   y 
 
 2 
第3章 主成分分析 Ⅲ
11/55
数学系成績 10/18
5つの変数で主成分分析を行う
手順1.メニューの分析から多変量→多変量の相関を選ぶとダイアログが表示される
上のダイアログから5つの変数を選びY,列ボタンをクリック
右のリストに追加されていることを確認し,OKボタンをクリック
する
第3章 主成分分析 Ⅲ
12/55
数学系成績 11/18
‘ŠŠÖ
—ÍŠw
ƒxƒNƒgƒ‹
‘ã
”
‰ð
Í
“
Œv
—ÍŠw ƒxƒNƒgƒ‹
‘ã
”
1.0000
0.5534
0.5468
0.5534
1.0000
0.6096
0.5468
0.6096
1.0000
0.4094
0.4851
0.7108
0.3891
0.4364
0.6647
‰ð
Í
0.4094
0.4851
0.7108
1.0000
0.6072
“
Œv
0.3891
0.4364
0.6647
0.6072
1.0000
ŽU•z
}
s—ñ
80
60
40
20
0
90
1
s ‚ÍŒ‡‘ª’l‚Ì‚½‚ߎg—p‚³‚ê‚Ü‚¹‚ñ
B
—ÍŠw
70
ƒxƒNƒgƒ‹
50
30
80
70
60
50
40
30
‘ã
”
80
60
‰ð
Í
40
20
90
70
50
30
10
“
Œv
0 20 40 60 80
30 50 70 90 3040
60
80 20 40 60 80
散布図行列に平均線を追加
して描画した
縦横の目盛をクリックして
平均を入力して参照線を
追加させるとよい.
また,目盛の最小値,最大値
を変更できるので
平均±3sの目盛にすると
標準化された散布図になり
確率楕円の様子がより比較し
やすくなる
10 30 50 70 90
第3章 主成分分析 Ⅲ
13/55
数学系成績 12/18
手順2.多変量の赤▼から主成分分析→相関行列からを選ぶ
固有値,固有ベクトルが
表示される
累積寄与率から
第2主成分までを
採用しよう
Žå
¬ •ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
3.1810
0.7396
0.4450
0.3879
0.2466
Šñ—^—¦
63.6196 14.7914
8.8993
7.7578
4.9318
—ݏ
ÏŠñ—^—¦ 63.6196 78.4110 87.3103 95.0682 100.0000
ŒÅ—LƒxƒNƒgƒ‹
—ÍŠw
0.39960 0.64546 0.62078 -0.14579 0.13067
ƒxƒNƒgƒ‹
0.43142 0.44151 -0.70501 0.29814 0.18175
‘ã
”
0.50328 -0.12907 -0.03705 -0.10860 -0.84669
‰ð
Í
0.45699 -0.38791 -0.13618 -0.66626 0.42219
“
Œv
0.43824 -0.47045 0.31253 0.65892 0.23402
第3章 主成分分析 Ⅲ
因子負荷量は
固有値の平方根と
固有ベクトルの積
i  aij
14/55
数学系成績 13/18
手順3.スクリープロットの作成:固有値グラフ
固有ベクトルの表の上で右クリックし
メニューのデータテーブルに出力を選ぶ
変数名を変更し
主成分の列と固有値,累積寄与率
の行を選択
メニューのテーブルから転置を選ぶ
第3章 主成分分析 Ⅲ
15/55
数学系成績 14/18
転置されたテーブルを使い
メニューのグラフから
重ね合わせプロットを選ぶ
列名を変更しておく
②固有値と累積寄与率
を選択,Yボタンを
クリック
③累積寄与率
を選択,下のボタンを
クリック
矢印が逆→を確認
①ラベルを選択xボタンをクリック
第3章 主成分分析 Ⅲ
16/55
数学系成績 15/18
第2主成分まででほぼ80%の累積寄与率がある.
‚ˁ
d
‡‚킹ƒvƒ
ƒbƒg
Y‚́
d‚ˁ
‡‚킹
4
100
90
ŒÅ—L’l
70
60
2
50
40
30
1
20
10
0
固有値のプロット
線の傾きに着目:
解釈はせいぜい
第2主成分までか?
‚T
¬•ª
‚S
¬•ª
‚R
¬•ª
‚Q
¬•ª
1
¬•ª
0
—ݏ
ÏŠñ—^—¦
80
3
ƒ‰ƒxƒ‹
Ž²:
¶
‰EŽ²:
ŒÅ—L’l
重ね合わせグラフでは,累積寄与率を折れ線に
—ݏ
ÏŠñ—^—¦
固有値を垂線にするとわかりやすい
第3章 主成分分析 Ⅲ
17/55
数学系成績 16/18
手順4.因子負荷量の解釈
大切な因子負荷量行列
主成分の解釈に活用しよう
‘ŠŠÖ
主成分/因子分析の赤▼をクリック
主成分の保存を選ぶ
—ÍŠw
ƒxƒNƒgƒ‹
‘ã
”
‰ð
Í
“
Œv
Žå
¬•ª1
Žå
¬•ª2
—ÍŠw ƒxƒNƒgƒ‹
‘ã
”
1.0000 0.5534 0.5468
0.5534 1.0000 0.6096
0.5468 0.6096 1.0000
0.4094 0.4851 0.7108
0.3891 0.4364 0.6647
0.7127 0.7694 0.8976
0.5551 0.3797 -0.1110
‰ð
Í
0.4094
0.4851
0.7108
1.0000
0.6072
0.8151
-0.3336
“
Œv Žå
¬•ª1 Žå
¬•ª2
0.3891 0.7127 0.5551
0.4364 0.7694 0.3797
0.6647 0.8976 -0.1110
0.6072 0.8151 -0.3336
1.0000 0.7816 -0.4046
0.7816 1.0000 0.0000
-0.4046
0.0000 1.0000
1
s ‚ÍŒ‡‘ª’l‚Ì‚½‚ߎg—p‚³‚ê‚Ü‚¹‚ñ
B
因子負荷量
ダイアログで保存する主成分を
2つ指定する
主成分の解釈
メニューから多変量→多変量の
相関を選び,元の変量と主成分を
分析する変量に選ぶ
第3章 主成分分析 Ⅲ
18/55
数学系成績 17/18
主成分と変量との散布図行列を作成すると
ŽU•z
}
s—ñ
80
60
40
20
0
90
70
50
30
10
80
60
40
20
70
50
30
10
90
70
50
30
10
4
2
0
-2
-4
主成分と変数の散布図の
イメージ z2
—ÍŠw
ƒxƒNƒgƒ‹
代数
z1
‘ã
”
‰ð
Í
“
Œv
Žå
¬•ª1
1
0
Žå
¬•ª2
-2
0 20 4060801030 50709020 40 60 80 10 30 50 70 1030 507090-4 -2 0 2 4
-2
主成分空間(多次元)
z1
代数
多次元回転
代数
0 1 2
グラフの三次元プロットで確認してみよ!!!
第3章 主成分分析 Ⅲ
z1 19/55
数学系成績 18/18
主成分得点の方向
主成分1と代数の散布図方向
‰ ñ“]ƒvƒ
ƒbƒg
¬•ª:

—ÍŠw
ƒxƒNƒgƒ‹
Z: ‘ã
”
‰ð
Í
“
Œv
X: Žå
¬•ª1
Y: Žå
¬•ª2
‰ ñ“]ƒvƒ
ƒbƒg
¬•ª:

—ÍŠw
ƒxƒNƒgƒ‹
Y: ‘ã
”
‰ð
Í
“
Œv
X: Žå
¬•ª1
Z: Žå
¬•ª2
PC2
y
z
x
PC1
代数
y
z
x
PC1
散布図は多次元(この場合には5次元)のデータを
対象となる2つの次元(例;代数と統計)の側から覗いている
多次元空間でばらつきの最も大きい側から覗いているのが
第1主成分
第3章 主成分分析 Ⅲ
20/55
宿題:株式収益率の分析
Excelファイルの主成分例題2004用の株式収益率のシートにある
データを主成分分析してみよ.データの入力ミスが幾つかある
このような外れ値は,その値を10で割って処理しなさい.
概要:ニューヨーク株式取引所で表にされた株式(連合化学,デュポン
ユニオン・カーバイト,エキソン,テキサコ)の毎週の利益率が
1975.1月-1976.12月までの期間にわたりある.
利益率は,株式の分割と配当金に関して調整した上で
((今週金曜日の終値)-(先週金曜日の終値))/ (先週金曜日の終値)
Q1.このデータから,一般的に言われるように
一般経済条件に応じて一緒に動くような株価の横断的成分
(一般株式市場成分)と産業構造間の対比成分(産業成分)
を見出すことが可能であるか
連合化学,デュポン,ユニオン・カーバイト
化学株
エキソン,テキサコ
石油株
第3章 主成分分析 Ⅲ
21/55
3.4.1 従業員満足度 1/5
データ概要
分析に用いる変量は,業務指示,進捗管理,業務内容,部下対話,雰囲気の
5 つである.変量の意味を以下に記す.
・業務指示:上司が部下に業務指示を与えているかを部下の目で回答
・進捗管理:上司が仕事の進捗管理を行っているかを部下の目で回答
・業務内容:上司が仕事の内容を把握しているかを部下の目で回答
・部下対話:上司が部下と気楽に対話を行っているかを部下の目で回答
・雰囲気 :上司は職場の雰囲気に気を使っているかを部下の目で回答
表 3.1 従業員満足度の基本統計量
変量
業務指示 進捗管理 業務内容 部下対話
雰囲気
平均
3.26
3.49
3.30
3.54
3.57
標準偏差
1.197
1.222
1.196
1.082
0.993
第3章 主成分分析 Ⅲ
22/55
3.4.1 従業員満足度 2/5
変量間の関連を調べる
アンケートデータであるから
散布図よりもモザイク図
1.00
1.00
3
0.25
1 2
3
4
0.50
3
0.25
2
1
0.00
4
0.00
1
5
i’»Š Ç—
3
4
0.50
進捗管理
4
0.50
0.00
1
5
3
‹Æ–±ŽwŽ¦
3
4
3
0.25
0.00
0.75
4
0.50
業務内容
3
1 2
3
‹Æ–±ŽwŽ¦
4
0.00
3
4
0.50
3
0.25
2
1
0.00
5
1 2
3
4
4
0.50
3
0.25
3
0.00
2
1
0.00
2
1
3
4
5
1 2
‹Æ–±ŽwŽ¦
3
4
i’»ŠÇ—
図3.13
5
4
5
•µˆÍ‹ C
部下対話
2
3
4
4
0.50
0.00
12
5
2
1
3
4
5
•µˆÍ‹ C
1.00
5
5
0.75
4
0.50
3
0.25
0.00
1
3
0.25
2
1
0.75
0.25
2
2
1
3
5
3
1.00
5
•µˆÍ ‹C
•µˆÍ ‹C
•µˆÍ ‹C
0.50
0.00
12
5
‹Æ–±“à—e
0.75
4
4
0.75
0.50
0.00
1
5
1.00
5
0.75
1
3
4
i’»ŠÇ—
1.00
3
1.00
0.25
2
1
‹Æ–±ŽwŽ¦
4
0.50
グラフから関連
性を読み取る
0.25
2
1
0.75
•”‰º‘Θb
3
0.25
•”‰º‘Θb
•”‰º‘Θb
0.50
2
3
0.75
5
0.75
1
4
0.50
1.00
5
4
5
5
•”‰º‘Θb
1.00
4
4
•µˆÍ‹ C
0.75
0.00
12
5
5
0.75
2
1
3
1.00
i’»ŠÇ—
1.00
0.00
12
5
0.25
2
1
0.00
5
3
•”‰º‘Θb
2
1
2
3
4
‹Æ–±“à—e
5
•µˆÍ ‹C
4
4
4
0.50
0.25
2
1
3
0.75
5
0.25
2
1
3
3
5
1.00
‹Æ–±“à—e
4
0.50
2
0.50
5
‹Æ–±“à—e
‹Æ–±“à—e
0.75
1
4
0.00
12
5
1.00
5
5
•µˆÍ‹ C
0.75
‹Æ–±“à—e
1.00
4
1.00
0.25
2
1
2
2
1
3
5
‹Æ–±“à—e
4
0.75
0.25
2
1
3
0.00
12
5
•”‰º‘Θb
3
3
4
1.00
i’»ŠÇ—
i’»ŠÇ—
i’»ŠÇ—
4
2
3
4
0.50
0.25
2
1
5
0.75
5
0.75
•”‰º‘Θb
1.00
1
3
0.00
12
5
5
0.00
0.50
‹Æ–±“à—e
1.00
0.25
4
0.25
2
1
2
0.75
‹Æ–±ŽwŽ¦
0.50
1.00
5
5
0.75
‹Æ–±ŽwŽ¦
業務指示
4
‹Æ–±ŽwŽ¦
‹Æ–±ŽwŽ¦
5
0.75
i’»ŠÇ—
1.00
4
0.50
3
0.25
0.00
12
雰囲気 2
1
3
4
5
•”‰ º‘Θb
モザイク図の行列(レイアウトの関係で著者が編集した)
第3章 主成分分析 Ⅲ
23/55
3.4.1 従業員満足度 3/5
主成分分析の実行
‘ŠŠÖ
‹Æ–±ŽwŽ¦
i’»ŠÇ— ‹Æ–±“à—e
•”‰º‘Θb
‹Æ–±ŽwŽ¦ 1.0000 0.5634 0.4209 0.4253
i’»ŠÇ—

0.5634 1.0000 0.5711 0.2935
‹Æ–±“à—e 0.4209 0.5711 1.0000 0.1696
•”‰º‘Θb
0.4253 0.2935 0.1696 1.0000
•µˆÍ‹C
0.2697 0.1801 0.1580 0.5394
•µˆÍ‹C
0.2697
0.1801
0.1580
0.5394
1.0000
図3.14 従業員満足度の散布図行列
・相関行列からスタートする
・相関係数の値から業務指示がキー
・相関係数0.4以上を線で結ぶと
対話
指示
雰囲気
管理
内容
第3章 主成分分析 Ⅲ
24/55
3.4.1 従業員満足度 4/5
因子負荷量を表示させる
Žå
¬•ª/ˆöŽq•ª
Í
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
2.4589 1.1755
Šñ—^—¦
49.1778 23.5107
—ݏ
ÏŠñ—^—¦
49.1778 72.6885
ŒÅ—LƒxƒNƒgƒ‹
‹Æ–±ŽwŽ¦
0.50669 -0.11712
i’»ŠÇ—

0.49453 -0.37569
‹Æ–±“à—e
0.42880 -0.45700
•”‰º‘Θb
0.43022 0.51589
•µˆÍ‹C
0.36020 0.60841
図3.15
0.5842 0.4045 0.3769
11.6838 8.0901 7.5376
84.3723 92.4624 100.0000
-0.58316
-0.06619
0.59147
-0.24260
0.49685
0.50859
-0.10473
-0.18909
-0.68618
0.47304
第2主成分まで解釈しよう
0.36168
-0.77391
0.47085
0.13809
-0.17168
従業員満足度のPCAの出力
第1主成分は全て
正相関で比較的
大きい値(総合力)
図3.16
因子負荷量を追加した相関係数行列
第3章 主成分分析 Ⅲ
第2主成分は正負に
別れて対立概念
・管理,内容(負)
・対話,雰囲気(正)
25/55
3.4.1 従業員満足度 5/5
主成分得点の散布図で確認
図3.18
主成分(左)と因子の散布図
うまく変量が
2分類できた
しかも無相関!!
図3.17
バリマックス回転後の結果
第3章 主成分分析 Ⅲ
26/55
3.4.2 理想の恋人の重要度 1/5
理想の恋人アンケート
5段階評点尺度
・経済力:相手の所得や金銭的余裕度
・容姿:相手の容姿
・性格:相手の性格
・年齢:自分と相手との年齢の差
・趣味:自分と相手との趣味の一致度
・相性:自分と相手との相性の良さ
・距離:自分と相手との居住地間の距離
どの項目に関連があるとおもうか?
活用術 3.3:相関と PCA
PCA は1組の相関のある変量を無相関な変量の新しい組に変換する.
つまり,元の変量がほぼ無相関であれば PCA を使うご利益はない.
アンケートデータでは,項目を絞ると
設問間に弱い相関しか現れないことがある.
27/55
第3章 主成分分析 Ⅲ
3.4.2 理想の恋人の重要度 2/5
1回目の主成分分析
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”s
—ñ‚©‚ç
ŒÅ—L’l
1.9634
1.5624
1.0876
0.9061
0.6762
0.5584
0.2458
Šñ—^—¦
28.0484 22.3198 15.5373 12.9446 9.6607
7.9778
3.5115
—ݏ
ÏŠñ—^—¦ 28.0484 50.3682 65.9055 78.8501 88.5108 96.4885 100.0000
ŒÅ—LƒxƒNƒgƒ‹
Œo
Ï—Í
0.55052 0.11472 -0.23283 0.44727 0.20512 0.25587 -0.56741
—eŽp
0.09225 -0.26122 0.82934 0.07862 0.32815 -0.25487 -0.23796
«Ši

0.58495 -0.25049 0.06001 0.32934 -0.14040 -0.04930 0.67889
”N—î
-0.47990 0.12170 0.09326 0.55305 0.41132 0.42705 0.29794
Žï–¡
0.11532 0.63492 -0.11325 0.01096 0.43425 -0.58926 0.18662
‘Š
«
0.31288 0.41055 0.31781 -0.50343 0.12666 0.57916 0.16628
‹——£
0.06898 -0.51901 -0.36312 -0.35480 0.67582 0.04602 0.09639
いきなり主成
分を行っては
いけない
まずはモニタ
リングから
第一主成分
経済力,性格 VS 年齢
第二主成分
趣味,相性 VS 距離
図3.19
元の変量の相関と因子負荷量の行列
第3章 主成分分析 Ⅲ
この結果は本当か?
28/55
3.4.2 理想の恋人の重要度 3/5
活用術 3.4:PCA は相関構造の分解
PCA は相関構造を分解し解釈可能な成分を提供してくれるが,相関構造には,
平均や標準偏差に関する情報が取り除かれている.つまり,PCA は変量の平均
的な位置関係を表現するものではない.
平均値を調べる,標準偏差を調べる
表 3.2 理想の恋人の重要度の基本統計量
変量
経済力
容姿
性格
年齢
趣味
平均
2.15
3.80
4.60
3.00
標準偏差
0.933
0.951
0.598
1.026 1.234
3.05
相性
距離
4.10
2.55
1.021
1.191
この高い平均と
小さい標準偏差に着目
皆が共通して重要と答えたのでほとんどばらつかない
第3章 主成分分析 Ⅲ
29/55
3.4.2 理想の恋人の重要度 4/5
回答者のパターンの共通性を見たいなら,分析の行
と列は逆である
禁じ手:データ行列の転置
テーブルメニューから転置を使う
第3章 主成分分析 Ⅲ
30/55
3.4.2 理想の恋人の重要度 5/5
2.3120
11.5601
79.9675
1.7027
8.5133
88.4808
0.33564
-0.04449
-0.02499
-0.16780
-0.33139
-0.06155
0.32505
-0.21262
-0.31076
0.34354
-0.36431
0.02013
0.20402
0.31636
-0.15902
-0.00109
0.26466
0.03338
-0.07755
0.01451
-0.14139
0.25306
0.02863
-0.09577
0.05998
-0.19792
-0.05540
0.41659
-0.09240
-0.13148
-0.02564
-0.00334
0.31896
-0.02200
-0.26417
-0.21562
0.23624
-0.35727
-0.08505
0.50091
Žå
¬ •ª1‚ÆŽå
¬ •ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1.2427
1.0611
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000 -0.0000 -0.0000 -0.00
4
6.2137
5.3055
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000 -0.0000 -0.0000 -0.00
94.6945 100.0000 100.0000 100.0000 100.0000 100.0000 100.0000
‹——£ 100.0000 100.0000 100.0000 100.0
-0.47765
-0.07360
0.11701
-0.11177
0.35992
-0.04218
0.07979
-0.23042
-0.01335
0.41070
-0.06334
-0.03716
0.11896
0.12292
0.24688
-0.50412
0.01785
-0.00063
0.17370
-0.01968
0.16415
0.02967
-0.09418
-0.00721
0.05002
-0.08241
0.63548
0.23450
0.06230
-0.05346
-0.07965
-0.08055
-0.17465
-0.16077
0.01651
-0.06524
-0.23741
0.03434
0.56899
0.18273
-0.18422
-0.11582
-0.57024
0.14665
-0.19189
-0.30066
-0.01459
0.16813
0.02795
0.26635
0.17493
0.20145
0.28377
-0.17184
0.19031
0.12100
0.05052
0.36222
-0.02705
0.10938
-0.01561
0.01151
0.22573
-0.50838
-0.01522
0.05676
-0.00771
0.18295
0.24540
0.12712
-0.21310
-0.28777
-0.14710
-0.30604
0.17441
0.11168
0.17378
0.39985
-0.24708
0.19828
0.19731 -0.07145 0.10943 0.17343 0.39399 -0.14639 0.26
2 -0.09529 -0.19209 -0.10667 -0.16477 0.29812 -0.231
-0.19983
-0.07072 0.00579 0.03195 0.11781 0.09175 -0.22502
-0.481
« Ši

-0.43471 0.10689 -0.00376 0.06704 —eŽp
0.17917 -0.15298 0.04
0.19146 -0.10951 0.25091”N—î
-0.03859 -0.08085 -0.51191 0.27
0 0.14302 -0.00210 0.19108 0.20633 0.38210 0.24
-0.21707
0.06003 0.22056 -0.25932 -0.15998 0.01031 -0.07638 -0.269
Œo
Ï—Í0.48619 0.21655 -0.03046 0.14622 -0.069
-0.08052 0.34602
‘Š
«
0.37049 -0.15161 -0.10459 -0.42125 0.34368 0.32017 0.04
-2 -0.05182 -0.08616 0.54359 0.03724 0.04973 -0.028
0.10618
0.54093 0.33593 -0.28745 0.32446 -0.03817 0.03434 -0.145
Žï–¡ 0.03823 -0.02790 0.15498 -0.323
0.02453 -0.60901 0.18447
0.02080 0.15232 0.03067 -0.32806 0.49426 -0.22315 -0.087
-4 0.36686 0.20854 -0.30695 -0.37837 0.18604 0.09
0.17518
-0.36595-5 0.14399 -2.5
-0.25834 -0.12793
0.00824
0.20
0
2.5 -0.00413
5
0.02384 -0.06515 -0.19434 Žå
-0.10560
-0.41491 -0.33167 0.01
¬•ª1
0.10598 -0.08988 0.01534 -0.01671 -0.14109 0.12673 0.33
-0.04955
0.42525 -0.11044 -0.05342 -0.05486 -0.172
図3.20 0.07598
転置後の主成分得点1&2の散布図
0.05082 -0.21431 0.17019 0.01998 -0.12403 0.14992 0.19
-0.09843 -0.14690 -0.29920 0.08810 -0.08605 -0.11932 0.23
Žå
¬•ª2
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”s
—ñ‚©‚ç
ŒÅ—L’l
9.7246
3.9569
Šñ—^—¦
48.6228 19.7846
—ݏ
ÏŠñ—^—¦ 48.6228 68.4074
ŒÅ—LƒxƒNƒgƒ‹
s
1
0.20016 0.03086
s
2
0.28232 0.16183
s
3
0.31553 0.02559
s
4
0.24375 -0.28701
s
5
0.23267 -0.11226
s
6
0.27038 0.22718
s
7
0.10957 -0.22331
s
8
0.11430 -0.29682
s
9
0.17243 -0.34417
s
 10
0.16275 -0.23976
s
 11
0.20887 0.25439
s
 12
0.31436 -0.08627
s
 13
0.17127 0.31608
s
 14
0.26988 -0.05796
s
 15
0.27460 -0.05821
s
 16
0.24641 -0.05040
s
 17
0.24944 -0.14018
s
 18
0.16149 0.36434
s
 19
0.08424 0.36382
s
 20
0.19132 0.21354
重要項目
これ以降の固有値は0
解釈は 頑張っても
実際は6次元しかない
第2主成分まで!!
・元々行の個数が7しかない
・第1主成分以外はあてにならない
第3章 主成分分析 Ⅲ
31/55
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 1/6
データの概要
ある研修施設の食堂のメニュー改善のために取った食事
アンケート(5段階評点:数値が大きいほど好きな食品)データ
である.
変数は,地域と年代,サンプルは食品
分析する上での注意点
食品のアンケートについて出身地域,年代に層別して
評点の平均が求まっている
変数間には強い相関があるであろう
知りたいこと
出身地域,年代で食品の好みが変わってくるか
第3章 主成分分析 Ⅲ
32/55
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 2/6
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
4.5234 0.5467 0.3724 0.2408 0.2167 0.0999
Šñ—^—¦
75.3899 9.1124 6.2074 4.0129 3.6120 1.6653
—ݏ
ÏŠñ—^—¦ 75.3899 84.5023 90.7098 94.7226 98.3347 100.0000
ŒÅ—LƒxƒNƒgƒ‹
“Œ“ú–{20‘ã
0.41391 0.23655 -0.58445 0.36355 -0.21750 0.50165
¬•ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
“Œ“ú–{30‘ã Žå
0.41771
0.04110 -0.46237
-0.58150 0.43009 -0.29482
“Œ“ú–{40‘ã
0.39540
-0.58784
0.02727
0.57309
0.25579 -0.32171
ŒÅ—L’l
4.5234
0.5467
0.3724
¼“ú–{20‘ã

0.37322 0.66191 0.49348 0.21243 0.36361 -0.04141
Šñ—^—¦
75.3899
9.1124
6.2074
¼“ú–{30‘ã

0.43109 0.07613 0.15055
-0.13835
-0.75503 -0.44328
¼“ú–{40‘ã

0.41560
-0.39100 0.42154
-0.37011
-0.0023890.7098
0.59976
—ݏ
ÏŠñ—^—¦
75.3899
84.5023
生データ
東日本20代~西日本40代
でそのまま主成分分析を行うと
0.2408 0.2167 0.0999
慣例によれば,第1主成分だけまで
4.0129 3.6120 1.6653
解釈すればよいことになる.
94.7226 98.3347 100.0000
ŒÅ—LƒxƒNƒgƒ‹
図3.21 食の好みのPCAの出力
“Œ“ú–{20‘ã
0.41391 0.23655
-0.58445 0.36355 -0.21750 0.50165
成分行列a
因子負荷量
“Œ“ú–{30‘ã
0.41771 0.04110 -0.46237 -0.58150 0.43009 -0.29482
成分 0.02727 0.57309 0.25579 -0.32171
“Œ“ú–{40‘ã
0.39540 -0.58784
2
3
4
5
60.36361 -0.04141

¼
“ú–{20‘ã 1 0.37322
0.66191
0.49348
0.21243
第1主成分の意味は,
東日本20代
.902
.120
-.339
.169 -7.307E-02
.153

¼
“ú–{30‘ã .902 0.43109
0.15055
-0.13835
-0.75503 -0.44328
東日本30代
-1.030E-02 0.07613
-.260
-.299
.149 -8.034E-02
食品の年代によらない好みとなる

¼
“ú–{40‘ã .867 0.41560
0.42154
-0.37011
-0.00238 0.59976
東日本40代
-.390 -0.39100
3.738E-02
.252
.148 -9.555E-02
図 3.21
食の好みの
PCA.161の出力
.235
6.979E-02
-1.362E-02
これはつまらない結果である
西日本20代
.810
.507
西日本30代
.930 5.773E-02
西日本40代
.896
-.251
因子抽出法: 主成分分析
a. 6 個の成分が抽出されました
7.040E-02 -1.501E-02
-.330
.281
-.161 -2.182E-02
-.131
.167
活用術 3.5:第1主成分
互いに強い相関を持つ同質な変量群に PCA を実行すると,第 1 固有値だけが
大きくなり,解釈可能な主成分は総合指標(主成分 1)のみという,結果が得
られることが多い.
第3章 主成分分析 Ⅲ
33/55
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 3/6
そこで,行標準化というテクニックを使う
意味:年代と地域による好みの違いを調べるために全体的な好み効果を消す
x1
x2
5
0.667
4
0.333
x3
3
0
2
-0.333
1
表 行基準化の数値例
x1
a 1
b 3
c 5
-0.667
a
b
c
a
得点の値そのものに意味がある。
サンプルの配点の甘辛位置が相関に含まれる
b
x2
2
2
5
x3 y1
y2
y3
2 -0. 667 0. 333 0. 333
3 0. 333 -0. 667 0. 333
4 0. 333 0. 333 -0. 667
c
得点の値そのものに意味はない。
サンプルの反応パターンが相関になる
活用術 3.6:行方向の標準化
①分散を 1 に調整する :個体の評点のばらつかせ方を考慮しない
②分散を 1 に調整しない:個体の評点のばらつかせ方に意味がある
①
ya1   xa1  a  / sa
 0.667 / 0.577  1.16
②
ya1  xa1  a
ya1  0.667  1  (1  2  2) / 3
34/55
 1 1.667
第3章 主成分分析 Ⅲ
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 4/6
行標準化したデータV8-V13(東日本20代~西日本40代)で主成分分析を行う.
ŽU•z
}
s —ñ
”[“¤
0.4
”[“¤
”[“¤
“Œ“ú–{20‘ã1
0.1
-0.1
0.4
”[“¤
”[“¤ ”[“¤
0.2
“Œ“ú–{30‘ã1
0
-0.2
0.6
”[“¤
”[“¤
0.2
“Œ“ú–{40‘ã1”[“¤
-0.2
0.5
”[“¤ ”[“¤ 2.0922
ŒÅ—L’l
1.5452
1.0664
0.8006
Šñ—^—¦
34.8707
25.7525
17.7733
13.3441
—ݏ
ÏŠñ—^—¦
34.8707
60.6233
78.3966
91.7407
ŒÅ—LƒxƒNƒgƒ‹
”[“¤ ”[“¤
“Œ“ú–{20‘ã1
0.49799
0.25396 -0.34033
0.33074
“Œ“ú–{30‘ã1
0.36324
0.41187
0.04271 -0.73514
“Œ“ú–{40‘ã1 -0.43356
0.43249 -0.33557
0.34119
”[“¤
¼“ú–{20‘ã1

0.16443
-0.75431
-0.18616
-0.03582
”[“¤
¼“ú–{30‘ã1

0.26328
0.09772
0.80397
0.40823
¼“ú–{40‘ã1

-0.57943 -0.01682
0.29786 -0.25657
”[“¤
”[“¤
¼“ú–{20‘ã1

”[“¤
”[“¤
”[“¤
”[“¤
”[“¤
”[“¤
”[“¤
0
-0.5
0.3
0.1
-0.1
-0.3
0.2
-0.2
-0.6
Žå
¬ •ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
”[“¤
”[“¤
0.4956
-0.0000
8.2593
-0.0000
100.0000 100.0000
0.58637
-0.23424
-0.45898
-0.23025
-0.18793
0.54982
0.34419
0.31827
0.43045
0.56127
0.26981
0.45512
図3.23 行標準化後の食の好みのPCAの出力
”[“¤

¼“ú–{30‘ã1
”[“¤
”[“¤
¼“ú–{40‘ã1

”[“¤
-0.1 .2 .4.6
-0.20.1 .3 -0.2 .2.4.6-0.5 0 .5
-0.3 0 .2 -0.6 0.2
一般に相関係数は生データのときより
小さくなる
図3.22 行標準化後の散布図行列
第3章 主成分分析 Ⅲ
35/55
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 5/6
•W
€‰»Žå
¬•ª1‚Æ•W
€‰»Žå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
Žå
¬•ª2
0.5
0
“Œ“ú–{40‘ã1
“Œ“ú–{30‘ã1
“Œ“ú–{20‘ã1
¼“ú–{30‘ã1

¼“ú–{40‘ã1

-0.5
-1
-1
-0.5
0
Žå
¬•ª1
¼“ú–{20‘ã1

.5
1
4
•W
€‰»Žå
¬•ª2
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1
”[“¤
2
0
-2
-4
-3
-2
-1
0
1
•W
€‰»Žå
¬•ª1
2
3
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950
図3.24 主成分1&2の因子負荷量(左)と主成分得点(右)の散布図
食品の納豆は明らかな外れ値である これを外して再分析してみよう
Žå
¬ •ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
2.3759
1.2500
1.0489
0.7799
0.5453 -0.0000
Šñ—^—¦
39.5977 20.8337 17.4822 12.9976
9.0888 -0.0000
—ݏ
ÏŠñ—^—¦ 39.5977 60.4314 77.9136 90.9112 100.0000 100.0000
ŒÅ—LƒxƒNƒgƒ‹
“Œ“ú–{20‘ã1 0.39349 -0.29703 0.07042 0.81201 0.06697 0.29687
“Œ“ú–{30‘ã1 0.10189 0.53701 0.75211 -0.04778 0.19023 0.31162
“Œ“ú–{40‘ã1 -0.50089 -0.40589 0.00411 -0.12890 0.58247 0.47798
¼“ú–{20‘ã1

0.53158 -0.23548 -0.09713 -0.51589 -0.27706 0.55644
¼“ú–{30‘ã1

0.10359 0.61743 -0.64730 0.09936 0.30512 0.29339
¼“ú–{40‘ã1 -0.53906 0.14827 -0.03042 0.21382 -0.67096 0.43657

図3.25 納豆を除外後のPCAの結果
第3章 主成分分析 Ⅲ
36/55
3.4.3 食べ物の好みに関する調査
総合ぶりに興味がない場合は行標準化 6/6
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1
¼“ú–{30‘ã1

“Œ“ú–{30‘ã1
0.5
Žå
¬•ª2
¼“ú–{40‘ã1

0

¼
“ú–{20‘ã1
“Œ“ú–{20‘ã1
“Œ“ú–{40‘ã1
-0.5
•W
€‰»Žå
¬•ª2
•W
€‰»Žå
¬•ª1‚Æ•W
€‰»Žå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
3
éLŽq
2
ŽÏ‹›
1
ƒVƒ…ƒEƒ}
–ì
؎ς‚¯
0
ƒIƒ
ƒV —‘
@
“V‹¼”ž
-1
ƒRƒ
ƒbƒP
ƒnƒ“ƒo
\ ƒO
-2
–ì
؃Tƒ‰ƒ_
-1
-1
-0.5
0
Žå
¬•ª1
.5
-3
1
-3
-2
-1
0
1
•W
€‰»Žå
¬•ª1
2
3
図3.26 主成分1&2の因子負荷量(左)と主成分得点の散布図(右)
“Œ“ú–{20‘ã1
Žå
¬•ª4
0.5
0
¼ “ú–{40‘ã1

¼ “ú–{30‘ã1

“Œ“ú–{30‘ã1
“Œ“ú–{40‘ã1
¼ “ú–{20‘ã1

-0.5
•W
€‰ »Žå
¬•ª3‚Æ•W
€‰ »Žå
¬•ª4‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2
–ì
Ø ƒTƒ‰ƒ_
Ä‹› ŽÏ‹›

1.5
Žh
g
i‹›
j
1
‹›ƒtƒ‰ƒC
“V‹¼”ž
0.5
–ì
Ø ŽÏ‚‚¯
0
¶›I

Ä‚«
i“Ø“÷
j
-0.5
•W
€‰»Žå
¬•ª4
Žå
¬ •ª3‚ÆŽå
¬ •ª4‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1
-1
-1.5
-1
-1
-0.5
0
Žå
¬ •ª3
.5
1
-2
-2.5
—‘
@
ƒIƒ
ƒƒRƒ
V ƒbƒP
-1.5-1 -0.5 0 .5 1 1.5 2 2.5
•W
€‰»Žå
¬•ª3
図3.27 主成分3&4の因子負荷量(左)と主成分得点の散布図(右)
第3章 主成分分析 Ⅲ
37/55
主成分による外れ値分析
活用術 3.7:PCA の外れ値分析
小規模データセットに PCA を実行する場合には,主成分座標での外れ値に注
意する.外れ値は 2 種類あり,
・大きい固有値に対する外れ値は主成分の解釈を困難にする.
・小さい固有値に対する外れ値は無意味な主成分を抽出する(練習問題 3.4).
主成分平面から
外れた空間にあり
無意味な主成分を作る
第3主成分
全体の相関構造を
不当に歪める
外れ値B
外れ値A
少数サンプルの場
合の主成分分析で
第1主成分 は,外れ値に注意
して主成分の解釈
を行ってみよう
第2主成分
図:主成分分析による多変量空間の外れ値分析のイメージ
第3章 主成分分析 Ⅲ
38/55
3.4.4 選挙データから見た首相人気 1/7
2000年&2001年の比例区の選挙結果を分析する
2001年参議院
県 民主 自由 共産 ・・・ 自民
北海道
鹿児島
青森
岩手
秋田
・
・
・
沖縄
県 民主 自由 共産 ・・・ 自民
北海道
鹿児島
沖縄
3元データ
青森
岩手
秋田
・
・
・
森内閣の支持率が
激減し与党勢力が
ピンチとなる
2001年参議院
2000年衆議院
青森
岩手
秋田
・
・
・
2000年衆議院
県 民主 自由 共産 ・・・ 自民
北海道
改革を旗印に
小泉氏が登場
国民の期待が膨らむ
鹿児島
沖縄
図3.28 3元データを2元に再配置
・自民支持者のうち,リベラルな人々が右往左往した
・リベラルではなくて,世相追随者??
第3章 主成分分析 Ⅲ
39/55
3.4.4 選挙データから見た首相人気 2/7
選挙の得票数で分析すると
ˆê•Ï—Ê‚Ì•ª•z
Ž©—R“}
–¯Žå“}
2000000
ŽÐ–¯“}
2000000
‹¤ŽY“}
Œö–¾“}
Ž©–¯“}
2000000
2000000
2000000
2000000
1500000
1500000
1500000
1500000
1000000
1000000
1000000
1000000
“Œ‹ž
1500000
1500000
1000000
1000000
_“ޏ

ì
500000
0
ˆê•Ï—Ê‚Ì•ª•z
Ž©—R“}
“Œ‹ž
_“ޏ

ì
‘å
ã
500000
0
–¯Žå“}
‘å
ã
500000
_“ޏ

ì
“Œ‹ž
‘å
ã
500000
0
ŽÐ–¯“}
“Œ‹ž
‘å
ã
_“ޏ

ì
500000
0
‹¤ŽY“}
0
Œö–¾“}
“Œ‹ž
‘å
ã
_“ޏ

ì
500000
0
Ž©–¯“}
2000000
2000000
2000000
2000000
2000000
2000000
1500000
1500000
1500000
1500000
1500000
1500000
1000000
1000000
1000000
1000000
1000000
1000000
500000
500000
500000
500000
500000
500000
0
0
0
0
0
“Œ‹ž
_“ޏ

ì
0
図3.29 各政党の得票数の都道府県別得票数(上:00年,下01年)
・都道府県の得票数分布は極めていびつ
・都道府県人口が大きく異なる
第3章 主成分分析 Ⅲ
40/55
3.4.4 選挙データから見た首相人気 3/7
ŽU•z
}
s—ñ
‘ŠŠÖ
Ž©—R“}
–¯Žå“}
ŽÐ–¯“}
‹¤ŽY“}
Œö–¾“}
Ž©–¯“}
Ž©—R“} –¯Žå“}
1.0000
0.9478
0.9478
1.0000
0.9158
0.9122
0.9317
0.9325
0.8657
0.8467
0.7994
0.7812
ŽÐ–¯“}
0.9158
0.9122
1.0000
0.9029
0.8697
0.8016
‹¤ŽY“}
0.9317
0.9325
0.9029
1.0000
0.9216
0.7988
Œö–¾“}
0.8657
0.8467
0.8697
0.9216
1.0000
0.9178
Ž©–¯“}
0.7994
0.7812
0.8016
0.7988
0.9178
1.0000
5
s‚ÍŒ‡‘ª’l‚Ì‚½‚ߎg—p‚³‚ê‚Ü‚¹‚ñ
B
図3.30 得票数の相関係数行列
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”s
—ñ‚©‚ç
ŒÅ—L’l
5.2874
0.3381
Šñ—^—¦
88.1235 5.6350
—ݏ
ÏŠñ—^—¦ 88.1235 93.7585
ŒÅ—LƒxƒNƒgƒ‹
Ž©—R“}
0.40564 -0.37362
–¯Žå“}
0.41429 -0.31179
ŽÐ–¯“}
0.40581 -0.24751
‹¤ŽY“}
0.42019 -0.15404
Œö–¾“}
0.41426 0.40248
Ž©–¯“}
0.38854 0.71848
0.1437
2.3946
96.1531
0.1195
1.9923
98.1454
0.0875
0.0238
1.4575
0.3970
99.6030 100.0000
-0.50380 0.50088 -0.43020 -0.07805
-0.15595 -0.10761 0.77470 -0.30836
0.83231 0.26290 -0.08402 0.07169
-0.12539 -0.61383 -0.15036 0.62016
0.05610 -0.37878 -0.35144 -0.62950
-0.10125 0.38491 0.24817 0.33589
700000
500000
300000
100000
1500000
1000000
500000
450000
350000
250000
150000
50000
900000
700000
500000
300000
100000
700000
500000
300000
100000
2000000
1500000
1000000
500000
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
“ޏ
ì
“ޏ
_
ì
“ޏ
_
ì
“ޏ
_
ì
“ޏ
_
ì
Ž©—R“} _
‘å
ã
‘å
ã
‘å
ã
‘å
ã
‘å
ã
‹ž“s
‹ž“s
‹ž“s
’·–ì
’·–ì
’·–ì
’·–ì
ΉªŽR

ì‹ž“s

’·–ì
ΉªŽR

쎭Ž™“‡

’·–ì
ÎŽ­Ž™“‡

‰ªŽR
ì’·–ì

Ώ

쎭Ž™“‡
’·–ì
‰ªŽR
Î’·–ì

’·–ì
‰ªŽR
ìª

Ž­Ž™“‡
Ž­Ž™“‡
“‡
ª
“‡
ª
“‡
ª‹ž“s
“‡
ª
“‡
_“ޏ

ì
_“ޏ

ì
_“ޏ

ì
_“ޏ

ì
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
‘å
ã
‘å
ã
‘å
ã
‘å
ã –¯Žå“}
’·–ì
’·–ì
’·–ì
’·–ì
’·–ì
’·–ì
‹ž“s
‹ž“s
‹ž“s
‰ªŽR
‰ªŽR
‰ªŽR
‰ªŽR
Î’·–ì

ìª

Γ‡

쎭Ž™“‡

ÎŽ­Ž™“‡

ì’·–ì

Ώ

쎭Ž™“‡
“‡
Ž­Ž™“‡
ª
“‡
ª‹ž“s
“‡
ª
‘å
‘å
‘å
‘å
_“ޏ

ìã
_“ޏ

ìã
_“ޏ

ìã
_“ޏ

ìã
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
ŽÐ–¯“}
’·–ì
’·–ì
’·–ì
’·–ì
‹ž“s
‹ž“s
‹ž“s
‹ž“s
’·–ì
’·–ì
’·–ì
’·–ì
Ž­Ž™“‡
Ž­Ž™“‡
‰ªŽR
‰ªŽR
“‡
ΉªŽR

ìª

“‡
ΉªŽR

ìª

ÎŽ­Ž™“‡

“‡
ìª

Ώ

“‡
쎭Ž™“‡
ª
‘å
ã
‘å
ã
‘å
ã
‘å
ã
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
_“ޏ

ì
_“ޏ

ì
_“ޏ

ì
_“ޏ

ì
‹¤ŽY“}
‹ž“s
‹ž“s
‹ž“s
‹ž“s
’·–ì
’·–ì
’·–ì
’·–ì
’·–ì
’·–ì
‰ªŽR
‰ªŽR
Ž­Ž™“‡
Ž­Ž™“‡
“‡
Î’·–ì

ìª

“‡
ΉªŽR

ì’·–ì

ª
ΉªŽR

“‡
쎭Ž™“‡

ª
Ώ

“‡
쎭Ž™“‡
ª
‘å
ã
_“ޏ

ì
_“ޏ

ìã
_“ޏ

ìã
_“ޏ

ìã Œö–¾“}
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
‘å
‘å
‘å
‰ªŽR
‰ªŽR
‰ªŽR
‰ªŽR
‹ž“s
‹ž“s
’·–ì
’·–ì
Ž­Ž™“‡
’·–ì
Ž­Ž™“‡
’·–ì
’·–ì
’·–ì
“‡
Î’·–ì

ìª

“‡
Ώ

ì‹ž“s
ª
Ώ

“‡
쎭Ž™“‡
ª
ÎŽ­Ž™“‡

“‡
ì’·–ì

ª‹ž“s
“ޏ
_
ì
“Œ‹ž
‘å
ã
’·–ì
’·–ì
‰ªŽR
΋ž“s

ìª

“‡
Ž­Ž™“‡
‘å
ãì
“ޏ
_
“Œ‹ž
’·–ì
‹ž“s
’·–ì
‰ªŽR
“‡
ÎŽ­Ž™“‡

ìª

‘å
ã
“Œ‹ž
“ޏ
_
ì
‹ž“s
’·–ì
’·–ì
Ž­Ž™“‡
“‡
ΉªŽR

ìª

‘å
ãì
_“ޏ

“Œ‹ž
‰ªŽR
’·–ì
’·–ì
Ž­Ž™“‡
“‡
΋ž“s

ìª

“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
“Œ‹ž
“ޏ
_
ìã
_“ޏ

ìã
_“ޏ

ìã
_“ޏ

ìã
_“ޏ

ìã Ž©–¯“}
‘å
‘å
‘å
‘å
‘å
Ž­Ž™“‡
‰ªŽR
Ž­Ž™“‡
’·–ì
‰ªŽR
’·–ì
Ž­Ž™“‡
‰ªŽR
’·–ì
‰ªŽR
‹ž“s
‹ž“s
‹ž“s
Î’·–ì

’·–ì
ìª

ΉªŽR

ì‹ž“s

’·–ì
Γ‡

쎭Ž™“‡

’·–ì
Γ‡

ì’·–ì

’·–ì
Γ‡

쎭Ž™“‡

’·–ì
“‡
“‡
ª
ª
ª‹ž“s
ª
100000700000
500000
50000 350000
100000800000
100000700000
500000
図3.31 選挙データのPCAの出力
どの政党にも正相関がある:本当か?
何か変ではないか?
一人,1政党しか選べないのに?
与野党対決はないということ?
第3章 主成分分析 Ⅲ
41/55
3.4.4 選挙データから見た首相人気 4/7
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
4
—^“}ŽxŽ
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1
01年
Ž©–¯“}
Œö–¾“}
Žå
¬•ª2
0.5
‹¤ŽY“}
ŽÐ–¯“}
Ž©—R“}
–¯Žå“}
0
-1
“Œ‹ž
‘å
ã
_“ޏ

ì
“¾•[
”
¨
0
‘å
ã
00年
-0.5
-1
Žå
¬•ª2
2
_“ޏ

ì
“Œ‹ž
-2
-0.5
0
Žå
¬•ª1
.5
都市部ほど
大きく
シフトした?
–ì“}ŽxŽ
1
-4
-8
-4
0
Žå
¬•ª1
4
8
“ñ•Ï—ʏ
³‹K‘ȉ~ P=0.950 ‘I‹“”N=="2000
O‹c‰@"
“ñ•Ï—ʏ
³‹K‘ȉ~ P=0.950 ‘I‹“”N=="2001ŽQ‹cˆõ"
図3.32 主成分1&2の因子負荷量(左),主成分得点(右)
活用術 3.8:交絡
元々規模が大きく異なる個体が含まれるようなデータの場合には,個体の規
模を規定する要素と分析目的である要素が,交絡して好ましい結果が得られな
い.
第3章 主成分分析 Ⅲ
42/55
3.4.4 選挙データから見た首相人気 5/7
得票率にして再分析
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”s
—ñ‚©‚ç
ŒÅ—L’l
2.5750
1.4989
0.8527
0.6706
0.3783
0.0247
Šñ—^—¦
42.9161 24.9813 14.2109 11.1760 6.3043
0.4114
—ݏ
ÏŠñ—^—¦ 42.9161 67.8973 82.1082 93.2842 99.5886 100.0000
ŒÅ—LƒxƒNƒgƒ‹
Ž©—R“¾•[—¦ 0.35929 -0.39134 -0.06733 0.79962 -0.10127 0.25218
–¯Žå“¾•[—¦
0.50640 0.04570 -0.43214 -0.30150 0.54470 0.40881
ŽÐ–¯“¾•[—¦ 0.24180 -0.40431 0.79670 -0.29003 0.12314 0.20989
‹¤ŽY“¾•[—¦
0.43523 0.45184 0.07009 -0.15219 -0.69791 0.30209
Œö–¾“¾•[—¦ -0.18475 0.64780 0.38030 0.38292 0.39502 0.31451
Ž©–¯“¾•[—¦ -0.57658 -0.23976 -0.15634 -0.12573 -0.18646 0.73147
得票率の推移状況が良く分る
どの都道府県も,一様に与党
支持率が増えている
Žå
¬•ª1 2‚ÆŽå
¬•ª2 2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
4
図3.33 得票率のPCAの出力
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
3
1
Œö–¾“¾•[—¦
‹¤ŽY“¾•[—¦
–¯Žå“¾•[—¦
0
Ž©–¯“¾•[—¦
-0.5
2
Žå
¬•ª2 2
Žå
¬•ª2
0.5
2001
‘å
ã
‹ž“s
‰ªŽR
1
“‡
ª
0
-1
2000
“Œ‹ž
’·–ì
_“ޏ

ì
Ž­Ž™“‡
–ì“}Šñ‚è
—^“}Šñ‚è
ŽÐ–¯“¾•[—¦
-2
Ž©—R“¾•[—¦
-3
-1
-1
-0.5
0
Žå
¬•ª1
.5
1
-4
-4
-3
-2
-1
0
1
Žå
¬•ª1 2
2
3
4
図3.34 主成分1&2の因子負荷量(左),主成分得点(右)
第3章 主成分分析 Ⅲ
43/55
3.4.4 選挙データから見た首相人気 6/7
支持率でウエイトをつける 分散共分散からスタート
Žå
¬•ª•ª
Í: ‹¤•ªŽU
s—ñ‚©‚ç
ŒÅ—L’l
0.0088
Šñ—^—¦
68.5486
—ݏ
ÏŠñ—^—¦ 68.5486
ŒÅ—LƒxƒNƒgƒ‹
Ž©—R“¾•[—¦ 0.14008
–¯Žå“¾•[—¦
0.48343
ŽÐ–¯“¾•[—¦ 0.08043
‹¤ŽY“¾•[—¦
0.26667
Œö–¾“¾•[—¦ -0.02284
Ž©–¯“¾•[—¦ -0.81766
0.0017
13.3103
81.8589
0.20659
0.59180
0.07183
-0.29924
-0.64388
0.31274
0.0012
9.1948
91.0537
0.0006
4.7450
95.7987
0.0005
0.0001
3.7886
0.4126
99.5874 100.0000
0.53631 -0.68064 0.14806
-0.49563 0.03751 -0.23686
0.59123 0.65679 -0.28120
-0.16285 0.24781 0.76223
-0.23390 -0.19835 -0.49746
-0.18957 0.05654 0.12015
合計は分散の合計と一致
0.40604
0.33602
0.35830
0.41281
0.49334
0.42432
図3.35 分散共分散行列から出発したPCA
自民VS民主の対決
軸がはっきりとしている
図3.36
元の変量の相関と因子負荷量
社民の影響力が小さくなった
第3章 主成分分析 Ⅲ
44/55
3.4.4 選挙データから見た首相人気 7/7
Žå
¬•ª1 3‚ÆŽå
¬•ª2 3‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
0.1
1
Žå
¬•ª2
0.5
Ž©–¯“¾•[—¦
ŽÐ–¯“¾•[—¦
0
‹¤ŽY“¾•[—¦
0.05
Žå
¬•ª2 3
–¯Žå“¾•[—¦
Ž©—R“¾•[—¦
’·–ì
Ώ

ì
’·–ì
“‡
ª
_“ޏ

ì
“Œ‹ž
0
自民党
-0.05
Ž­Ž™“‡
‰ªŽR
‹ž“s
民主党
共産党
-0.5
-1
Œö–¾“¾•[—¦
-1
-0.5
0
Žå
¬•ª1
.5
公明党
-0.1
1
-0.25
-0.15-0.1-0.05 0 .05 .1
Žå
¬•ª1 3
‘å
ã
.15 .2 .25
図3.37 主成分1&2の因子負荷量(左),主成分得点(右)
活用術 3.9:分散共分散からの PCA
分散共分散行列を分解する PCA は,測定単位に依存し,分散共分散の大きい
変量のウエイトが大きくなる.特別な場合でない限り相関係数行列を分解する
PCA を使うのが安全である.
第3章 主成分分析 Ⅲ
45/55
活用術
主成分分析を活用して,さまざまな問題を要約・分類してみよう
主成分分析の目的
多次元空間のデータを縮約して,少ない次元で変数間の関係を要約する.
得られた空間は,主成分という元の変数の線形和で表され,
主成分は互いに無関係(無相関)である.
また,サンプルの主観的な分類も主成分空間でなされる.
データ分析の鉄則
鉄則1.少数サンプルの場合には外れ値の影響を排除する
鉄則2.主成分の方向は相関行列の非対角で決まる
鉄則3.多群の分析では群間と群内に注意を払う
鉄則4.行と列の取り扱いを考える
鉄則5.総合ぶりに興味がない場合は行標準化を行う
鉄則6.無意味な変数は分析に取り込まない
鉄則7.事前に変数変換を行う
第3章 主成分分析 Ⅲ
46/55
鉄則2.主成分の方向は相関行列の非対角で決まる 1/2
性質:2組の相関行列R,R*があるとき,Rの非対角要素が
R* の定数倍になっている関係にあれば,
両者の固有ベクトルは一致することが知られている.
2組のn=200の散布図行列と相関係数(数値例)
s—ñR
}
ŽU•z
s—ñR*
}
ŽU•z
2
2
C1
0
.420
.204 .120
D1
0
.088
.042
.025
-2
-2
2
2
C2
0
.145 -.288
D2
0
.031 -.060
-2
2
-2
2
C3
0
.780
D3
0
.162
-2
-2
3
1
-1
-3
2
C4
D4
0
-2
-2
0 1 2 3 -2
0 1 2 3 -2 0 1 2 3-3 -1 1 2 3
-2
0 1 2 3-2
第3章 主成分分析 Ⅲ
0 1 2 3 -2 0 1 2 3 -2 0 1 2 3
47/55
鉄則2.主成分の方向は相関行列の非対角で決まる 2/2
Žå
¬•ª/ˆöŽq•ª
ÍC
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
1.8429 1.4586
Šñ—^—¦
46.0728 36.4640
—ݏ
ÏŠñ—^—¦ 46.0728 82.5367
ŒÅ—LƒxƒNƒgƒ‹
C1
0.27681 0.60568
C2
0.02837 0.74042
C3
0.69005 0.00865
C4
0.66813 -0.29130
0.5956 0.1029
14.8907 2.5725
97.4275 100.0000
-0.73538
0.55632
0.37273
-0.10391
-0.12549
0.37614
-0.62035
0.67672
Žå
¬•ª/ˆöŽq•ª
ÍD
Žå
¬•ª•ª
Í: ‘ŠŠÖŒW
”
s—ñ‚©‚ç
ŒÅ—L’l
1.1753 1.0959
Šñ—^—¦
29.3831 27.3964
—ݏ
ÏŠñ—^—¦ 29.3831 56.7795
ŒÅ—LƒxƒNƒgƒ‹
D1
0.27859 0.60447
D2
0.03211 0.74028
D3
0.69006 0.00599
D4
0.66721 -0.29422
0.9157 0.8131
22.8934 20.3271
79.6729 100.0000
-0.73518
0.55465
0.37468
-0.10723
-0.12853
0.37857
-0.61919
0.67585
2つの組の固有値はあきらかに異なっているが,
固有ベクトルは,ほとんど同じ値である.
元の相関行列の非対角要素の比C/Dは4.8倍である.
固有値はちょうど  '  (  k 1) / k の関係
1.175 (1.843+4.8-1)/4.8=1.176
になっている
この結果から,主成分の解釈は,固有ベクトルに
主成分の強さ(固有値の平方根)を掛けた
因子負荷量で判断するのが自然である
第3章 主成分分析 Ⅲ
48/55
鉄則3.多群の分析では群間と群内に注意を払う 1/3
データの概要:5つのコンパクトカメラのデザインの評価
・デザイン評価を測定する項目
楽しい,新鮮な,オリジナリティ,目立つ,質感,高級感
丈夫そう,現代的な,親しみ,精密感,使い易さ,飽きのこない
小さくみえる,カメラらしい,好きな
3元データ
n人の被験者
古典的なやり方
・試料の平均値で主成分分析
2元データへ ・個人ごとに主成分分析
・試料ごとに主成分分析
・評価項目ごとに主成分分析
A B C ・・・ P
感性評価
試料
形容詞対
評価項目
目的
・群間と群内の相関を分離して考える
理由
・混在させると主成分の解釈が
結果的に困難である
第3章 主成分分析 Ⅲ
49/55
鉄則3.多群の分析では群間と群内に注意を払う 2/3
評価項目
1,2,・・・,p
評価者
評価者
1
2
・
・
・
n
1
2
・
・
・
n
カメラデザインA
カメラデザインB
・
・
・
評価者
1
2
・
・
・
n
カメラデザインG
コンパクトカメラのデザイン評価1994
第3章 主成分分析 Ⅲ
50/55
鉄則3.多群の分析では群間と群内に注意を払う 3/3
第2主成分
目立つ
オリジナリティ
群内
(個人差)
新鮮な
楽しい
第1主成分
質感
高級感
現代的な
親しみ
丈夫そうな
精密感
使い易い
飽きのこない
小さくみえる
カメラらしい
因子負荷量プロット
群間
(デザイン)
主成分得点プロット
この分析では,主成分に群間変動(カメラデザイン)と群内変動
(個人の評価の違い)が混ざり,解釈困難な軸となっている
主成分分析では,せいぜい2~3母集団の分析がいいところ
第3章 主成分分析 Ⅲ
51/55
鉄則4.行と列の取り扱いを考える 1/2
Lille
Rouen
Amiens
Rennes
Caen
Strasbourg
Nancy
Paris Chalons
Nantes
84年
Orleans
Poitiers
Bordeaux
Dijon
Besancon
Limoges
Clermont
85年
Lyon
Toulouse
Marseille
86年
Montpellier
フランス電信電話のサービス指標
Ajaccio
第3章 主成分分析 Ⅲ
52/55
鉄則4.行と列の取り扱いを考える 2/2
成分行列a
2.0
Rouen
成分
1
1.5
2
-.279
.410
.186
.346
-.259
.771
-.671
サービス指標
.935
市内通話
.768
市外通話
.916
故障指標
-.891
復旧指標
.775
問合せ
.533
通話指標
.190
因子抽出法: 主成分分析
a. 2 個の成分が抽出されました
Limoges
1.0
L
S
Bordeaux R
Nantes Strasbourg
N
L
R
B
B
N
.5
0.0
-.5
Marseille
年度
M
-1.0
M
問合せ
.5
故障指標
市内通話
1985
P
-2.0
-3
1.0
1986
Paris
P
-1.5
成分プロット
S
1984
-2
-1
REGR factor score
0
1
2
1 for analysis
3
1
市外通話
0.0
復旧指標
サービス指標
2
の
成
分
-.5
通話指標
-1.0
-1.0
-.5
0.0
.5
1.0
年度が進むにつれて,どの都市の
電信サービスも向上されていることが分かる
・問合せ数は全体的に減少傾向にある
・ストラスブールは良いサービスを提供
・パリ,マルセイユは通話時間が長い
1 の成分
第3章 主成分分析 Ⅲ
53/55
鉄則7.事前に変数変換を行う
・企業業績などは,対数(log)変換してから主成分分析
を行った方が良い場合がある.
・これは散布状況を直線的に修正することを意味する
・相関行列から出発する主成分分析は,相関行列の分解
を行うのであるから,変数間の関係を正しい相関状態に
しておく必要がある.
例)
各国の平均寿命と
食物の1日当りの
供給量の対数
注)主成分分析における母集団推測:次元縮約ツールに徹しよう.
・見てきたとおり,主成分分析の数理には分布の仮定は一切ない
・この意味では,分布や推測論に依存しない方法である.
・このときの分析の結果は用いたデータセットのみに関する要約になり一般性を持たない
・得られたデータセットは母集団からの標本であるとし,母集団を主成分分析で要約する
ことを考えると話は複雑になる.
・相関係数は確率変数であり,小標本では固有値,固有ベクトルが大きく変動するために
主成分を過大評価しては危険である.当然解釈の一般性に保証がない.
・悪いことに相関行列からの主成分に関する標本分布はいまだに明らかにされていないため
推測不可能な状態である.
・相関の安定性を考えればn数は最低でも100,安心するには200以上は必要である.
第3章 主成分分析 Ⅲ
54/55