クリック - ODN

Download Report

Transcript クリック - ODN

多変量データ分析B 第8回
第4章:対応分析
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.6.09. SFC5限
第4章 対応分析
1/40
第4章 対応分析
対応分析
目標
対応分析とは何ができる道具かを理解しよう
対応分析のコンピュータ出力を
読み取れる力を身につけよう
対応分析のからくりと前提を理解しよう
課題を通じて対応分析の使い手になろう
第4章 対応分析
2/40
適用例と解析ストーリー
データ 10人の児童の得意科目,○が得意と答えた科目
注意:概要を理解するためにサンプル数が10と少ない.
児童の得意科目データ
生
徒
1
国
語
x1
社
会
x2
算
数
x3
○
○
3
○
4
○
音
楽
x5
○
2
図
工
x6
○
○
○
○
○
Q2.変数の属性は何か
○
○
7
9
10 ○
Q1.変数は何か
○
6
○
体
育
x7
○
○
5
8
理
科
x4
○
○
○
○
○
○
○
○
○
○
○
○
Q3.サンプルは何か
○
○
第4章 対応分析
3/40
適用例と解析の目的
クロス集計表の分析を詳細に行う
・行と列のカテゴリー数の多いものが対象
・行と列のカテゴリーの結びつきの強いものを選ぶ
・評価者の反応パターンを分類・要約する
質的変数の主成分分析に相当する
対応分析の類似手法には様々なものがあるが本質は同じ
・数量化3類(林),双対尺度法(西里)
・コレスポンデンス分析(ベンゼクリ)
・交互平均法(ガウチ) などなど
とにかく様々な名前で出て来る.これは60年代,各国の各学術
分野で必要に迫られて,様々な研究者が開発した経緯による.
非常に稀なケース
第4章 対応分析
4/40
対応分析の解析ストーリー
1)第i変数に数量xi,第jサンプルに数量yjを割り当て,反応のある
(○印)ところに数量(xi,yj)を与えて相関係数を考える.
2)相関係数が最大になるような数量(xi,yj)を求める過程で得られる
行列の固有値を求める
最大固有値は常に1となるので,それを除外して,第2固有値と
対応する固有ベクトルを求めて成分1のスコアを求める
同様に,第3固有値以降を求める
3)寄与率と累積寄与率を求める.固有値は1より小さいので,慣例
では累積寄与率が80%までを解釈することになるが,多くの場合
第1,2成分の解釈しかしない.
成分の解釈は主成分分析に準じて行う
4)固有ベクトルに基づいた,スコアを布置して,要約と分類を行う
5/40
第4章 対応分析
基本的な考え方と解析方法
1)基本的考え方
変数は名義尺度であるから行と列は自由に入れ替える
ことができる.そこで対角に反応(○)が集まるような並べ替え
を行う
2)成分の導出
行と列に適当な値(1~7,1~10など)を与えると行平均と列平均
との間で矛盾が起きる.そこで,相関が最大になり,かつ合理的な
数量を与えるように固有値分解を行う
3)寄与率および累積寄与率
主成分分析に準じて行う
4)変量スコアとサンプルスコアの散布図
散布図から要約,分類を行う
第4章 対応分析
6/40
追加:並べ替え
Q1:以下のデータは,行と列に関連があるか
Q2:もし関連があると思われるならば,○が対角線に並ぶようにせよ.
好物
豆腐 ハンバーグ 野菜煮つけ 生卵 納豆 お好焼き 天蕎麦 ハンバーガ 餃子
小島
36歳 東日本
○
○
○
長谷部 24歳 西日本
○
○
○
○
大井
54歳 西日本 ○
○
奥
26歳 東日本
○
○
○
○
吉川
33歳 西日本
○
○
○
岡本
46歳 東日本
○
○
○
○
川原
22歳 東日本
○
○
○
永田
44歳 西日本
○
○
○
○
氏名
年齢 出身地
解答:
第4章 対応分析
7/40
基本的考え方
前提
同じような能力,興味を持っている児童たち(サンプル)は同じような
科目を得意とする(反応する)であろう
狙い
・児童と同じような得意科目を持つグループに分類
・科目を同じような能力.興味を持つ児童たちから得意とされる
グループに分類
生データ
サンプルNo A B
1
○
2
○
3
4○
列の並べ替え
C
○
○
○
サンプルNo B
1○
2○
3
4
C A
○
○
○ ○
行の並べ替え
サンプルNo B
2○
1○
3
4
C
○
○
○
A
○
並べ替えにより似たものが近くに,異なるものが遠くに配置される
8/40
第4章 対応分析
基本的考え方
行と列の並べ替え後
-3 -2
主観スコア
-5
-4
-3
-2
-1
0
1
2
3
4
-1
生
徒
音
楽
x1
図
工
x2
算
数
x3
2
○
○
○
6
○
○
7
○
○
9
○
理
科
x4
1
国
語
x5
2
社
会
x6
○
○
○
○
○
○
10
○
○
○
○
○
○
○
5
データの頻度により
客観的なスコアを
求めるには
どうすればよいか?
○
○
3
体
育
x7
○
4
8
3
○
○
1
0
○
○
相関係数最大化
問題
○
○
第4章 対応分析
○
9/40
4.1 クロス集計表から対応分析へ
2つの質的変量で,共にカテゴリ数が多い場合
ピアソン検定で有意であっても
どのカテゴリ同士の関連が強いか
どのカテゴリ間に対立関係がるか知りたい
対応分析
・行と列の区別はない
・どちらも結果と結果の関係である
第4章 対応分析
10/40
4.1.1 車の調査 1/2
二変量の関係でクロス集計を行い,ピアソン検
定をする
•ªŠ„•\
対応分析を
クリック
ŽY
¶
‘
クリック
ŒŸ’è
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x(-1)*‘ΐ
” –Þ“x
R2
æ(U)
4
36.30962 0.1200
297
266.21700
301
302.52662
303
ƒTƒCƒY
“x
”
¬Œ^ ‘åŒ^ ’†Œ^

‘S‘Ì%
—ñ%
s%

ƒˆ
[ƒ
ƒbƒp
19
4
17
40
6.27 1.32 5.61 13.20
13.87 9.52 13.71
47.50 10.00 42.50
“ú–{
92
2
54
148
30.36 0.66 17.82 48.84
67.15 4.76 43.55
62.16 1.35 36.49
•Ä
‘
26
36
53
115
8.58 11.88 17.49 37.95
18.98 85.71 42.74
22.61 31.30 46.09
137
42
124
303
45.21 13.86 40.92
ƒJƒC2
æ p’l(Prob>ChiSq)
72.619
<.0001
66.313
<.0001
第4章 対応分析
11/40
-0.5
¬Œ^

“ú–{
4.1.1 車の調査 2/2
-1.0
-1.0 -0.5 .0
.5
1.0
c2
¶ŽY

‘
ƒTƒCƒY
ڏ

×
“ÁˆÙ’l
Šµ
«
”ä—¦ —ݐ
Ï
0.46738 0.21844 0.9981 0.9981
0.02029 0.00041 0.0019 1.0000
¶ŽY

‘
c1
c2 ƒTƒCƒY
c1
c2
ƒˆ
[ƒ
ƒbƒp -0.0991 0.0519
¬Œ^
-0.405 -0.0138
“ú–{
-0.4256 -0.0095 ‘åŒ^
1.004 -0.0256
•Ä
‘
0.5822 -0.0058 ’†Œ^
0.107 0.0239
‘Ήž•ª
Í
‘åŒ^
•Ä
‘
1.0
c1
0.5
’†Œ^
ƒˆ
[ƒ
ƒbƒp
¬

Œ^
“ú–{
0.0
-0.5
-1.0
-1.0 -0.5 .0
.5
1.0
c2
¶ŽY

‘
Ú×


“ÁˆÙ’l
0.46738
0.02029
¶ŽY

‘
ƒˆ
[ƒ
ƒbƒp
“ú–{
•Ä
‘
ƒTƒCƒY
Šµ
«
”ä—¦
—ݐ
Ï
活用術0.21844
4.1:CA
0.9981の対象となるデータ
0.9981
0.00041 0.0019 1.0000
c1
c2 ƒTƒCƒY
c1
c2
CA は,クロス集計表の分析を詳細に行うものであるから
-0.0991 0.0519
¬Œ^
-0.405 -0.0138
-0.4256 -0.0095 ‘åŒ^
1.004 -0.0256
①行と列のカテゴリ数の多いものを対象とする.
0.5822 -0.0058 ’†Œ^
0.107 0.0239
②行と列のカテゴリの結びつきが強いものを対象とする.
活用術 4.2:CAによるカテゴリの並べ替え
並替えにより,似たものが近くに,異なるものが遠くに配置される.行同士,
列同士,行と列の反応パターンの分類が行われる.
第4章 対応分析
12/40
4.1.2 クロス集計表の並べかえ
表4.1 8人の好物
氏名
年齢
出身地
小島
長谷部
太田
奥
吉川
岡本
川原
永田
36歳
24歳
54歳
26歳
33歳
46歳
22歳
44歳
東日本
西日本
西日本
東日本
西日本
東日本
東日本
西日本
豆腐 ハンバーグ野菜煮つけ 生卵
〇
〇
〇
年齢
出身地
太田
岡本
永田
小島
吉川
奥
長谷部
川原
54歳
46歳
44歳
36歳
33歳
26歳
24歳
22歳
西日本
東日本
西日本
東日本
西日本
東日本
西日本
東日本
〇
〇
年齢
出身地
太田
岡本
永田
小島
吉川
奥
長谷部
川原
54歳
46歳
44歳
36歳
33歳
26歳
24歳
22歳
西日本
東日本
西日本
東日本
西日本
東日本
西日本
東日本
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
8人の好物(行の並替え)
豆腐 ハンバーグ野菜煮つけ 生卵
〇
〇
〇
〇
〇
好物
納豆
お好焼き 天蕎麦 ハンバーガ 餃子
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
表4.3
氏名
お好焼き 天蕎麦 ハンバーガ 餃子
〇
〇
〇
〇
〇
表4.2
氏名
好物
納豆
〇
8人の好物(行列の並替え)
豆腐 野菜煮つけ 餃子
〇
〇
〇
〇
〇
〇
〇
天蕎麦
好物
納豆
〇
〇
〇
〇
〇
〇
お好焼き
生卵 ハンバーグハンバーガ
〇
〇
〇
〇
〇
〇
〇
〇
第4章 対応分析
〇
〇
〇
〇
〇
〇
13/40
4.1.3 スコアの計算
表4.4
A1
A2
A3
B1
○
スコアの算出のためのパターン
B2
○
B3
○
○
○
B4
B1
B2
A1 (x 1, y 1) (x 2, y 1)
→ A2
○
A3
B4
(x 2, y 2) (x 3, y 2)
(x 3, y 3) (x 4, y 3)
スコアの計算
いま,どのような得点を与えればよいか
分からないから
記号を用いて表すことにする
第4章 対応分析
B3
x
x1
x2
x2
x3
x3
x4
y
y1
y1
y2
y2
y3
y3
14/40
成分の導出 1/8
x
x1
x2
x2
x3
x3
x4
y
y1
y1
y2
y2
y3
y3
○が対角にうまく集まるようにすること
=左の表のx,yの相関係数を最大にすること
相関係数は位置に対して普遍であるから
計算が簡単になるように平均値をゼロとおく
x1  2x2  2x3  x4
2 y1  2 y2  2 y3
x
0 , y 
0
6
6
この条件に基づいて相関係数を計算する
6
6
6
i 1
i 1
i1
Sxy   xi yi   xi  yi / 6
r
Sxy
Sxx S yy
 x1 y1  x2 y1  x2 y2  x3 y2  x3 y3  x4 y3
Sxx  x12  2x22  2x32  x42
S yy  2 y12  2 y22  2 y32
第4章 対応分析
15/40
成分の導出 2/8
x1  2x2  2x3  x4  0 , 2 y1  2 y2  2 y3  0
変換(計算の見通しをよくするため)
u1  1x1 u2  2x2 u3  2x3 u4  1x4
v1  2 y1 v2  2 y2 v3  2 y3
u1 v1 u2 v1 u2 v2 u3 v2 u3 v3 u4 v3
Sxy 





1 2
2 2
2 2
2 2
2 2
1 2
1

2u1v1  u2v1  u2v2  u3v2  u3v3  2u4v3
2


Sxx  u  u  u  u
2
1
2
2
2
3
2
4
1
S yy  v12  v22  v32
1
相関係数を最大にするに当り,制約条件が必要である.
それは,行と列の変動を1に固定するである
意味:行列の各1単位あたり,どの位の結びつきか?
第4章 対応分析
16/40
成分の導出 3/8
例によって,ラグランジュ法を使う
f  v1, , v3 , w1, , w4 , ,   Sxy 
それぞれ,偏微分してゼロとおく

2
u1v1  u12  0
2
1
1
u2v1  u2v2  u22  0
2
2
1
1
u3v2  u3v3  u32  0
2
2
2
u4v3  u42  0
2
1
2



 Sxx 1   Syy 1
2
2
u1で偏微分し て u1を掛ける
u2で偏微分し て u2を掛ける
u3で偏微分し て u3を掛ける
u4で偏微分し て u4を掛ける
2u1v1  u2v1  u2v2  u3v2  u3v3  2u4v3
  u12  u22  u32  u42   0
第4章 対応分析

Sxy  
=1
17/40
成分の導出 4/8
例によって,ラグランジュ法を使う
f  v1, , v3 , w1, , w4 , ,   Sxy 


 Sxx 1   Syy 1
2
2
それぞれ,偏微分してゼロとおく

1
2
2
1
u1v1  u2v1 v12  0
2
2
1
1
u2v2  u3v2 v22  0
2
2
1
2
u3v3 
u4v3  w32  0
2
2

v1で偏微分し てv1を掛ける
v2で偏微分し てv2を掛ける
v3で偏微分し てv3を掛ける
2u1v1  u2v1  u2v2  u3v2  u3v3  2u4v3
  v12  v22  v32   0
=1
第4章 対応分析

Sxy  
18/40
成分の導出 5/8
2
u1v1  u12  0
2
1
1
u2v1  u2v2  u22  0
2
2
1
1
u3v2  u3v3  u32  0
2
2
2
u4v3  u42  0
2
2
1
u1v1  u2v1 v12  0
2
2
1
1
u2v2  u3v2 v22  0
2
2
1
2
u3v3  u4v3  w32  0
2
2
u1 
2 v1
2 rxy
u2 
v1  v2
2rxy
u3 
v2  v3
2rxy
u4 
2 v3
2 rxy
2
1
u1v1  u2v1 v12  0
2
2
1
1
u2v2  u3v2 v22  0
2
2
1
2
u3v3 
u4v3  w32  0
2
2
2u1  u2
2rxy
v1 
v2 
v3 
u2  u3
2rxy
u3  2u4
2rxy
2 2
1 v v
v1  1 2  rxy v1  0
2 2rxy
2 2rxy
2
1
v1   v1  v2   rxy2 v1
4
4
1 v1  v2 1 v2  v3
1
1

 rxy v2  0   v1  v2    v2  v3   rxy2 v2
2 2rxy
2 2rxy
4
4
1
2
1 v2  v3
2 2
v2  v3   v3  rxy2 v2


v r v  0
4
4
2 2rxy
2 2rxy 3 xy 3
第4章 対応分析
19/40
成分の導出 6/8
行列で表すと 3/ 4 1/ 4 0   v1 
 v1 
1/ 4 2/ 4 1/ 4  v   r 2 v 

  2  xy  2 
 0 1/ 4 3/ 4 v3 
v3 
結局,固有値問題に帰着する.これを解いてスペクトル分解は
以下のようになる
rxy は相関係数であるから,その2乗は1が最大である
いま, v1, v2 , v3   1,1,1 とするのが相関最大解
元のyに戻すと  y1, y2 , y3   1/
2,1/ 2,1/ 2

制約条件の y  0 を満たさないから不適解である
必ず計算過程で固有値=1の不適解がでる
第4章 対応分析
20/40
成分の導出 7/8
第2固有値 第2固有値rxy2  3/ 4に対応し た
rxy   
v1, v2 , v3   1,0, 1

これは
3
こ れは相関係数と なる .
4
 y1, y2 , y3   1/
2,0, 1/ 2

y  0 を満たす
v,y の値からu,x が求まる
2
2
2 2
u1, u2 , u3 , u4    , ,  ,  
 3 3 2 3 2 3
2 2 2 2
 x1, x2 , x3 , x4    , ,  ,  
3 6 6 3
第4章 対応分析
これは
x 0
を満たす
21/40
成分の導出 8/8
成分1だけで,変数やサンプルの分類を十分行えない場合には
成分2や成分3などを考える
一般に,成分はmin(変数,サンプル)-1個求めることができる
固有値を分解(スペクトル分解)しているので
成分は互いに直交(無関係)している
成分2のスコアも同様に計算可能であるが,ここでは省略
第4章 対応分析
22/40
4.1.4 8人の好物の分析 1/4
表4.1
氏名
年齢
出身地
小島
長谷部
太田
奥
吉川
岡本
川原
永田
36歳
24歳
54歳
26歳
33歳
46歳
22歳
44歳
東日本
西日本
西日本
東日本
西日本
東日本
東日本
西日本
8人の好物
豆腐 ハンバーグ野菜煮つけ 生卵
〇
〇
好物
納豆
〇
〇
お好焼き 天蕎麦 ハンバーガ 餃子
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
8人の好物の分析をJMPでおこなってみよう
二変量の関係でモザイク図はみるが
各セルの最大度数は1なので,クロス集計表およびピアソン
検定は無視する
直ちに対応分析を行う
第4章 対応分析
23/40
4.1.4 8人の好物の分析 2/4
‘Ήž•ª
Í
ƒ‚ƒUƒCƒN
}
4
1.00
3
‘¾“c
쌴

2
¬“‡

‹g
ì
0.50
0.25
0.00
‚¨
DÄ
‚«
ƒnƒ“ƒo
[ƒO“V‹¼”ž“¤•…
ƒnƒ“ƒo
[ƒK
¶ —‘

”[“¤
–ì
؎ς‚¯
éLŽq
–ì
؎ς‚¯
‰ª–{
‰i“c
éLŽq
¬“V‹¼”ž

“‡”[“¤
‹g
ì
¶D
—‘
‚¨
Ä

‚«
‰œ
ƒnƒ“ƒo
[ƒO
ì’·’J•”

Ϋ
ƒnƒ“ƒo
[ƒK
0
‰ª–{
-1
‰œ
-2
‰i“c
“¤•…
‘¾“c
1
c1
Ž
–¼
0.75
’·’J•”
-3
-4
-4
-3
-2
-1
0
1
2
3
4
c2
D•¨

D•¨

Ž
–¼
同時布置図(右)から豆腐と太田氏が外れている
モザイク図から豆腐に付けたのは太田氏しかいない
そこで,豆腐と太田氏を除外して再分析する
第4章 対応分析
24/40
4.1.4 8人の好物の分析 3/4
ڏ

×
“ÁˆÙ’l
Šµ
«
”ä—¦ —ݐ
Ï
0.83433 0.69611 0.3826 0.3826
0.68791 0.47322 0.2601 0.6427
0.62347 0.38872 0.2136 0.8563
0.39337 0.15474 0.0850 0.9414
0.29712 0.08828 0.0485 0.9899
0.12343 0.01523 0.0084 0.9983
0.05605 0.00314 0.0017 1.0000
D•¨

c1
c2
c3 Ž
–¼
‚¨
D
Ä‚«
-0.316
0.144 -0.737 ‰i“c
ƒnƒ“ƒo
[ƒK
-0.789
1.292 0.430 ‰œ
ƒnƒ“ƒo
[ƒO -0.681
0.851 0.458 ‰ª–{
¶—‘

-0.266
0.203 -1.154 ‹g
ì
“V‹¼”ž
-0.016 -0.715
0.210 
¬“‡
“¤•…
3.226 1.173 0.318 
쌴
”[“¤
-0.286 -0.341
0.868 ‘¾“c
–ì
؎ς‚¯
1.265 -0.063 -0.071 ’·’J•”
éLŽq
-0.045 -1.026 -0.079
c1
0.200
-0.389
0.275
-0.250
-0.139
-0.701
2.692
-0.615
c2
-0.157
-0.022
-0.780
-0.329
-1.009
0.873
0.807
0.905
c3
-0.703
0.320
0.372
-1.054
0.534
0.939
0.199
-0.402
活用術 4.3:CA による外れ値
同時布置図で,飛び離れたスコアを持つカテゴリがあると成分の解釈を不当
に歪める.できるならば分析から除外する.外れ値は,行または列のカテゴリ
の小計に,極端に小さい値がある場合に起きる.
第4章 対応分析
25/40
4.1.4 8人の好物の分析 4/4
‘Ήž•ª
Í
ヤング
ڏ

×
“ÁˆÙ’l
Šµ
«
”ä—¦
—ݐ
Ï
0.72007 0.51850 0.4195 0.4195
0.62632 0.39227 0.3173 0.7368
쐌´ ƒnƒ“ƒo
[ ƒO ’·’J•”
0.42921 0.18422 0.1490 0.8858
1.0
0.34685 0.12030 0.0973 0.9832
0.13291 0.01766 0.0143 0.9974
0.5
0.05617 0.00315 0.0026 1.0000
‚¨
D
Ä‚«
‰œ
¶—‘
D

•¨
c1
c2
c3 Ž
–¼
0.0 ”[“¤
‹g
ì
‚¨
D
Ä

‚«
0.179
0.699
-0.0063
‰i“c
‰i“c
ƒnƒ“ƒo
[ ƒK
1.450 -0.278 0.0536 ‰œ
-0.5
“V‹¼”ž
¬“‡

ƒnƒ“ƒo
[
ƒO
1.044 -0.363 -0.1255 ‰ª–{
‰ª–{éLŽq–ì
؎ς‚¯
¶

—‘
0.161
1.109 0.1528 ‹g
ì
-1.0
“V‹¼”ž
-0.632
-0.283
-0.2998
¬

“‡
-1.0 -0.5
.0
.5
1.0
1.5
”[“¤
-0.108 -0.889 0.0752 
ì Œ´
c2
アダルト 東日本
西日本 –ì
؎ς‚¯
-0.872
0.234 -0.9475 ’·’J•”
D
•¨
Ž
–¼
éLŽq
-0.840 -0.086 0.8765
ƒnƒ“ƒo
[ ƒK
c1
1.5
図4.5
c1
-0.405
0.167
-0.852
-0.232
-0.732
1.104
0.983
c2
c3
0.7021 -0.6412
-0.3338 -0.2076
-0.4087 -0.1722
0.9165 0.7945
-0.6696 0.5063
-0.8141 0.0026
0.4658 0.0434
第2回目のCA結果
活用術 4.4:布置図の読み方
布置図の両端にプロットされたカテゴリで軸の解釈を行う.成分は頻度の割
合のパターンを強調するので,カテゴリによる頻度の割合に変化がないものは
カテゴリ小計の大小に関わらず中心に集まる.
第4章 対応分析
26/40
4.2 対応分析活用指針
4.2.1 対応分析の目的と到達レベル
・クロス集計表のデータを少数の成分(1~3 程度)で説明する.
・新しい指標を作り,カテゴリの特徴と分類を行う.
データ分析者の CA の到達レベルは,例えば以下のようなものであろう.
・質的情報から知覚マップやプロダクトマップを作成する.
・各種アンケートの情報から支店や営業所の強み・弱みを抽出する.
・買い替えにおける競合商品の勝敗表から事業戦略を検討する.
第4章 対応分析
27/40
4.2.2 対応分析の主要な用語とアウトプット
特異値:行と列のスコアの相関係数,結びつきの強さを表す指標
慣性 :特異値の2乗で主成分の固有値に対応する
比率 :慣性の総和に対する成分の寄与率もこと
22
成分1の寄与率  2
2  32 
32
成分2の寄与率  2
2  32 
22
成分1ま での累積寄与率  2
2  32 
22 +32
成分2ま でのの寄与率  2
2  32 
累積 :累積寄与率に対応する
成分1ま での累積 
22
22  32 ・・・  p2
22 +32
成分2ま での累積  2
2  32 ・・・  p2
22  32 ・・・  i2
成分iま での累積  2
2  32 ・・・  i2 ・・・  p2
スコア:行と列の相関を最大とするためにカテゴリに与えられた数量
28/40
第4章 対応分析
4.2.3 対応分析の手順 1/2
①分析に必要な変量対を選定する.独立関係にある変量対を選んでも無意味で
ある.また,カテゴリ数の多い変量対が有効である.
②頻度の総数 n は,少なくとも 100 以上が望ましい.頻度の総数 n が少ない場
合は,手許にあるデータの記述に留める.
③DB の活用や実際にアンケート等によりデータを収集する.収集されたデー
タは分析しやすいようにデータ行列にまとめる.JMP の CA は,
“2 変量の関係”
の分析を使うため,クロス集計表の形式から図 4.6 右のようなデータ形式に変
更しておくこと.
第4章 対応分析
29/40
4.2.3 対応分析の手順 2/2
④CA を実行する.特異値と比率を求める.解釈する成分の選択方法は,経験
的に以下の基準が知られているが,
絶対的なルールではないことを理解する.
・累積が 0.7~0.8 を越えるところまでの成分を解釈する.
・せいぜい成分 3 までの解釈に留める.
⑤特徴あるカテゴリの抽出を行う.成分の両端に布置されたカテゴリを比較す
ることで新たな知見が得られる場合がある.
⑥同時布置図を用いて成分の命名,キャッチフレーズをつける.
A
B
度数
A1 B1
15
活用術 4.5:対称性
A1 B2
12
行と列(変数とサンプル)を入れ替えても結果は変わらない(対称性)ので,
A1 B3
4
B1 B2 B3
A2 B1
10
PCA よりも扱いやすい.
A1
15
12
4
A2 B2
28
A2
10
28
11
A2 B3
11
A3
8
19
25
A3 B1
8
A4
3
7
30
A3 B2
19
A3 B3
25
30/40
3
第4章 対応分析A4 B1
分析のためのデータ形式
二変量の質的データの関係の分析プラットフォームを使う
ので,左のようなクロス集計表から右の形式に変更する
A1
A2
A3
A4
A
B
度数
A1 B1
15
A1 B2
12
A1 B3
4
B1 B2 B3
A2 B1
10
15
12
4
A2 B2
28
10
28
11
A2 B3
11
8
19
25
A3 B1
8
3
7
30
A3 B2
19
A3 B3
25
A4 B1
3
A4 B2
7
A4 B3
30
図4.6 JMPのCAのための多変量データ化
活用術 4.6:総合的指標
PCA と違い,総合的指標に関する軸は抽出されない.
第4章 対応分析
31/40
JMPによる例題の分析 1/4
表10.1のデータを以下のように数値コードで入力する
手順1.メニューの分析から2変量の関係を選択
手順2.ダイアログが表示される
手順3.説明変数に科目,目的変数に児童を選ぶ
OKボタンをクリック
第4章 対応分析
32/40
JMPによる例題の分析 2/4
手順4.モザイク図が表示されるので,図の赤い▼をクリックして,
メニューを表示させ,対応分析を選ぶ
手順5.同時布置図が表示されるので,グラフから読み取れることを
解釈する
‰È–Ú‚ÆŽ™“¶‚Ì•ªŠ„•\‚ɑ΂·‚镪
Í
ƒ‚ƒUƒCƒN
}
‘Ήž•ª
Í
1.5
1.00
‚X
Ž™“¶
0.50
0.25
0.00
‰¹Šy
‘Œê ŽZ
” ŽÐ‰ï
}
H
‰È–Ú
‘̈ç
—
‰È
0.5
c1
‚W
‚V
‚U
‚T
‚S
‚R
‚Q
‚P
‚O
0.75
‚R
‚W
1.0
0.0
-0.5
‘Œê

‚T
‘̈ç
ŽÐ‰ï
‚X
‚S
‚O ‚P
—
‰ÈŽZ
”
}

H
‚V ‚U
‚Q
‰¹Šy
-1.0
-1.5
-1.5 -1.0 -0.5
.0
.5
1.0
1.5
c2
‰È–Ú Ž™“¶
ڏ

×
“ÁˆÙ’l
Šµ
« ”ä—¦ —ݐ
Ï
0.74966 0.56198 0.4417 0.4417
第4章 対応分析
0.54189 0.29364 0.2308 0.6725
33/40
JMPによる例題の分析 3/4
“ÁˆÙ’l
0.74966
0.54189
0.42648
0.33831
0.32467
0.12187
Šµ
«
0.56198
0.29364
0.18188
0.11445
0.10541
0.01485
”ä—¦
0.4417
0.2308
0.1430
0.0900
0.0829
0.0117
—ݐ
Ï
0.4417
0.6725
0.8155
0.9055
0.9883
1.0000
2成分までで
60%強説明
できる
注)ソフトウエアのアルゴリズムにより出力値が異なるが表示方法が異なる
ある操作をすれば一致する
‰È–Ú
‰¹Šy
‘Œê

ŽZ
”
ŽÐ‰ï
}

H
‘̈ç
—
‰È
c1
c2
c3 Ž™“¶
-1.307 0.5287 -0.0208 ‚O
0.443 -0.8475 0.2678 ‚P
-0.408 0.0000 -0.6800 ‚Q
0.865 0.4814 -0.3945 ‚R
-0.650 0.4464 0.7240 ‚S
1.152 0.5462 0.2461 ‚T
-0.287 -0.5409 -0.0298 ‚U
‚V
‚W
‚X
c1
-0.112
-0.219
-1.052
1.064
0.205
1.345
-0.998
-0.890
0.725
0.320
c2
-0.8540
-0.5794
0.5998
-0.2779
-0.4184
0.9483
0.2671
-0.0075
-0.1664
0.6801
c3
-0.3455
0.7518
0.0181
0.6025
-0.4904
-0.1739
0.5263
-0.5711
0.0525
-0.0612
スコアが求まると散布図に表して解釈すると分かりやすい
第4章 対応分析
34/40
JMPによる例題の分析 4/4
C1‚ÆC2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1.5
1
C2
0.5
0
‚T
-0.5
-1
-0.5
‘̈ç
ŽÐ‰ï
‚W
—
‚P‰È
‚O
-1
-1.5
-1.5
‚X
‚Q
‰¹Šy
}
H
‚U
ŽZ
”
‚V
0
‚R
‚S
‘Œê

.5
1
1.5
C1
バイプロット(同時布置図)は行と列を同じ散布図に布置する
これにより,行と列のカテゴリーの関係や分類が可能である.
第4章 対応分析
35/40
4.3.1 プリンタ画質の感性評価 1/2
インクジェットプリンタの出力画質の評価データ
を分析する
9
8
7
6
5
4
3
2
1
ˆÊ
‡
0.75
0.50
0.25
0.00
A B C D E F G H
I
ƒ‚ƒUƒCƒN
}
iƒOƒ‰ƒt
j
1.00
0.50
0.25
0.00
A B C D E F G H
ƒvƒŠƒ“ƒ^
9
8
7
6
5
4
3
2
1
0.75
ˆÊ
‡
I
ƒvƒŠƒ“ƒ^
ƒ‚ƒUƒCƒN
}
iƒ‰ƒCƒ“
j
1.00
0.50
0.25
0.00
A B C D E F G H
9
8
7
6
5
4
3
2
1
0.75
ˆÊ
‡
ƒ‚ƒUƒCƒN
}
iƒeƒLƒXƒg
j
1.00
モザイク図で構成比率を
チェックする
I
ƒvƒŠƒ“ƒ^
図4.9
原稿種ごとのモザイク図
第4章 対応分析
36/40
4.3.1 プリンタ画質の感性評価 2/2
表4.5 CAの出力
“ÁˆÙ’l
Šµ
«
”ä—¦
0.47883 0.22928 0.4026
0.32902 0.10826 0.1901
0.28705 0.08240 0.1447
0.22698 0.05152 0.0905
0.19729 0.03892 0.0683
0.18229 0.03323 0.0583
0.12604 0.01589 0.0279
0.10014 0.01003 0.0176
0.6
ころにヒントがある
かも知れないので
解釈を試みる
3
6
8
ƒ‰ƒCƒ“A
ƒ‰ƒCƒ“I
0.4
5
4
0.2
7
2
-0.4
-0.8
-1
ˆÊ
‡
1
2
3
4
5
6
7
8
9
順位のスコア
c1
c2
c3
0.8468 -0.4198 0.2597
0.5844 -0.1873 -0.1607
0.3064 0.2680 -0.3779
-0.0061 0.3197 -0.4510
-0.0129 0.3632 0.4004
-0.1578 0.2094 0.2345
-0.3442 0.0080 0.2106
-0.4909 0.0771 馬蹄形が崩れたと
0.0759
-0.7256 -0.6382 -0.1915
0.8
-0.2
-0.6
—ݐ
Ï
0.4026
0.5927
0.7373
0.8278
0.8962
0.9545
0.9824
1.0000
C2
C2
0.8
比率からカテゴ
0.6
リ順序がはっき
0.4
りつく場合には
0.2
馬蹄形が現れる
0
表4.6
0
ƒeƒLƒXƒgB
-0.2
-0.4
1
ƒOƒ‰ƒtB
ƒeƒLƒXƒgH
ƒOƒ‰ƒtA
ƒeƒLƒXƒgI
ƒ‰ƒCƒ“B
ƒeƒLƒXƒgA
-0.6
9
-0.5
0
.5
解釈は成分1だけでよい
1
1.5
-0.8
-1
-0.5
0
C1
図4.10
ƒOƒ‰ƒtI
ƒOƒ‰ƒtH
.5
ƒ‰ƒCƒ“H
1
1.5
C1
プリンタ評価の布置図
第4章 対応分析
37/40
4.3.2 車の調査の多重対応分析 1/2
車の調査で,二変量を連結して複数変量で対応分析
を試みる
この場合には連結した変量のカテゴリ間の相互作用
に影響を受ける
ڏ

×
“ÁˆÙ’l
Šµ
«
”ä—¦ —ݐ
Ï
0.32266 0.10411 0.6476 0.6476
0.19672 0.03870 0.2407 0.8884
0.13394 0.01794 0.1116 1.0000
—ñ7
c1
c2
c3 —ñ8
¬Œ^ƒXƒ|

[ƒc
0.380 0.0245 -0.0420 
—«
Šù
¥
¬Œ^ƒtƒ@ƒ~ƒŠ

[ -0.209 0.1387 -0.1933 
—«
–¢
¥
¬Œ^ƒ

[ƒN

0.006 -0.0898 0.1647 ’j
«Šù
¥
‘åŒ^ƒXƒ|
[ƒc
1.640 0.5973 0.8302 ’j
«–¢
¥
‘åŒ^ƒtƒ@ƒ~ƒŠ
[-0.247 0.2401 0.2508
‘åŒ^ƒ
[ƒN

0.208 -0.2279 0.1036
’†Œ^ƒXƒ|
[ƒc
0.446 -0.0496 -0.0455
’†Œ^ƒtƒ@ƒ~ƒŠ
[-0.307 -0.2146 0.0056
’†Œ^ƒ
[ƒN

-0.292 0.6244 -0.0398
図4.11
c1
c2
c3
-0.2296 -0.1868 0.1184
0.2688 -0.2621 -0.2533
-0.2337 0.2128 -0.0740
0.5290 0.1175 0.1112
MCA的な分析結果
第4章 対応分析
38/40
4.3.2 車の調査の多重対応分析 2/2
0.25
0
-0.25
-0.5
c1‚Æc2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
0.75
0.5
‘åŒ^ƒtƒ@ƒ~ƒŠ
[
¬Œ^ƒtƒ@ƒ~ƒŠ

[ [ƒc
¬Œ^ƒXƒ|

’†Œ^ƒXƒ|
[ƒc
¬Œ^ƒ

[ƒN 

‘åŒ^ƒ
[ƒN
’†Œ^ƒtƒ@ƒ~ƒŠ
[
-0.25
0
c1
.25
図4.12
.5
c2
c2
c1‚Æc2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
0.75
’†Œ^ƒ
[ƒN

0.5
0.25
’j
«Šù
¥
’j
«–¢
¥
0
—«Šù

¥
-0.25
-0.5
-0.25
0
c1
—«–¢

¥
.25
.5
成分1&2の散布図
解釈を試みよ
第4章 対応分析
39/40
まとめ
1.数量化3類は質的データの主成分分析として位置つけされる
2.多くの場合は成分1&成分2の散布図で解釈可能
3.2元表(クロス表)で,カテゴリ数が多い場合の要約・解釈に役立つ
注意点
1.2元表の頻度の割合について,固有値問題を解いているので
行または列の小計の極端に小さい値がある場合には,
散布図の端にプロットされるので解釈に注意する
2.成分は,頻度の割合のパターンを強調するので,カテゴリによって
頻度の割合に変化がないものは中心に集まる
3.散布図の両端にプロットされた変数・サンプルで軸の解釈を行う
4.行と列(変数とサンプル)を入れ替えても結果は変わらない
(対称性)ので,主成分分析よりも扱いやすい
5.主成分分析と違い,総合的指標に関する軸は抽出されない
40/40
第4章 対応分析