コレスポンデンス分析と因子分析によるイメージの測定法

Download Report

Transcript コレスポンデンス分析と因子分析によるイメージの測定法

コレスポンデンス分析と因子分
析によるイメージの測定法
7月29日(火)
学籍番号 speedster
はじめに
今回の目的はコレスポンデンス分析とはな
ぞや?を学ぶ事にあるので。
⇒数量化Ⅲ類、ノンメトリックMDSなどについ
ては軽く触れるくらいにして、なおかつ・・・
⇒なるべくわかりやすく書かれている部分に
着目してレジュメを作成しました。
特徴
コレスポンデンス分析は集計票の行と列を
同時にマッピングする方法として利用され
ている。
その際、標準プロフィールとの違いを分析
するので、分析対象はデータ形式の違い
(シングルアンサー項目、多重解答項目、
平均値表など)を問題にしない。
コレスポンデンス分析と類似度分析
基本的には集計表の行・列の度数を用い
て標準化し、主成分分析(積和行列)を適
用して点を重ねるという方法をとる。
標準化するのだから行要素と列要素の周
辺度数(平均的な反応傾向)を空間の原点
にするように変換して、そこから行・列共に
プロフィールの類似関係を分析する事にな
る・・・らしい。
標準化して重心を重ねる事は行・列要素が
共通の単位を持っているかどうかわからな
い場合によく用いられる。
もともと原点が測定されない類似度データ
の分析はヤング・ハウスホールダーの変換
によって重心を原点にし、エッカート・ヤン
グ分解によって小さい次元で近似する方法
が取られている・・・ようです。
原点の移動方法としては対象をばらつか
せる(ベクトルの共通部分を除いてから分
散を100%にして差異をみる)ので、差異が
わかりやすい。
⇔主成分分析や3相因子分析では、第一
因子(主成分)に一般因子が出てしまい、
対象の違いを明確にしづらいのだが、コレ
スポンデンス分析は、標準化プロフィール
を用いることで対象の違いを明確にする事
ができる。
集計表の見方とコレスポンデンス分析の
考え方
次スライドのクロス表を見るときは横%の
数値と全体の値とを比較する。
このとき、行の度数の大きさの影響を除く
ために%に直してから比較をする。
また、各行の持つ特徴を見るために、%そ
のものではなくて、全体の行との違いを見
る事が必要になる。
クロス集計表の見方
全体の度数
全体
(基準の行)T
A
(視点の行)B
C
D
E
F
第一列
O
a-a
O
e-a
第二列
b-b
第三列
c-c
第四列
d-d
f-b
g-c
h-d
a~hは横パーセント
横%の差はnij/nj-ni/Nで表せる。そして、横%の
式の形を変形すると、(2.1)式のようになる。
ni:行の全体度数
ni/N:全体に対する行の割合
この二つをかけると周辺度数と同じ割合で分布し
た時の度数になる。
また、 nj×ni/Nはj行において全体度数から予測
されるプロフィールパターンを表している(Χ2乗検
定では理論度数・予測度数といっている)。
データマトリックスの行・列の合計
i列
合計
第j行目
n ij
nj
合計
ni
N
合計または平
均のプロフィー
ルパターン
合計または平
均のプロフィー
ルパターン
分子でnijとの差をとる事で基準値と測定値
の違い=行の特徴を把握する事ができる。
その後、列の度数によって数値を調整した
結果が(2.2)式であり、コレスポンデンス分
析の変換式(形式的にはΧ2乗統計量の計
算式)になる。
(2.2)式を見ると行・列を入れ替えても結果
には差し支えない。⇒双対性があるという。
データを標準化し、各セルの特徴を表現し
た後、列・行の類似関係を取り扱う事にな
る。
集計表から類似関係を読み取り、データの
凸凹からいくつかのブランドが似てる、似
てないの判断ができる。⇒プロフィールの
類似度を出せば空間的にマッピングできそ
うである。
データを空間的に表現するために座標軸
を導入して、共通した次元をもとに結びつ
ける。
その際、一般にはデータの分散を説明でき
る次元を適当な所まで採用し、その他の分
散を誤差として切り捨てる方法を取る。
しかし、近似がうまくいかないときには意味
のある次元が捨てられる危険がある事も
多いので注意。
ベクトルイメージで表現すると・・・
プロフィール間の距離が、平均を重ねた時
の形の違いに分解される事を表したのが
図2-7である。
この図はΧ2乗統計量で表現されるコレス
ポンデンス行列の計算の基本的な原理を
表している・・・らしい。
元のデータから平均水準で調整されたプロ
フィール距離のみを出したのが図2-8であ
る。
コレスポンデンス分析はこのように射影さ
れた後のデータを主成分分析して、少ない
次元で近似する方法である。
計算された単位固有ベクトルに周辺度数と
固有値の平方根をかけたものがウェイトベ
クトルであり、図2-8の右下になる。
3つの枠組み
ステップ1 データの変換(基準プロフィー
ルとの比較)
ステップ2 空間の構成(少数次元空間座
標での近似、得異値分解)
ステップ3 空間内の対象の得点計算
コレスポンデンス分析では基準プロフィールが原
点になり、得られた集計表の全体を基準とすると、
バランスよくデータが布置される。
そこに新しいデータを加えて位置関係を見たいと
きはステップ3のみを行って計算をすればよい事
になる。
こうして得られた空間は何回かの変換によって
行・列の、特定のばらつきのみを取り出して二次
元空間に収まるように近似することができる・・・
ようです。
分析データの形と基準プロフィールの決め
方
基準プロフ⇒一般的には周辺度数
データの形によって異なる(詳しくは表2.1参照)
基本的には
①分析データは何か
②標準化をするかしないか
③基準プロフをそのまま用いるか重み付けするか
④外部分析か否か
によって方法が異なってくる。
応用上の性質
①評価対象の差異が強調される。
個人データを集計する事で個人差分散を
除き、集計結果を標準化する
評価対象の差異が小さくても明確な差異と
して抽出される。
しかし、差異を強調しすぎて予測を誤る危
険性もある。
誤解を回避するために
個人データを分析して、評価対象の平均値
を計算するといい。
⇒しかし、計算が面倒で、応用者にとってクリ
アでないために嫌われやすい。
そのほかにもいろいろな方法がある(テキ
ストP21参照)。
クリアではない結果が事実を表現している
可能性があるので、平均の差の検定やΧ2
乗検定を併用するとよろしい。
②分析結果は2次元平面で表現できる
ことが多い。
集計データを用いる⇒個人差分散を除くこ
とになるので次元が小さくなる。
通常の多変量解析と比較すると、標準化し
たプロフのみを取り出しているので、小さな
次元でデータを近似できる可能性が高い。
③2次元平面でよく解釈できない場合。
2次元空間では不十分な時に2次元空間を
用いると中心付近に説明できない対象が
集まる。
3つの対策
①3次元以上で表現する。
②説明しづらい対象や項目を除いて分析。
③空間を均等にするためにノンメトリック法を
用いる。←これが一番メジャーらしい。
④多くのデータ形式が分析できる。
データがクロス集計表に限らなくても平均値表や
01データ(数量化Ⅲ類)、3元データなども分析で
きる。
基準プロフを全ての要素について0にすると行列
の積和の主成分分析になり、2乗和をとれば原
点から長さ1の変数ベクトルを分析する事になる。
基準化の数値として列の平均値を取ると分散共
分散の主成分分析となる。・・・???
⑤コレスポンデンス分析の欠点を補う
関連手法
個人データ分析と分散分析
⇒個人差分散と集計項目要因の分散の大
きさを推定できる。
積和の主成分分析
⇒第一主成分で基準プロフを含めた寄与率
がわかる。第二主成分以降を用いればコ
レスポンデンスとほぼ同じ結果が得られる。
数量化Ⅲ類について
主成分分析や因子分析などと同様に変量
の特性を明らかにしたり、測定対象を分類
するモデル。
用いるデータは名義尺度や序数尺度など
の質的データ
例:個人のレジャーに関する調査
レジャーに関する調査の解答
番号
年齢
1
2
3
4
5
6
20
22
36
41
49
57
職業
ドライブ
事務系
○
労務系
労務系
管理職
○
会社役員
管理職
○
つり
○
映画
○
○
スポーツ 競馬
○
○
○
○
○
○
○
○
音楽
○
○
クロス分析表
ドライブ
ドライブ
つり
映画
スポーツ
競馬
音楽
つり
3
2
0
2
2
0
映画
2
3
0
1
2
0
0
0
2
1
0
2
スポーツ 競馬
1
1
1
3
1
1
音楽
1
1
0
1
3
0
•表の数字はつりとドライブの類似度がつりと映画の類似
度より大きいことを示している。
0
0
2
1
0
2
問題の数式化
サンプルスコア(調査対象に関して原点か
らの距離に対応させた数量)とカテゴリー
スコア(変量に原点からの距離を対応させ
た数量)を求める。
そのスコアを元に2次元空間などにプロット
する。⇒測定対象と変量の相互関係を明ら
かにしたりグループわけができる。
外部コレスポンデンス分析
新しいデータを、既に構成された平面の上
で過去のデータを比較したい。
⇒外部分析と呼んでいる。
構成された空間について「列要素の追加」
「行要素の追加」といわれる事もある。
基本的な3つの操作
①固定される空間はできているので新しい
プロフを見るための基準は空間を作ったと
きの周辺度数になる。
②プロフのばらつき調整の度数は元の基
準プロフと新しいデータを用いる。
⇒プロフィールの凸凹を一律化して空間内に
収まるようにする操作。
行列が出てきました・・・。
③空間的な布置を表す固有値と固有ベクトルは
既に計算されたイメージの固有ベクトルを用い
る。・・・??
もとの固有地を対角要素とした行列をΛとし、イ
メージ項目固有ベクトル行列をAとすると、評価対
象の固有ベクトルを計算するための標準係数は
ω=A(A’A)-1Λ-1
これらの操作を用いる事で外部分析は安定した
結果になる。
コレスポンデンス分析と集計データの主
成分分析
図2-14は集計データをそのまま主成分分
析する場合を示したもので、コレスポンデ
ンス分析(図2-8)と比較できるようになって
いる。
コレスポンデンス分析が要素間の差異を
除いているのに対し、主成分分析では結
果の中に平均水準距離、プロフィール距離
の効果を含んでいる。
コレスポンデンス分析⇒各要素のプロ
フィールごとの類似関係を見る。
主成分分析⇒全てを含んだ分散を用い、
第一主成分を固有ベクトルとして標準的な
プロフィールを推測。
つまり、第二・第三主成分がコレスポンデ
ンス分析の第一・第二次元と対応する事に
なる(表2-4に主成分分析の寄与率とコレ
スポンデンス分析の寄与率を比較したもの
があるのでそちらを参照)。
また、試しに・・・
コレスポンデンス分析、積和の主成分分析、
列の相関係数による分析、列の分散共分
散行列の分析を比較してみる(図2-15~
18)
⇒4つともほとんど同じ結果が得られた。
ノンメトリックMDSとはなんぞや?
MDSは多次元尺度法( Multidimensional
scaling )の略
対象間の距離を、測定したデータを入力と
し,ある次元の空間(通常は2 次元平面)
における座標を推定する手法。
距離は非類似性と呼ばれることも多く,似
ているほど値が小さく,似ていないほど値
が大きい。
例えばこんな感じ
札幌
東京
金沢
大阪
福岡
札幌
832
806
1079
1417
東京
金沢
大阪
福岡
299
429
1092
260
689
481
-
出展:http://koko15.hus.osakau.ac.jp/~yokoyama/study/MDS2.files/frame.htm#slide0001.htm
ノンメトリックってのは・・・
非計量(Non-Metric)を表し、データが順
序・名義尺度などの場合を指す。
クラスカルの方法が代表的
⇒対象 i , j 間の非類似度Sij(データの値)を
n次元空間上の距離dijに変換
データは誤差eijを伴うのでdij=f(sij)+eij
f(s) は非類似度の単調増加関数
⇒このとき、s と d は単調関数によって対応
づけられていれば十分であると考える。
コレスポンデンス分析とノンメトリック
MDS
ノンメトリックMDSを用いると、コレスポンデ
ンス分析では表現できなかった要素が分
かれて布置される。
⇒順序尺度によって表現される座標値には
幅があるので少ない次元で均等にばらつ
かせる事ができる(?)
⇒プロフィールのノンメトリック展開法という。
ノンメトリックMDSは応用者のイメージに適
合した結果を出す⇔安定した結果を出す
にはデータが少ないとダメ。
集計表のような列と行が異なった要素であ
る事は、データ数に対して推定する数値が
多いので不合理な解を出す可能性もある。
最適値問題で最急降下法を使っているの
で局所最適値を出す事もある。
多重クロス集計表の同時マッピング
異なった集計表を同一空間に位置づける
方法は
①集計表を並べて一つの表として分析
②基準となる分析をして、他方を外部分析
③行と列の要因に、繰り返し要因を加えた3
つの相を同等に取り扱う(3相コレスポンデ
ンス分析)
複数の集計表を同時に分析すると、基準
プロフは全体の傾向を表現したものになる。
個々の集計表の特徴は全体を基準とした
プロフィールの特徴を表現する(例えば、
動物と花のイメージでは、花は動物に比
べて「ダイナミック」などは出にくいが、花
だけだとハイビスカスやクラジオラスが近く
に布置される(図2-22・23参照))。
参考文献
「経営のための多変量解析法」
本多正久, 島田一明共著. 産業能率短期大学出
版部, 1977
HP「多次元尺度構成法」
http://koko15.hus.osakau.ac.jp/~yokoyama/study/MDS2.files/frame.ht
m#slide0001.htm
To be continued…