因子分析と共分散構造分析における理論と応用について

Download Report

Transcript 因子分析と共分散構造分析における理論と応用について

科学研究費シンポジウム: 因子分析と共分散構造分析に関する諸問題 平成13年11月9~10日 於:統計数理研究所 1 Organized by Professor Manabu Sato

因子分析と共分散構造分析に おける理論と応用について

狩野 裕 大阪大学人間科学部 [email protected]

Missing Data in SEM

欠測値のあつかい 2

今までの方法

• Listwise Deletion – 一つでも欠測のあるオブザベーションは,分析から外して 分析する • Pairwise Deletion – 相関係数を計算する際,そのペアにだけ欠測のない オブザベーションをすべて用いる • Imputation – 欠測値を何らかの方法による推定値でおきかえて 欠測のないデータセットにする • 平均 • EM algorithmによる最尤推定値 • 回帰分析 3

今までの方法は

• Listwise Deletion (LD) – 最も一般的な方法 – 捨てられるデータがもったいない...統計的推測の精度が低くなる – 欠測が多いと分析できないことがある – MCARである必要 • Pairwise Deletion (PD) – 相関行列Sの統計的分布が不明 • Sが正定値行列でないことがある – 分析方法はLSぐらいしかない • SE,カイ2乗値・適合度指標,LM検定・ワルド検定などが信頼 できない – MCARである必要 4

今までの方法は_続

• Imputation – 汎用ソフトで実行可能 – データの分布,相関行列の分布が不明 – Mean Imputation (MI) • 分散が小さくなりすぎる • 分散や共分散を正確に推定できないこの方法は SEMには致命的 – EMによる最尤推定 • MARでよい • 平均ベクトルや相関行列を推定することが最終目的の場合 はOK 5

統計理論から

• Missing Completely At Random (MCAR) – どの値が欠測するかは完全にランダムである – LD, PDは,このときのみ使える • Missing At Random (MAR) – どの値が欠測するかはデータに依存してもよいが, 欠測値には依存しない – FIMLの適用が薦められる • Nonignorable Missing – どの値が欠測するかが欠測した値に依存する – 欠測のメカニズムにモデリングが必要 6

MAR: Missing At Random

• Rubin (1976)によって定義

Y

:

n

p

データ行列,

Y

 [

Y obs

,

Y mis

]

R

:

P P n

  

R ij R ij p

欠測表示変数   1 0   : :

Y ij

が観測される確率

Y ij

が欠測する確率

Y

 : 欠測メカニズムを規定 するパラメータ : モデルの母数  とは無関係 MAR 

p

R

|

Y obs

,

Y mis

,  

R

|

Y obs

,   7

MARとFIML

Observed Data Likelihood :

f

 (

Y obs

,

R

|  ,  )      

f

(

Y obs

,

Y mis

,

R

|  ,  )

dY mis

 

p

(

R p

(

R

|

Y obs

,

Y mis

,  )

f

|

Y obs

,  )

p

(

R p

(

R

|

Y obs

,  |

Y obs

,  ) ) 

f f f

(

Y obs

,

Y mis

(

Y obs

,

Y mis

(

Y obs

,

Y mis

(

Y obs

|  ) |  )

dY mis

|  )

dY mis

|  )

dY mis

max

f

(

Y obs

,

R

|  ,  )  max

f

(

Y obs

|  ) 8

MARについての補足

次式はいつも成立しそ う:

f

(

Y obs

,

R

|  ,  ) 

p

(

R

|

Y obs

,  )

f

(

Y obs

|  )

f

(

R

|

Y obs

,  ) が  に依存しない」こと これは一般に成立しな いし,意味がわかりに くい

p

(

R

|

Y obs

,

Y mis

,  ) が  に依存しないという仮 定が より現実的(正則条件 という扱い)  すべてのデータが止ま っている その上で,

p

(

R

|

Y obs

,

Y mis

,  ) 

p

(

R

|

Y obs

,  ) を仮定する 9

2次元データの例

Y

1 

c

のとき

Y

2 が欠測するとする

Y

1

y

11 

Y

2

y

12 

y m

1  

y

m

2

y n

1 測 1 0 

R

1  0

f

(

Y obs

,

R

) 

i m

  1

f

(

y i

1 ,

y i

2 ,

r i

)

i n

 

m

 1

f

(

y i

1 ,

r i

) 

i m

  1

f

(

y i

1 ,

y i

2 )

p

(

r i

|

y i

1 ,

y i

2 )

i n

 

m

 1

f

(

y i

1 )

p

(

r i

|

y i

1 ) 1 1 

i m

  1

f

(

y i

1 ,

y i

2 )

i n

 

m

 1

f

(

y i

1 ) 10

欠測の分布

p

(

r

|

y

1 ,   1

y

2 )  0  (

r p

(

r

|  1 ,

y

1

y

1 ) 

c

) otherwise or (

r

 0 ,

y

1 

c

) もし,

Y

2 

c

のとき

Y

2 が欠測する( MAR でない) ならば ( 正規性の下で )

p

(

r

 0 |

y

1 )   

c

N

y

|

E

(

Y

2 |

y

1 ),

V

(

Y

2 |

y

1 ) 

dy

となり,興味の対象で あるパラメータを含む 複雑な 式になり,

Y obs

だけを用いる統計的推 測はできない 11

MARの例

卒 論 受験生全員

r=0.6

× × × × × × × × × × × × × × × × × × × × × 入学者のみ

r’=0.3

入学試験 不合格者 合格者 12

r

から r への修正公式

r

r

' ( 1 

k

2 )

r

' 2 

k

2

ここで

k

2 

合格者の分散 受験者全員の分散

13

多変量正規母集団での推測_1

y

*

i

:

y

i

から欠測データを取り 除き次元を 落としたベクトル ( 次元

p i

)

μ

*

i

,  *

i

:対応する平均ベクト ルと分散行列 Observed Data Likelihood

L

(

μ

,  |

Y

) 

i n

  1 :

p i

/ 2 1 |  *

i

| 1 / 2 exp   (

y

*

i

μ

*

i

)'  *

i

 1 (

y

*

i

μ

*

i

) / 2  14

多変量正規母集団での推測_2

Y

1 にのみ欠測がある場合

y

*

i

 [

Y i

2 ,  ,

Y ip

]'

y

1 ,  ,

y

m

,

y

*

m

 1 ,  ,

y

*

n

    

σ

11 21

σ

12  *   ,

μ

   

μ

1 *   Observed Data Likelihood :

L

(

μ

,  |

Y

) 

i m

  1 1

p

/ 2 |  | 1 / 2 exp   (

y

i

μ

)'   1 (

y

i

μ

) / 2  

i n

 

m

 1   ( 1

p

 1 ) / 2 |  * | 1 / 2 exp   (

y

*

i

μ

* )'  *  1 (

y

*

i

μ

* ) / 2  15

SEMでの推測

• SEMではObserved Data Likelihood に 基づく推測をMethod of Full-Information Maximum Likelihood (FIML)と呼んでいる – AMOS4, EQS6, LISREL8.5, M-plus2, Mx – 欠測のパターンが限られている場合, 多母集団の同時分析に帰着 – 欠測が一つの変数にしか起こらない場合は 2つの母集団 16

FIMLについて

• 計算時間がかかる • 収束しない場合がある • GFIなど,出力しにくい統計量がある • 欠測が多いと最尤法のよさがでないかも 17

例:6つの心理テストデータ

1.

2.

3.

4.

n=73の完全データを分析 – 30%の欠測値でのFIML MCAR but LDではデータがなくなる – – Wordmeanが低い人のSentenceデータが欠測している ものを作成し分析 MAR FIML と LD – Wordmeanが低い人のWordmeanデータが欠測している ものを作成し分析 Nonignorable missing – FIML と LD 18

分析1: 6つの心理テスト

• n=73, p=6 • 完全データ(欠測値な し) 19

分析2: 6つの心理テスト

• n=73, p=6 • ランダムに欠測(MCAR) – 各変数について約30%の欠測 – 全データでの欠測率=120/438 – 欠測のない個体=7 • 出展:AMOSマニュアル 20

分析1:完全データの分析結果

21

分析2:MCARデータの分析結果

22

FIML vs LD

• MAR または Nonignorable missing のとき にFIMLとLDを比較する – 欠測が多くないならば,LDは実行可能なので • 分析 – 「Sentence」に約30%の欠測があったとき,LD とFIMLのパフォーマンスを比較する – 分析3... MAR – 分析4... Nonignorable missing 23

分析3のデータ

• 欠測のパターン:MAR • Wordmean が13点以下の 被験者を欠測に • 欠測数=24(/73) • Sentence の平均 19.3⇒21.6

24

分析4のデータ

• 欠測のパターン:Nonignorable • Sentence が17点以下の 被験者を欠測に • 欠測数=24(/73) • Sentence の平均 19.3⇒22.1

25

分析3: MAR

FIML LD 26

分析4: Nonignorable

FIML LD 27

分析結果のまとめ:推定値の比較

28 パラメータ 視覚的認知 <-F1 空間視覚 <-F1 方向認知 文章理解 <-F1 <-F2 文章完成 語彙 <-F2 <-F2 因子相関 絶対差の平均 欠測 なし FIML 分析3:MAR LD 分析4:NONIGNORABLE FIML LD 推定値 推定値 絶対差 推定値 絶対差 推定値 絶対差 推定値 絶対差 0.70

0.70

0.00

0.69

0.02

0.70

0.01

0.78

0.08

0.65

0.74

0.88

0.66

0.73

0.90

0.00

0.00

0.02

0.79

0.67

0.86

0.13

0.06

0.02

0.66

0.74

0.87

0.00

0.00

0.01

0.72

0.66

0.83

0.07

0.08

0.05

0.83

0.84

0.49

0.69

0.82

0.50

0.14

0.02

0.01

0.03

0.64

0.72

0.31

0.18

0.12

0.18

0.10

0.77

0.85

0.51

0.05

0.01

0.02

0.02

0.77

0.82

0.53

0.06

0.02

0.04

0.06

分析結果のまとめ:SEの比較

パラメータ 視覚的認知<-F1 空間視覚 <-F1 方向認知 <-F1 文章理解 <-F2 文章完成 <-F2 語彙 <-F2 分析3:MAR FIML 推定値 LD 推定値 0.14

0.27

0.15

0.32

0.23

0.32

0.20

0.45

分析4:NONIGNORABLE FIML 推定値 LD 推定値 0.15

0.28

0.11

0.31

0.19

0.31

0.14

0.41

29

まとめ

• 分析3から – LDでも一変数に関する欠測であれば,因子分析モデ ルに関しては適合は良いようである • 推定値には無視できないバイアスが生じている • LDは特に因子相関にバイアスが生じている • 分析4から – FIMLは理論的にはMAR用の解析方法であるが, nonignorable の場合でもよいパフォーマンスを示して いる – FAの場合は,他の観測変数からの欠測の予測精度 が高いのかも • LDの推定精度は低い 30

計画による欠測

• データ – 2020名の黒人の父親にインタビューし, 職業と教育歴を尋ねた – 3週間後に2020名からランダムに抽出された384名に 再度,職業と教育歴を尋ねた – 欠測のパターン...MCAR – 384名だけで分析してもよいが,残りのサンプル (1672名)を上手く活かせないか? • MARであり,欠測のパターンが少ない場合は,多 母集団の同時分析が有効 – 解析はAllison(1987)・Wothke(1999) による 31

データ

完全データ rowtype_ n mean cov cov cov cov varname_ 職業1 348 職業1 16.62

180.9

職業2 教育1 教育2 126.77

23.96

22.86

職業2 348 17.39

教育1 教育2 348 348 6.65

6.75

217.56

30.2

30.47

16.24

14.36

15.13

欠測データ rowtype_ n mean cov cov varname_ 職業1 1672 職業1 教育1 16.98

217.27

25.57

教育1 1672 6.83

16.16

32

完全データの分析:非標準解

33

完全データの分析:標準解

34

多母集団の同時分析:非標準解

完全データのグループ 欠測データのグループ 35

多母集団の同時分析:標準解

完全データのグループ 欠測データのグループ 36

specification

• 平均構造を導入 – 平均構造をいれないと,母集団ごとに 異なった平均を当てはめることになる • 対応するすべての母数を等置する • FIMLで分析すると – いくつかの適合度指標が定義しにくい 37

比較

• 完全データのみの分析と多母集団の 同時分析との比較 – 推定値に大きな差はない – 多母集団の同時分析は精度が高い • 標準誤差が大幅に小さい V(職業) V(教育) Cov(職業,教育)  完全データのみの分析 多母集団の同時分析 推定値 96.592

標準誤差 14.407

推定値 116.609

標準誤差 10.194

23.243

14.404

3.124

1.317

14.287

25.165

0.702

1.412

38

まとめ

• Missing data, nonresponse data などは無視する のではなく,積極的に分析に取り入れる時代に なった • とりあえずは,MAR(Missing At Random) – 欠測する確率が当該変数の値に依存しない • 潜在変数にも依存しない • 当該変数以外の観測変数には依存してもよい • FA では,条件MARが崩れていてもFIMLでそれ なりに分析できるかも • 欠測を予測できる変数があるかどうか – 経時データの分析にも有効 39

(脱落のある)経時データ

• 普通の分散分析 – セル度数が不揃いの分析 • Type II, III 平方和 • 実験データのFIML • 欠測のあるSEM – Latent Curve Analysis – 初回のデータが脱落のpredictorになりえる 40

Further Topic

• MCARの検討 • Nonignorable case のモデル化 • SEMの既存の理論すべてが,missing の ある場合に拡張できるであろう – 多くの場合はすでにやられている – 非正規性,ニ値データ – 多母集団・平均構造,多段サンプリング 41

Thank you for your attention

42