多元勝算對數模型 - Sites@Duke

Download Report

Transcript 多元勝算對數模型 - Sites@Duke

主題九、類別資料分析
主講人
陳陸輝 特聘研究員兼主任
政治大學選舉研究中心
美國密西根州立大學博士
1
2015/4/13
政治學研究方法班
主題
前言
一、(二元)成長曲線迴歸模型
二、複成長曲線迴歸模型
三、成長曲線迴歸模型之推論
四、等第對數勝算比模型
五、多項對數勝算比模型
六、結論
2
政治學研究方法班
2015/4/13
前言
在社會科學中,我們想解釋的現象也許是



二元/分:勝/敗、(不)投票、投馬/謝
有序多分(等第):滿意度—不滿~滿意
無序多分:三個候選人、政黨認同
本章即討論相關主題
3
政治學研究方法班
2015/4/13
一、(二元)成長曲線迴歸模型
當我們的依變數是二分類,我們通常以1表示我們感
興趣的結果(成功),以0表示另外一個結果
(失敗)。
此二元分配稱為二項分佈(binomial distribution)
4
政治學研究方法班
2015/4/13
線性機率模型(LPM)
P(Y  1)   0  1 X 1
迴歸分析中,我們的依變數是0或1的分佈
分析選民是否投票給馬英九:(1:投給馬英九)
Coefficients a
Unstandardized
Coefficients
Model
B
Std. Error
1
(Constant)
.028
.022
LIKEKMT
.117
.004
a. Dependent Variable: VoteMa 投給馬英九
5
Standardized
Coefficients
Beta
.644
t
1.274
31.273
Sig.
.203
.000
P(Yˆ  1)  0.03  0.12X 1
政治學研究方法班
2015/4/13
線性機率模型(LMP)
圖15.1
6
政治學研究方法班
2015/4/13
二元成長曲線模型(Binary Logistic Regression)
P(Y  1)
log[
]   0  1 X 1
1  P(Y  1)
P(Y  1)
?
1  P(Y  1)
百分比%
馬英九
謝長廷
(樣本數)
62.9
37.1
(1,441)
odds=62.9/37.1=1.70
7
政治學研究方法班
2015/4/13
二元成長曲線模型(Binary Logistic Regression)
P(Y  1) 稱之為logistic
log[
]
1  P(Y  1)
transformation,或是logit
模型也可以簡寫為:
log[P(Y  1)]   0  1 X 1
Binary Logit Model我們也稱為二元勝算對數模型
當P(Y=1)=0.50, odds=1
當log[P(Y=1)/(1-P(Y=1))]=0, P(Y=1)=0.5
X=?
最大概似法(maximum likelihood estimation, MLE)
8
政治學研究方法班
2015/4/13
誰支持馬英九—SPSS操作
Analyze Regression Binary Logistic
Dependent: Vote2008P
Covariate: N2N.
9
政治學研究方法班
2015/4/13
誰支持馬英九—公式與計算
log[P(Y  1)]   0  1 X 1  3.468 0.83X 1
Vari a b l es i n t h e E q u at i o n
B
S.E.
LIKEKMT
.830
.046
Constant
-3.468
.234
a. Variable(s) entered on step 1: LIKEKMT .
Step 1a
Wald
320.122
219.657
df
1
1
Sig.
.000
.000
Exp(B)
2.294
.031
e (  0  1 X1 )
P(Y  1) 
1  e ( 0  1 X1 )
e( 3.468)
X 1  0, P(Y  1) 
 0.030
1  e (3.468)
e ( 2.638 )
X 1  1, P(Y  1) 
 0.067
1  e ( 2.638 )
10
e ( 4.832 )
X 1  10, P (Y  1) 
 0.992
1  e ( 4.832 )
政治學研究方法班
2015/4/13
誰支持馬英九—圖表呈現
誰支持馬英九
機率
1
0.5
0
0
1
2
3
4
5
6
7
8
9
對國民黨滿意度
11
政治學研究方法班
2015/4/13
10
解釋成長曲線模型
圖15.3的切線
12
政治學研究方法班
2015/4/13
用勝算或是勝算比解釋成長曲線模型
P(Y  1)
log[
]   0  1 X 1
1  P(Y  1)
P(Y  1)
 0  1 X 1
0
1 X1
e
 e (e )
1  P(Y  1)
e
13
ˆ1
e
0.830
 2.293
政治學研究方法班
2015/4/13
用勝算或是勝算比解釋成長曲線模型
機率估計、勝算與勝算比
14
X1
Y=1
Y=0
odds
0
0.030
0.970
0.031
1
0.067
0.933
0.072
2.293
2
0.141
0.859
0.164
2.293
3
0.273
0.727
0.376
2.293
4
0.463
0.537
0.862
2.293
政治學研究方法班
odds ratio
2015/4/13
二、複成長曲線迴歸模型
log[P(Y  1)]   0  1 X 1   2G1
V ar ia b le s in t he E q u at io n
B
S.E.
Step
LIKEKMT
.830
.046
female
.382
.150
Constant
-3.651
.247
a. Variable(s) entered on step 1: LIKEKMT, female.
1a
Wald
319.670
6.447
218.051
df
1
1
1
Sig.
.000
.011
.000
Exp(B)
2.292
1.465
.026
log[ P(Y  1)]  3.651  0.830 X 1  0.382G1
Female : log[ P(Y  1)]  3.269  0.830 X 1
Male : log[ P(Y  1)]  3.651  0.830 X 1
15
政治學研究方法班
2015/4/13
二、複成長曲線迴歸模型
V ar ia b le s in t he E q u at io n
B
S.E.
Step
LIKEKMT
.830
.046
female
.382
.150
Constant
-3.651
.247
a. Variable(s) entered on step 1: LIKEKMT, female.
1a
odds  e
16
Wald
319.670
6.447
218.051
( 3.6510.830 X1 0.382 G1 )
df
Sig.
.000
.011
.000
1
1
1
e
Exp(B)
2.292
1.465
.026
3.651 0.830 X1 0.382 G1
e
e
1.控制其他變數後,女性投給馬英九相對於謝
長廷的勝算比,是男性的1.465倍。
2.控制其他變數後,對國民黨的喜好程度每增
加一個單位,投給馬英九相對於謝長廷的勝算
比就增加為2.29倍。
政治學研究方法班
2015/4/13
複成長曲線迴歸模型:圖形
誰是馬迷
機率
1.0
女性
0.5
男性
0.0
0
1
2
3
4
5
6
7
8
9
10
國民黨喜好度
17
政治學研究方法班
2015/4/13
三、成長曲線迴歸模型之推論
log[P(Y  1)]   0  1 X 1  ...   k X k
個別係數:
Wald statistics(與z檢定與卡方檢定之關係)
模型:概似比檢定likelihood-ratio test
0
 2 log( )  (2 log  0 )  (2 log  1 )  LR 2  G 2
1
18
政治學研究方法班
2015/4/13
女性還是黨性
誰支持馬英九
完整模型
係數
簡化模型
(標準誤)
係數
(標準誤)
常數
-3.651***
(0.247)
-3.468***
(0.234)
對國民黨喜好度
0.830***
(0.046)
0.830***
(0.046)
女性
0.830***
(0.046)
模型資訊
樣本數
(Nagelkerke) R2
G2(LR χ2)
df
p值
1,383
0.545
0.415
709.446
702.964
2
1
<0.001
資料來源:游清鑫,
(2009)
。
19
政治學研究方法班
0.001
2015/4/13
解讀2008選舉
依變數:vote2008P
自變數:
 性別:Female
 省籍:Hakka, MLD
 年齡:S1NC33, S1NC32
 馬英九好惡度:J6CN
 政黨認同:N1BNI, N1BNB
 對陳水扁不滿:SWC
20
政治學研究方法班
2015/4/13
誰是馬迷:重要發現
21
政治學研究方法班
2015/4/13
誰是馬迷:模型說明
22
政治學研究方法班
2015/4/13
誰是馬迷?統計解釋
本研究分析決定民眾2008年投票傾向的因素。從
Michigan學派的角度出發,本研究除了將民眾
的政黨認同、對馬英九的喜好程度以及對陳水扁
施政評價等因素納入之外,還控制民眾的性別、
年齡與省籍。
研究假設:什么样的认同会倾向支持马英九,对
马的喜好以及对扁的好恶会影响对马的支持?
統計虛無假設:
統計對立假設:
23
政治學研究方法班
2015/4/13
誰是馬迷?具體統計解釋
24
在2008年的選舉中,影響民眾投票傾向的顯著因
素因素包括:選民的省籍、政黨認同、對馬英九
的喜好程度以及對於陳水扁的滿意度。具體而言,
在控制其他變數之後,民眾對於馬英九的喜好程
度每增加一個單位,其投給馬英九相對於謝長廷
的勝算就增加為原先的1.52倍。當民眾對陳水扁
過去的表現不滿意者,在控制其他變數之後,其
投給馬英九相對於謝長廷的勝算,是滿意者的
2.68倍。……顯示2008年的選舉中,除了藍綠
基本盤外,馬英九的個人魅力與對陳水扁表現的
失望,是造成國民黨勝選的重要因素。
政治學研究方法班
2015/4/13
四、等第勝算對數模型
當我們的依變數是有序多分時,如滿意度
民眾對陳水扁總統的滿意度
次數
百分比
累積百分比
非常不滿意
524
30.3
30.3
不太滿意
712
41.2
71.5
有點滿意
411
23.8
95.3
非常滿意
82
4.7
100.0
1728
100.0
總計
資料來源:游清鑫,(2009)。
25
政治學研究方法班
2015/4/13
基本概念
累積百分比: P(Y  j )
四分類的滿意度
P(Y  1)  P(Y  1)
P(Y  2)  P(Y  1)  P(Y  2)
P(Y  3)  P(Y  1)  P(Y  2)  P(Y  3)
26
政治學研究方法班
2015/4/13
基本概念
非常不滿意
P(Y  1)
不太滿意
P(Y  2)
截距一
有點滿意
P(Y  3)
截距二
P(Y  1)
P(Y  2)
截距三
P(Y  1)
P(Y  2)
P(Y  3)
27
非常滿意
P(Y  4)
政治學研究方法班
P(Y  3)
2015/4/13
勝算
P(Y  j )
odds 
P(Y  j )
P(Y  1)
P (Y  1)
log it[ P(Y  1)]  log[
]  log[
]
P(Y  1)
P(Y  2)  P(Y  3)  P(Y  4)
P(Y  2)
P(Y  1)  P(Y  2)
log it[ P(Y  2)]  log[
]  log[
]
P(Y  2)
P(Y  3)  P(Y  4)
P(Y  3)
P(Y  1)  P(Y  2)  P(Y  3)
log it[ P(Y  3)]  log[
]  log[
]
P(Y  3)
P(Y  4)
28
政治學研究方法班
2015/4/13
Cumulative Logit Models
logit[ P(Y  j)]   j  X , j  1,2,...,c  1
當c有四組,自變數解釋:
Y≦1、Y≦2、Y≦3
時,他們對logit的影響
此外,會有c-1個截距
此模型又稱為比例勝算(proportional odds)模型
29
政治學研究方法班
2015/4/13
Cumulative Logit Models:圖15.4
30
政治學研究方法班
2015/4/13
鐵桿扁迷—SPSS操作
Analyze Regression Ordinal…
Dependent: SWC4
Covariate: N2AN, N1BNG, N1BNI.
31
政治學研究方法班
2015/4/13
Cumulative Logit Models:阿扁滿意度
誰挺扁
完整模型
簡化模型
係數
(標準誤)
係數
(標準誤)
截距一
1.585***
(0.119)
1.532***
(0.113)
截距二
4.264***
(0.160)
4.015***
(0.147)
截距三
6.844***
(0.216)
6.592***
(0.211)
對民進黨喜好度
0.443***
(0.027)
0.577***
(0.024)
認同民進黨
1.456***
(0.154)
---
---
無傾向
1.070***
(0.129)
---
---
模型資訊
樣本數
(Nagelkerke) R2
G2(LR χ2)
df
p值
1,638
0.435
0.390
824.069
717.794
3
1
<0.001
資料來源:游清鑫,
(2009)
。
32
政治學研究方法班
<0.001
2015/4/13
解釋阿扁滿意度:利用模型一
控制其他變數之後,對民進黨的滿意度每增加
一單位,對阿扁滿意相對於不滿意傾向的成敗
比,就增加為原來的1.56倍(Exp(0.443))。
控制其他變數之後,民進黨認同者對阿扁滿意
相對於不滿意傾向的成敗比,是國民黨的4.29
倍(Exp(1.456))。
33
政治學研究方法班
2015/4/13
四、勝算對數模型之推論
個別係數:
Wald statistics
模型:概似比檢定likelihood-ratio test
0
2
2
 2 log( )  (2 log  0 )  (2 log  1 )  LR  G
1
34
政治學研究方法班
2015/4/13
五、多元勝算對數(multinomial logit)模型
基本模型
P(Y  j )
log[
]   j   j X 1 , j  1,...,c  1.
P(Y  c)
以性別在政黨認同的差異為例:
性別:0:男性、1:女性
政黨認同:1:傾向泛藍、 2:中立、 3:傾向泛綠
35
log[
P(Y  1)
]   1  1 X 1
P(Y  3)
log[
P(Y  2)
]  2  2 X1
P(Y  3)
政治學研究方法班
2015/4/13
姊姊妹妹站起來—SPSS操作
Analyze RegressionMultinomial…
Dependent: PIDC3
Covariate: FEMALE
36
政治學研究方法班
2015/4/13
五、多元勝算對數模型:先看交叉列表
f e m al e * P I D C3
政黨認同 三分類 Cr o ss ta bu l at io n
% within female
female
.00 男性
1.00 女性
Total
Total
100.0%
100.0%
100.0%
認同泛藍/認同泛綠
中立無傾向/認同泛綠
女性
38.6/24.8=1.556
36.7/24.8=1.480
男性
35.2/32.3=1.090
32.5/32.3=1.006
1.428
1.471
OR:女比男
37
PIDC3 政黨認同三分類
1.00 認同泛藍
2.00 無傾向
3.00 認同泛綠
35.2%
32.5%
32.3%
38.6%
36.7%
24.8%
36.9%
34.6%
28.6%
政治學研究方法班
2015/4/13
五、多元勝算對數模型
性別與政黨認同
國民黨/民進黨
係數
S.E.
常數
0.08
0.08
女性
0.36**
0.12
中立/民進黨
Exp(B)
1.43
係數
S.E.
0.01
0.08
0.39**
0.12
Exp(B)
1.47
模型資訊
樣本數
1,905
(Nagelkerke) R2
G2(LR χ2)
0.008
13.476
df
p值
2
<0.001
資料來源:游清鑫,
(2009)
。
38
政治學研究方法班
2015/4/13
五、多元勝算對數模型之推論
個別係數:
Wald statistics
模型:概似比檢定likelihood-ratio test
0
2
2
 2 log( )  (2 log  0 )  (2 log  1 )  LR  G
1
39
政治學研究方法班
2015/4/13
六、結論
1.類別依變數的統計模型
2.二元成長曲線模型(自变数是有顺序)/二元勝算對數模型
3.等第勝算對數模型(等序模型)
4.多元勝算對數模型
5.模型比較與推論
40
6.當理論在找尋模型
政治學研究方法班
2015/4/13