看個例子(SPSS)

Download Report

Transcript 看個例子(SPSS)

第 11 章
變項間的關聯性

共變性(covariance):Y變項隨X變項變化。

因果關係(causation):確定Y變項是隨X變項
變化而變化,X變項稱自變項(independent
variable) 、輸入變項(input variable)、預測變
項(predictive variable)或解釋變項(explanatory
variable),Y變項稱依變項(dependent
variable) 、應變項(response variable)、目標
變項(target variable)或結果變項(outcome
variable)。

關聯性(association):描述變項間的共變關
係,包含型態、方向和強度。

相關分析(correlation analysis):分析和描
述關聯性的方法。

簡單相關分析:分析和描述二變項間關聯性的
方法。

多元相關分析或複相關分析:分析和描述多變
項間關聯性的方法。

迴歸分析(regression analysis):用方程式分
析和描述變項間固定關係的過程。

簡單迴歸分析:只有一個X和Y變項的方程式。

多元迴歸分析或複迴歸分析:有k個X變項和一
個Y變項的方程式。

自變項:是類別、序位或連續數字變項,
類別或序位變項必須轉換成虛擬變項。

應變項:是連續數字變項。
簡單相關分析

簡單相關分析:型態只限於直線。

散布圖(scatter plot):二變項的配對變數
在圖上以點的形態呈現,顯示型態、方
向、強度以及異常離群值。

線性相關(linear correlation):散布圖上
的點有成為直線的趨勢。
 具有容易解釋之優點

線性相關有二個方向(direction):
1. 線性正相關(linear positive
correlation):x 增加時,y 隨著增加,
成正比關係,用“+” 號表示。
2. 線性負相關(linear negative
correlation):x增加時,y隨著減少,
成反比關係,用“”號表示。
Y 變項
X 變項
Y 變項
線性正相關
X 變項
線性負相關

非線性相關(nonlinear correlation)或非
直線相關:散布圖上的點有成為某種規
則性曲線的趨勢。

零相關(zero correlation)或無相關(no
correlation):散布圖上的點分散到看不
出任何規則性。

強度:點的分布愈趨近直線關聯性愈強。
Y 變項
X 變項
Y 變項
非線性相關
X 變項
零相關
看個例子(SPSS)
看個例子(SPSS)
看個例子(SPSS)
看個例子(SPSS)
線性相關係數

線性相關係數、皮爾森積差相關係數或相
關係數:以線性模式為基礎,代表二變項
間關聯性方向和強度的數值。

相關係數 r 使用時機:
(1) 成對隨機樣本。
(2) 連續數列的變項。
(3) 只能使用於線性相關。

相關係數 r :
r
n  xy   x  y
[n  x  ( x) ][n  y  ( y ) ]
2
2
2
2

相關係數 r 的特性:
(1) 沒有單位。
(2)  1  r  1。正號表示正相關,負號表
示負相關。

一般劃分標準:
(a)
 0.20: 微弱或零相關。
(b) 0.20 – 0.40: 低度相關。
(c) 0.40 – 0.70: 中度相關。
(d) 0.70 – 0.90: 高度相關。
(e)
> 0.90: 超高相關。
(f)
= 1.00: 完全相關。

行為科學劃分標準:
(a)
(b)
(c)
 0.10:小效應。
 0.30:中效應。
 0.50:大效應。
(3) r 的大小和方向與自變項和應變項的
中心位置無關。
(4) r 值受離群值影響,關聯性變弱。
看個例子 (SPSS)
C o rrel a t i o n s
High
High
Weight
.665*
.018
12
1
Pearson Correlation
1
Sig. (2-tailed)
N
12
Weight Pearson Correlation
.665*
Sig. (2-tailed)
.018
N
12
12
Hr
Pearson Correlation
.719**
.874**
Sig. (2-tailed)
.008
.000
N
12
12
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Hr
.719**
.008
12
.874**
.000
12
1
12
等級相關分析


無母數等級相關分析法:Spearman等級
相關係數(Spearman’s rank correlation
coefficient rs )。
rs 使用時機:
(1) 成對隨機樣本。
(2) 連續數列的變項。
(3) 只能使用於線性相關。

Rs 計算步驟:
(1) 將 X 和 Y 的觀測值分別由小到大排
序,得到等級 rxi 和 ryi。觀測值相同
時,用等級平均數取代原等級。
(2) 每對樣本等級差 di:
di  rxi  ryi
(3) 沒有相同觀側值,相關係數 rs:
6i 1 d
n
rs  1 
2
i
n(n  1)
2
(4) 有相同觀側值, tj 是每組相同個數,修
訂相關係數 (rs)c:

 n) / 6  2 t
( n  n) / 6 
3
(rs ) c 
[(n 3
n
2
d

i 1 i
3
][(
n
X
t
t
 n) / 6  2 t
X

Y
Y
]
X


3
(
t
j 1 j
Y


3
(
t

t
)
j
j
j 1
k
t
12
k
t
tj)
12
看個例子 (SPSS)
C o rrel a t i o n s
Spearman's rho
High
Correlation Coefficient
Sig. (2-tailed)
N
Weight Correlation Coefficient
Sig. (2-tailed)
N
Hr
Correlation Coefficient
Sig. (2-tailed)
N
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
High
Weight
1.000
.615*
.
.033
12
12
.615*
1.000
.033
.
12
12
.724**
.797**
.008
.002
12
12
Hr
.724**
.008
12
.797**
.002
12
1.000
.
12
相關係數的推論

r 或 rs 是母體相關係數  的最佳點估計
值:
 r
或
  rs

 = 0 時, r 的抽樣分布是對稱分布,
可以轉變成自由度 df = n – 2 的 t 分布。

檢定母體相關係數  是否等於 0 的步驟:
(1) 建立假設:
H0 :   0
H1 :   0
(2) 選定顯著水準α,常選 0.05。
(3) 雙尾檢定臨界值 U 和 L:
U  t(1  , df )
2
L  t(1  , df )
2
(4) 計算 r 或 rs。
(5) 代入公式,得到判定值 t:
t0 
r n2
1 r
2
(6)有二種判斷接受或拒絕 H0 的方法:
(a) t0 在接受區,接受 H0,可能犯了β
型錯誤; t0 在拒絕區,拒絕 H0 ,
接受 H1 ,是可以接受的結果。
(b) 雙尾檢定拒絕 H0 的條件:
P(t  t0 ) 
或
P (t  t0 ) 

2

2
(7) 依據接受 H0 或 H1 的條件作成結論。
看個例子 (SPSS)
C o rrel a t i o n s
High
High
Weight
.665*
.018
12
1
Pearson Correlation
1
Sig. (2-tailed)
N
12
Weight Pearson Correlation
.665*
Sig. (2-tailed)
.018
N
12
12
Hr
Pearson Correlation
.719**
.874**
Sig. (2-tailed)
.008
.000
N
12
12
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Hr
.719**
.008
12
.874**
.000
12
1
12
看個例子 (SPSS)
C o rrel a t i o n s
Spearman's rho
High
Correlation Coefficient
Sig. (2-tailed)
N
Weight Correlation Coefficient
Sig. (2-tailed)
N
Hr
Correlation Coefficient
Sig. (2-tailed)
N
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
High
Weight
1.000
.615*
.
.033
12
12
.615*
1.000
.033
.
12
12
.724**
.797**
.008
.002
12
12
Hr
.724**
.008
12
.797**
.002
12
1.000
.
12
簡單線性迴歸分析

簡單線性迴歸分析(simple linear
regression analysis):
1. 建立線性迴歸模式(linear regression
model)
2. 求直線迴歸方程式(linear regression
equation)。
建立簡單線性迴歸模型

須符合下列假設:
(1) 自變項的變數 x 是固定、沒有誤差、
可以重複量度。
(2) 應變項的變數 y 是平均數  y / x 和標
準差  y / x 的常態分布。和 x 的關係:
 y / x  0   x
:當x增加1單位,
y的平均增加量。
是直線斜率(slop)或迴歸係數
(regression coefficient)。
0:當x=0,
y的平均值。
是直線截距
(intercept)或迴歸常數(regression constant)。
(3) 輸入 x 時,y 產生常態隨機變化,偏
差  是平均數 0 ,標準差σ的常態分
布。模型如下:
y  0   x  
 y / x  
(4) 變異數是同質性(homogeneity of
variances) 。
簡單直線迴歸方程式

最小平方迴歸直線(least-squares
regression line), yˆ 是預測平均數點估
計值:
yˆ  ˆ0  ˆ x

迴歸係數 ˆ 和迴歸常數 ˆ0 :
n  xy   x  y
ˆ

2
2
n  x  ( x)
 xy  nx y

 x 2  nx 2
( x  x )( y  y )

( x  x ) 2
ˆ0  y  ˆ x

注意事項:
(1) 繪製散布圖,確定線性趨勢,有異
常離群值,評估是否刪除。
(2) 注意內插法(interpolation)和外插法
(extrapolation)特性。
(3) 迴歸係數和迴歸常數四捨五入時須
考慮誤差。
迴歸係數的推論

迴歸係數:斜率為零時,是零相關。
迴歸係數的區間估計

執行步驟:
(1) 選定信賴係數 (1 –α),常選0 .95。
(2) 上界 U 和下界 L:
U  t(1  , df )
2
L  t(1  , df )
2
df  n  2
(3) 斜率樣本標準誤差 Sm:
(a) 偏差(deviation)、殘差(residual)
或誤差(error) ε:
  y  yˆ
(b) 誤(殘)差平方和SSE(sum of
squares for error):
SSE   
2
(c) 自由度 df:
df  n  2
(d) 樣本迴歸變異數(sample variance
of regression)或樣本殘差變異數
(sample residual variance)MSE:
SSE
MSE 
n2
 y 2  ˆ 0  y  ˆ  xy

n2
估計標準誤差(standard error of
estimate)或殘差標準差(residual
standard deviation):
SSE
Se 
n2
(e) 斜率樣本變異數 S m2 :
Sm2
MSE

2
( x  x )
樣本斜率標準誤差 Sm:
Sm 
Se
( x  x )
2
(4) 迴歸係數β區間估計:
ˆ  t(1  , n2) Sm    ˆ  t(1  , n2) Sm
2
2
(5) 0 在區間範圍裡,β可能是零。
迴歸係數的 t 檢定

檢定母體迴歸係數β是否等於 0 的步驟:
(1) 建立假設:
H0 :   0
H1 :   0
(2) 選定顯著水準α,常選 0.05。
(3) 雙尾檢定臨界值 U 和 L:
U  t(1  , df )
2
L  t(1  , df )
2
df  n  2
(4) 計算斜率樣本標準誤差 Sm。
(5) 代入公式,得到判定值 tm0
tm0 
ˆ  0
Sm
(6) 二種判斷接受或拒絕 H0 的方法:
(a) t0 在接受區,接受 H0,可能犯
了β型錯誤; t0 在拒絕區,拒絕
H0 ,接受 H1 ,是可以接受的結
果。
(b) 雙尾檢定拒絕 H0 的條件:
P (t  t0 ) 

2
或
P(t  t0 ) 

2
(7) 依據接受 H0 或 H1 的條件作成結論。
變異數分析

檢定母體迴歸係數β是否等於 0 的步驟:
(1) 選定顯著水準α,常選 0.05。
(2) 使用 F 分布右尾檢定。
(3) 建立假設:
H0 :   0
H1 :   0
(4) 計算迴歸差異平方和MSF ( mean
square due to regression ) 或組間變
2
異數 S1,樣本殘差變異數 ( sample
residual variance) MSE 或組內變異
數 S 22 :
(a) 組間平方和SSF(sum of squares
for factor)或迴歸平方和
SSR(sum of squares due to
regression):
SSR   (yˆ  y )
2
( x)( y ) 

ˆ
    xy 

n


2

( x) 
2
2
ˆ
   x 

n 

(b) 組間自由度 df1:
df1  1
(c) 組間變異數 MSR 或 S12 :
SSR
MSR 
1
 S12
(d) 組內平方和SSE(sum of squares
for error) 或誤(殘)差平方和
SSE(sum of squares for error):
SSE   
2
(e) 組內自由度 df2:
df 2  n  2
(f) 樣本迴歸變異數(sample variance
of regression)或樣本殘差變異數
(sample residual variance)MSE:
SSE
MSE 
n2
 y 2  ˆ 0  y  ˆ  xy

n2
(5) 代入公式,得到判定值 F0:
S12
F0  2
S2
MSR

MSE
(6) 右尾檢定臨界值 U:
U  F(1 , df1 , df2 )
(7) 二種判斷接受或拒絕 H0 的方法:
(a) F0 在接受區,接受 H0,可能犯
了β型錯誤; F0 在拒絕區,拒絕
H0,接受H1,是可以接受的結
果。
(b) 右尾檢定拒絕 H0 的條件是:
或
F0  F(1 , df1 , df2 )
P( F  F0 )  
(8) 計算項目列下表。
(9) 依據接受 H0 或 H1 的條件作成結論。
預測值的區間估計

區間估計執行步驟:
(1) 選定信賴係數 (1 –α),常選 0.95。
(2) 上界 U 和下界 L:
U  t(1  , df )
2
L  t(1  , df )
2
df  n  2
(3) 樣本標準誤差 S y p :
S yp  Se
(x p  x)2
1

n ( x  x ) 2
SSE
Se 
n2
(4) 母體預測值平均數區間估計:
y p  t(1  , n2) S y p   y p  y p  t(1  , n2) S y p
2
2
看個例子 (SPSS)
ANOVAb
Model
1
b
Vari a b l es
E
n
t
ere
d
/
R
em
o
v
ed
M o d el Su m mary
Sum of Squares
df
Mean Square
估計樣本迴歸模型:
F
Sig.
a
7.943
.018
Std. Error of
Regression Variables
649.373
1Adjusted
649.373
Variables
R
Residual
817.543
10
81.754 Method
Model
Entered
Removed
Model
R
R
Square
Square
the
Estimate
Total
1466.917
11
a
1
Weight
. Enter 9.04181
a
1a. Predictors: (Constant),
.665
.443
.387
Weight
AllVariable:
requested
variables
entered.
b. Dependent
High
a. a.Predictors:
(Constant), Weight
High = 85.178 + 1.243*Weight
b. Dependent Variable:
High
C o effi
ci en tsa
Unstandardized
Coefficients
Model
B
Std. Error
1
(Constant)
85.178
30.710
Weight
1.243
.441
a. Dependent Variable: High
Standardized
Coefficients
Beta
.665
t
2.774
2.818
Sig.
.020
.018
看個例子(SPSS)
簡單線性相關與迴歸的關係



二變項間關聯性關係:因果關係
(causation)、共同反應(common response)
或交絡(confounding)。共同反應變項和
交絡變項是研究者經常忽略的潛在變項
(lurking variable)。
線性相關係數 r:表示二變項變動方向和
關係密切程度。
迴歸係數β: 表示反應變項與解釋變項變
動的比例。


r 是正號,ˆ 一定是正號;r 是負號,
ˆ 一定是負號;r 是零,ˆ 一定是零。
決定係數 r2 (coefficient of
determination):
r r
2

2
決定係數 r2 表示 Y 變項的變動受 X 變
項變動影響的比例,0  r2  1。
線性複迴歸分析

複迴歸分析(multiple regression analysis):
1. 建立複迴歸模式(multiple regression
model)當作推論的理論基礎
2. 求出複迴歸方程式(multiple regression
equation)。
建立複迴歸模型

須符合下列假設:
(1) Xi 變項任一變數 xij 是固定、沒有誤
差、可以重複量度,i =1,2,…k,j
=1,2,…n。
(2) Y 變項的變數 y 是平均數  y / xi 和
標準差  y / xi 的常態分布。  y / xi 和 xi
的關係:  y / xi  0   i xi

i 是淨迴歸係數 (partial regression
coefficient)。 0 是直線的截距
(intercept)或迴歸常數(regression
constant)。
(3) 輸入 xi,y 產生常態隨機變化,偏差 
是平均數 0 的常態分布:
y  0   i xi  
  y / xi  
(4) 變異數是同質性(homogeneity of
variances) 。
直線複迴歸方程式

最小平方迴歸直線(least-squares
regression line):
yˆ  ˆ0   ˆi xi
淨迴歸係數的推論

淨迴歸係數:自變項迴歸係數為零時,
表示該自變項與應變項是零相關。
迴歸係數的檢定

檢定母體迴歸係數是否等於 0 的步驟:
(1) 選定顯著水準α,常選 0.05。
(2) 使用 F 分布右尾檢定。
(3) 建立假設:
H 0 : 1   2     k  0
H1 :  i  0
( 至少有一個不為零 )
(4) 計算迴歸差異平方和 MSF (mean
square due to regression)或組間變
異數 S12 :
(a) 組間平方和SSF(sum of squares
for factor)或迴歸平方和SSR(sum
of squares due to regression):
SSR  ( yˆ  y ) 2
(b) 組間自由度 df1:
df1  k
2
S
(c) 組間變異數 MSR 或 1 :
SSR
MSR 
k
 S12
(5) 計算樣本殘差變異數(sample residual
variance) MSE 或組內變異數 S 22 :
(a) 偏差(deviation)、殘差(residual)或誤
差(error)ε:
  y  yˆ
(b) 組內平方和SSE(sum of squares for
error)或誤(殘)差平方和SSE(sum of
squares for error):
SSE   
2
(c) 組內自由度是 df2:
df 2  n  k  1
(d) 樣本迴歸變異數(sample variance of
regression)或樣本殘差變異數(sample
residual variance) MSE:
SSE
MSE 
n  k 1
(e) 代入公式,得到判定值 F0:
S12
F0  2
S2
MSR

MSE
(6) 右尾檢定臨界值 U:
U  F(1 , df1 , df2 )
(7) 二種判斷接受或拒絕 H0 的方法:
(a) F0 在接受區,接受H0 ,可能犯了β
型錯誤; F0 在拒絕區,拒絕 H0 ,
接受 H1,是可以接受的結果。
(b) 右尾檢定拒絕 H0 的條件:
或
F0  F(1 , df1 , df2 )
P( F  F0 )  
(8) 計算項目列於表11.2。
(9) 依據接受 H0 或 H1 的條件作成結論。
淨迴歸係數的檢定

檢定母體迴歸係數 i 是否等於 0 的步
驟:
(1) 建立假設:
H0 : i  0
H1 :  i  0
(2) 選定顯著水準α,常選0.05。
(3) 雙尾檢定臨界值 U 和 L:
U  t(1  , df )
2
L  t(1  , df )
2
df  n  2
(4) 樣本斜率標準誤差 Si 的平方值。
S i2
MSE

2
 ( xi  x i )
(5) 代入公式,得到判定值 ti0:
ti 0 
ˆi  0
Si
(6) 二種判斷接受或拒絕 H0 的方法:
(a) t0 在接受區,接受H0 ,可能犯了β
型錯誤; t0 在拒絕區,拒絕 H0 ,
接受 H1,是可以接受的結果。
(b) 右尾檢定拒絕 H0 的條件:
P(t  t0 ) 
或
P (t  t0 ) 

2

2
(7) 依據接受 H0 或 H1 的條件作成結論。
看個例子(SPSS)
Highi 估計樣本複迴歸方程式
0  1Weight i   2 Hri   i
High  57.905  0.291Weight  1.4  Hr
檢定迴歸係數是否都為0
(亦即:檢定迴歸模型是否具有顯著性)
1) H 0 : 1   2  0
2) H1 : At least one βi  0
3)  0.05
4)Pvalue  P(F( 2 ,9 )  4.931 )  0.036
5)Rule : Pvalue  
6)Reject H 0 .
直線複相關分析

複迴歸分析:方向和強度由複相關係數、
淨相關係數和部分相關係數來決定。
複相關係數

複相關係數R(multiple correlation
coefficient R):顯示 k 個自變項和 1 個應
變項間關聯性的強度和方向。

迴歸模式決定係數 ( coefficient of
determination) R2:用複相關係數平方
R2 解釋所有自變項與應變項形成線性複
迴歸模式的契合度(goodness of fit):
2
ˆ

(
y

y
)
i
i
R2 
2
( y i  y )

調整決定係數 Ra2 (adjusted coefficient of
determination):
Ra2
n 1
1
(1  R 2 )
n  k 1
淨相關和部分相關係數

淨相關係數 (partial correlation
coefficient) r12.3 :
r12  r13r23
r12.3 
2
2
(1  r13 )(1  r23 )

半相關係數(semipartial correlation
coefficient)或部分相關係數(partial
correlation coefficient) r12.3 :
r12  r13r23
r1( 2.3) 
2
1  r23
看個例子(SPSS)
C o rrel a t i o n s
檢定相關係數是否為0
High
Weight
High
Pearson Correlation
1
.665*
1) H 0 : Sig.
1) H 0 :  High, Hr.018
0
(2-tailed)
High
,W eight  0
N
12
12
2Weight
) H1 : Pearson
0
2) H.665*
High,W eight
1 :  High, Hr 1 0
Correlation
Sig. (2-tailed)
3)  0.05
3).018
 0.05
N
12
12
4Hr)PvaluePearson
 0.Correlation
018
4)Pvalue
008
.719**  0..874**
Sig. (2-tailed)
.008
.000
5)Rule :NPvalue   / 2 5)Rule
: Pvalue

12
12
6)Reject
H 0 is
. significant at the60.05
)Reject
H0.
*. Correlation
level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Hr
.719**
.008
12
.874**
.000
12
1
/2
12
非線性迴歸分析

資料轉換:
p

x x
1
1 1 1
p    3 ,  2 , 1 ,  ,  , , , 1 , 2 , 3 , 
2
3 3 2
或
x  log x
曲線方程式:
ˆy  a  bx  cx 2
多項式曲線方程式:
yˆ  a  bx  cx2  dx3  
看個例子(SPSS)
估計樣本二次曲線迴歸模型
High  382.224 7.336Weight  0.061Weight2
迴歸模式的抉擇


逐步迴歸分析法(stepwise):使用向前
(forward)和向後(backward)迴歸分析法,
得到最佳契合度(goodness of fit)方程式為止。
多元共線性(multi-collinearity):用容忍值
(tolerance)或允差 T 來表示:
T  1  Ri2
2
Ri 是決定係數。

變異數膨脹因素VIF(variance inflation
factor):
1
VIF 
2
1  Ri
容忍值愈小或 VIF 值愈大,共線性愈明
顯。
看個例子(SPSS)
總結




二變項間關聯性:用散布圖、相關係數
或迴歸直線來表示。
相關係數:表示二變項間關聯性的方向
及強度。
迴歸直線:二變項間關聯性的最佳模式,
判定係數值愈接近 1,預測值準確性愈高。
多變項間關聯性:用散布圖、複相關係
數、複迴歸直線、決定係數和調整決定
係數來表示。
Reference


生物統計學 書名:生物統計學 - SPSS資料分
析與研究設計概念 (2008/01 二版)
資料檔 [Download]