Transcript 看個例子(SPSS)
第 11 章 變項間的關聯性 共變性(covariance):Y變項隨X變項變化。 因果關係(causation):確定Y變項是隨X變項 變化而變化,X變項稱自變項(independent variable) 、輸入變項(input variable)、預測變 項(predictive variable)或解釋變項(explanatory variable),Y變項稱依變項(dependent variable) 、應變項(response variable)、目標 變項(target variable)或結果變項(outcome variable)。 關聯性(association):描述變項間的共變關 係,包含型態、方向和強度。 相關分析(correlation analysis):分析和描 述關聯性的方法。 簡單相關分析:分析和描述二變項間關聯性的 方法。 多元相關分析或複相關分析:分析和描述多變 項間關聯性的方法。 迴歸分析(regression analysis):用方程式分 析和描述變項間固定關係的過程。 簡單迴歸分析:只有一個X和Y變項的方程式。 多元迴歸分析或複迴歸分析:有k個X變項和一 個Y變項的方程式。 自變項:是類別、序位或連續數字變項, 類別或序位變項必須轉換成虛擬變項。 應變項:是連續數字變項。 簡單相關分析 簡單相關分析:型態只限於直線。 散布圖(scatter plot):二變項的配對變數 在圖上以點的形態呈現,顯示型態、方 向、強度以及異常離群值。 線性相關(linear correlation):散布圖上 的點有成為直線的趨勢。 具有容易解釋之優點 線性相關有二個方向(direction): 1. 線性正相關(linear positive correlation):x 增加時,y 隨著增加, 成正比關係,用“+” 號表示。 2. 線性負相關(linear negative correlation):x增加時,y隨著減少, 成反比關係,用“”號表示。 Y 變項 X 變項 Y 變項 線性正相關 X 變項 線性負相關 非線性相關(nonlinear correlation)或非 直線相關:散布圖上的點有成為某種規 則性曲線的趨勢。 零相關(zero correlation)或無相關(no correlation):散布圖上的點分散到看不 出任何規則性。 強度:點的分布愈趨近直線關聯性愈強。 Y 變項 X 變項 Y 變項 非線性相關 X 變項 零相關 看個例子(SPSS) 看個例子(SPSS) 看個例子(SPSS) 看個例子(SPSS) 線性相關係數 線性相關係數、皮爾森積差相關係數或相 關係數:以線性模式為基礎,代表二變項 間關聯性方向和強度的數值。 相關係數 r 使用時機: (1) 成對隨機樣本。 (2) 連續數列的變項。 (3) 只能使用於線性相關。 相關係數 r : r n xy x y [n x ( x) ][n y ( y ) ] 2 2 2 2 相關係數 r 的特性: (1) 沒有單位。 (2) 1 r 1。正號表示正相關,負號表 示負相關。 一般劃分標準: (a) 0.20: 微弱或零相關。 (b) 0.20 – 0.40: 低度相關。 (c) 0.40 – 0.70: 中度相關。 (d) 0.70 – 0.90: 高度相關。 (e) > 0.90: 超高相關。 (f) = 1.00: 完全相關。 行為科學劃分標準: (a) (b) (c) 0.10:小效應。 0.30:中效應。 0.50:大效應。 (3) r 的大小和方向與自變項和應變項的 中心位置無關。 (4) r 值受離群值影響,關聯性變弱。 看個例子 (SPSS) C o rrel a t i o n s High High Weight .665* .018 12 1 Pearson Correlation 1 Sig. (2-tailed) N 12 Weight Pearson Correlation .665* Sig. (2-tailed) .018 N 12 12 Hr Pearson Correlation .719** .874** Sig. (2-tailed) .008 .000 N 12 12 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Hr .719** .008 12 .874** .000 12 1 12 等級相關分析 無母數等級相關分析法:Spearman等級 相關係數(Spearman’s rank correlation coefficient rs )。 rs 使用時機: (1) 成對隨機樣本。 (2) 連續數列的變項。 (3) 只能使用於線性相關。 Rs 計算步驟: (1) 將 X 和 Y 的觀測值分別由小到大排 序,得到等級 rxi 和 ryi。觀測值相同 時,用等級平均數取代原等級。 (2) 每對樣本等級差 di: di rxi ryi (3) 沒有相同觀側值,相關係數 rs: 6i 1 d n rs 1 2 i n(n 1) 2 (4) 有相同觀側值, tj 是每組相同個數,修 訂相關係數 (rs)c: n) / 6 2 t ( n n) / 6 3 (rs ) c [(n 3 n 2 d i 1 i 3 ][( n X t t n) / 6 2 t X Y Y ] X 3 ( t j 1 j Y 3 ( t t ) j j j 1 k t 12 k t tj) 12 看個例子 (SPSS) C o rrel a t i o n s Spearman's rho High Correlation Coefficient Sig. (2-tailed) N Weight Correlation Coefficient Sig. (2-tailed) N Hr Correlation Coefficient Sig. (2-tailed) N *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). High Weight 1.000 .615* . .033 12 12 .615* 1.000 .033 . 12 12 .724** .797** .008 .002 12 12 Hr .724** .008 12 .797** .002 12 1.000 . 12 相關係數的推論 r 或 rs 是母體相關係數 的最佳點估計 值: r 或 rs = 0 時, r 的抽樣分布是對稱分布, 可以轉變成自由度 df = n – 2 的 t 分布。 檢定母體相關係數 是否等於 0 的步驟: (1) 建立假設: H0 : 0 H1 : 0 (2) 選定顯著水準α,常選 0.05。 (3) 雙尾檢定臨界值 U 和 L: U t(1 , df ) 2 L t(1 , df ) 2 (4) 計算 r 或 rs。 (5) 代入公式,得到判定值 t: t0 r n2 1 r 2 (6)有二種判斷接受或拒絕 H0 的方法: (a) t0 在接受區,接受 H0,可能犯了β 型錯誤; t0 在拒絕區,拒絕 H0 , 接受 H1 ,是可以接受的結果。 (b) 雙尾檢定拒絕 H0 的條件: P(t t0 ) 或 P (t t0 ) 2 2 (7) 依據接受 H0 或 H1 的條件作成結論。 看個例子 (SPSS) C o rrel a t i o n s High High Weight .665* .018 12 1 Pearson Correlation 1 Sig. (2-tailed) N 12 Weight Pearson Correlation .665* Sig. (2-tailed) .018 N 12 12 Hr Pearson Correlation .719** .874** Sig. (2-tailed) .008 .000 N 12 12 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Hr .719** .008 12 .874** .000 12 1 12 看個例子 (SPSS) C o rrel a t i o n s Spearman's rho High Correlation Coefficient Sig. (2-tailed) N Weight Correlation Coefficient Sig. (2-tailed) N Hr Correlation Coefficient Sig. (2-tailed) N *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). High Weight 1.000 .615* . .033 12 12 .615* 1.000 .033 . 12 12 .724** .797** .008 .002 12 12 Hr .724** .008 12 .797** .002 12 1.000 . 12 簡單線性迴歸分析 簡單線性迴歸分析(simple linear regression analysis): 1. 建立線性迴歸模式(linear regression model) 2. 求直線迴歸方程式(linear regression equation)。 建立簡單線性迴歸模型 須符合下列假設: (1) 自變項的變數 x 是固定、沒有誤差、 可以重複量度。 (2) 應變項的變數 y 是平均數 y / x 和標 準差 y / x 的常態分布。和 x 的關係: y / x 0 x :當x增加1單位, y的平均增加量。 是直線斜率(slop)或迴歸係數 (regression coefficient)。 0:當x=0, y的平均值。 是直線截距 (intercept)或迴歸常數(regression constant)。 (3) 輸入 x 時,y 產生常態隨機變化,偏 差 是平均數 0 ,標準差σ的常態分 布。模型如下: y 0 x y / x (4) 變異數是同質性(homogeneity of variances) 。 簡單直線迴歸方程式 最小平方迴歸直線(least-squares regression line), yˆ 是預測平均數點估 計值: yˆ ˆ0 ˆ x 迴歸係數 ˆ 和迴歸常數 ˆ0 : n xy x y ˆ 2 2 n x ( x) xy nx y x 2 nx 2 ( x x )( y y ) ( x x ) 2 ˆ0 y ˆ x 注意事項: (1) 繪製散布圖,確定線性趨勢,有異 常離群值,評估是否刪除。 (2) 注意內插法(interpolation)和外插法 (extrapolation)特性。 (3) 迴歸係數和迴歸常數四捨五入時須 考慮誤差。 迴歸係數的推論 迴歸係數:斜率為零時,是零相關。 迴歸係數的區間估計 執行步驟: (1) 選定信賴係數 (1 –α),常選0 .95。 (2) 上界 U 和下界 L: U t(1 , df ) 2 L t(1 , df ) 2 df n 2 (3) 斜率樣本標準誤差 Sm: (a) 偏差(deviation)、殘差(residual) 或誤差(error) ε: y yˆ (b) 誤(殘)差平方和SSE(sum of squares for error): SSE 2 (c) 自由度 df: df n 2 (d) 樣本迴歸變異數(sample variance of regression)或樣本殘差變異數 (sample residual variance)MSE: SSE MSE n2 y 2 ˆ 0 y ˆ xy n2 估計標準誤差(standard error of estimate)或殘差標準差(residual standard deviation): SSE Se n2 (e) 斜率樣本變異數 S m2 : Sm2 MSE 2 ( x x ) 樣本斜率標準誤差 Sm: Sm Se ( x x ) 2 (4) 迴歸係數β區間估計: ˆ t(1 , n2) Sm ˆ t(1 , n2) Sm 2 2 (5) 0 在區間範圍裡,β可能是零。 迴歸係數的 t 檢定 檢定母體迴歸係數β是否等於 0 的步驟: (1) 建立假設: H0 : 0 H1 : 0 (2) 選定顯著水準α,常選 0.05。 (3) 雙尾檢定臨界值 U 和 L: U t(1 , df ) 2 L t(1 , df ) 2 df n 2 (4) 計算斜率樣本標準誤差 Sm。 (5) 代入公式,得到判定值 tm0 tm0 ˆ 0 Sm (6) 二種判斷接受或拒絕 H0 的方法: (a) t0 在接受區,接受 H0,可能犯 了β型錯誤; t0 在拒絕區,拒絕 H0 ,接受 H1 ,是可以接受的結 果。 (b) 雙尾檢定拒絕 H0 的條件: P (t t0 ) 2 或 P(t t0 ) 2 (7) 依據接受 H0 或 H1 的條件作成結論。 變異數分析 檢定母體迴歸係數β是否等於 0 的步驟: (1) 選定顯著水準α,常選 0.05。 (2) 使用 F 分布右尾檢定。 (3) 建立假設: H0 : 0 H1 : 0 (4) 計算迴歸差異平方和MSF ( mean square due to regression ) 或組間變 2 異數 S1,樣本殘差變異數 ( sample residual variance) MSE 或組內變異 數 S 22 : (a) 組間平方和SSF(sum of squares for factor)或迴歸平方和 SSR(sum of squares due to regression): SSR (yˆ y ) 2 ( x)( y ) ˆ xy n 2 ( x) 2 2 ˆ x n (b) 組間自由度 df1: df1 1 (c) 組間變異數 MSR 或 S12 : SSR MSR 1 S12 (d) 組內平方和SSE(sum of squares for error) 或誤(殘)差平方和 SSE(sum of squares for error): SSE 2 (e) 組內自由度 df2: df 2 n 2 (f) 樣本迴歸變異數(sample variance of regression)或樣本殘差變異數 (sample residual variance)MSE: SSE MSE n2 y 2 ˆ 0 y ˆ xy n2 (5) 代入公式,得到判定值 F0: S12 F0 2 S2 MSR MSE (6) 右尾檢定臨界值 U: U F(1 , df1 , df2 ) (7) 二種判斷接受或拒絕 H0 的方法: (a) F0 在接受區,接受 H0,可能犯 了β型錯誤; F0 在拒絕區,拒絕 H0,接受H1,是可以接受的結 果。 (b) 右尾檢定拒絕 H0 的條件是: 或 F0 F(1 , df1 , df2 ) P( F F0 ) (8) 計算項目列下表。 (9) 依據接受 H0 或 H1 的條件作成結論。 預測值的區間估計 區間估計執行步驟: (1) 選定信賴係數 (1 –α),常選 0.95。 (2) 上界 U 和下界 L: U t(1 , df ) 2 L t(1 , df ) 2 df n 2 (3) 樣本標準誤差 S y p : S yp Se (x p x)2 1 n ( x x ) 2 SSE Se n2 (4) 母體預測值平均數區間估計: y p t(1 , n2) S y p y p y p t(1 , n2) S y p 2 2 看個例子 (SPSS) ANOVAb Model 1 b Vari a b l es E n t ere d / R em o v ed M o d el Su m mary Sum of Squares df Mean Square 估計樣本迴歸模型: F Sig. a 7.943 .018 Std. Error of Regression Variables 649.373 1Adjusted 649.373 Variables R Residual 817.543 10 81.754 Method Model Entered Removed Model R R Square Square the Estimate Total 1466.917 11 a 1 Weight . Enter 9.04181 a 1a. Predictors: (Constant), .665 .443 .387 Weight AllVariable: requested variables entered. b. Dependent High a. a.Predictors: (Constant), Weight High = 85.178 + 1.243*Weight b. Dependent Variable: High C o effi ci en tsa Unstandardized Coefficients Model B Std. Error 1 (Constant) 85.178 30.710 Weight 1.243 .441 a. Dependent Variable: High Standardized Coefficients Beta .665 t 2.774 2.818 Sig. .020 .018 看個例子(SPSS) 簡單線性相關與迴歸的關係 二變項間關聯性關係:因果關係 (causation)、共同反應(common response) 或交絡(confounding)。共同反應變項和 交絡變項是研究者經常忽略的潛在變項 (lurking variable)。 線性相關係數 r:表示二變項變動方向和 關係密切程度。 迴歸係數β: 表示反應變項與解釋變項變 動的比例。 r 是正號,ˆ 一定是正號;r 是負號, ˆ 一定是負號;r 是零,ˆ 一定是零。 決定係數 r2 (coefficient of determination): r r 2 2 決定係數 r2 表示 Y 變項的變動受 X 變 項變動影響的比例,0 r2 1。 線性複迴歸分析 複迴歸分析(multiple regression analysis): 1. 建立複迴歸模式(multiple regression model)當作推論的理論基礎 2. 求出複迴歸方程式(multiple regression equation)。 建立複迴歸模型 須符合下列假設: (1) Xi 變項任一變數 xij 是固定、沒有誤 差、可以重複量度,i =1,2,…k,j =1,2,…n。 (2) Y 變項的變數 y 是平均數 y / xi 和 標準差 y / xi 的常態分布。 y / xi 和 xi 的關係: y / xi 0 i xi i 是淨迴歸係數 (partial regression coefficient)。 0 是直線的截距 (intercept)或迴歸常數(regression constant)。 (3) 輸入 xi,y 產生常態隨機變化,偏差 是平均數 0 的常態分布: y 0 i xi y / xi (4) 變異數是同質性(homogeneity of variances) 。 直線複迴歸方程式 最小平方迴歸直線(least-squares regression line): yˆ ˆ0 ˆi xi 淨迴歸係數的推論 淨迴歸係數:自變項迴歸係數為零時, 表示該自變項與應變項是零相關。 迴歸係數的檢定 檢定母體迴歸係數是否等於 0 的步驟: (1) 選定顯著水準α,常選 0.05。 (2) 使用 F 分布右尾檢定。 (3) 建立假設: H 0 : 1 2 k 0 H1 : i 0 ( 至少有一個不為零 ) (4) 計算迴歸差異平方和 MSF (mean square due to regression)或組間變 異數 S12 : (a) 組間平方和SSF(sum of squares for factor)或迴歸平方和SSR(sum of squares due to regression): SSR ( yˆ y ) 2 (b) 組間自由度 df1: df1 k 2 S (c) 組間變異數 MSR 或 1 : SSR MSR k S12 (5) 計算樣本殘差變異數(sample residual variance) MSE 或組內變異數 S 22 : (a) 偏差(deviation)、殘差(residual)或誤 差(error)ε: y yˆ (b) 組內平方和SSE(sum of squares for error)或誤(殘)差平方和SSE(sum of squares for error): SSE 2 (c) 組內自由度是 df2: df 2 n k 1 (d) 樣本迴歸變異數(sample variance of regression)或樣本殘差變異數(sample residual variance) MSE: SSE MSE n k 1 (e) 代入公式,得到判定值 F0: S12 F0 2 S2 MSR MSE (6) 右尾檢定臨界值 U: U F(1 , df1 , df2 ) (7) 二種判斷接受或拒絕 H0 的方法: (a) F0 在接受區,接受H0 ,可能犯了β 型錯誤; F0 在拒絕區,拒絕 H0 , 接受 H1,是可以接受的結果。 (b) 右尾檢定拒絕 H0 的條件: 或 F0 F(1 , df1 , df2 ) P( F F0 ) (8) 計算項目列於表11.2。 (9) 依據接受 H0 或 H1 的條件作成結論。 淨迴歸係數的檢定 檢定母體迴歸係數 i 是否等於 0 的步 驟: (1) 建立假設: H0 : i 0 H1 : i 0 (2) 選定顯著水準α,常選0.05。 (3) 雙尾檢定臨界值 U 和 L: U t(1 , df ) 2 L t(1 , df ) 2 df n 2 (4) 樣本斜率標準誤差 Si 的平方值。 S i2 MSE 2 ( xi x i ) (5) 代入公式,得到判定值 ti0: ti 0 ˆi 0 Si (6) 二種判斷接受或拒絕 H0 的方法: (a) t0 在接受區,接受H0 ,可能犯了β 型錯誤; t0 在拒絕區,拒絕 H0 , 接受 H1,是可以接受的結果。 (b) 右尾檢定拒絕 H0 的條件: P(t t0 ) 或 P (t t0 ) 2 2 (7) 依據接受 H0 或 H1 的條件作成結論。 看個例子(SPSS) Highi 估計樣本複迴歸方程式 0 1Weight i 2 Hri i High 57.905 0.291Weight 1.4 Hr 檢定迴歸係數是否都為0 (亦即:檢定迴歸模型是否具有顯著性) 1) H 0 : 1 2 0 2) H1 : At least one βi 0 3) 0.05 4)Pvalue P(F( 2 ,9 ) 4.931 ) 0.036 5)Rule : Pvalue 6)Reject H 0 . 直線複相關分析 複迴歸分析:方向和強度由複相關係數、 淨相關係數和部分相關係數來決定。 複相關係數 複相關係數R(multiple correlation coefficient R):顯示 k 個自變項和 1 個應 變項間關聯性的強度和方向。 迴歸模式決定係數 ( coefficient of determination) R2:用複相關係數平方 R2 解釋所有自變項與應變項形成線性複 迴歸模式的契合度(goodness of fit): 2 ˆ ( y y ) i i R2 2 ( y i y ) 調整決定係數 Ra2 (adjusted coefficient of determination): Ra2 n 1 1 (1 R 2 ) n k 1 淨相關和部分相關係數 淨相關係數 (partial correlation coefficient) r12.3 : r12 r13r23 r12.3 2 2 (1 r13 )(1 r23 ) 半相關係數(semipartial correlation coefficient)或部分相關係數(partial correlation coefficient) r12.3 : r12 r13r23 r1( 2.3) 2 1 r23 看個例子(SPSS) C o rrel a t i o n s 檢定相關係數是否為0 High Weight High Pearson Correlation 1 .665* 1) H 0 : Sig. 1) H 0 : High, Hr.018 0 (2-tailed) High ,W eight 0 N 12 12 2Weight ) H1 : Pearson 0 2) H.665* High,W eight 1 : High, Hr 1 0 Correlation Sig. (2-tailed) 3) 0.05 3).018 0.05 N 12 12 4Hr)PvaluePearson 0.Correlation 018 4)Pvalue 008 .719** 0..874** Sig. (2-tailed) .008 .000 5)Rule :NPvalue / 2 5)Rule : Pvalue 12 12 6)Reject H 0 is . significant at the60.05 )Reject H0. *. Correlation level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Hr .719** .008 12 .874** .000 12 1 /2 12 非線性迴歸分析 資料轉換: p x x 1 1 1 1 p 3 , 2 , 1 , , , , , 1 , 2 , 3 , 2 3 3 2 或 x log x 曲線方程式: ˆy a bx cx 2 多項式曲線方程式: yˆ a bx cx2 dx3 看個例子(SPSS) 估計樣本二次曲線迴歸模型 High 382.224 7.336Weight 0.061Weight2 迴歸模式的抉擇 逐步迴歸分析法(stepwise):使用向前 (forward)和向後(backward)迴歸分析法, 得到最佳契合度(goodness of fit)方程式為止。 多元共線性(multi-collinearity):用容忍值 (tolerance)或允差 T 來表示: T 1 Ri2 2 Ri 是決定係數。 變異數膨脹因素VIF(variance inflation factor): 1 VIF 2 1 Ri 容忍值愈小或 VIF 值愈大,共線性愈明 顯。 看個例子(SPSS) 總結 二變項間關聯性:用散布圖、相關係數 或迴歸直線來表示。 相關係數:表示二變項間關聯性的方向 及強度。 迴歸直線:二變項間關聯性的最佳模式, 判定係數值愈接近 1,預測值準確性愈高。 多變項間關聯性:用散布圖、複相關係 數、複迴歸直線、決定係數和調整決定 係數來表示。 Reference 生物統計學 書名:生物統計學 - SPSS資料分 析與研究設計概念 (2008/01 二版) 資料檔 [Download]