簡單迴歸分析3

Download Report

Transcript 簡單迴歸分析3

銘傳應用統計系
第十三章
簡單線性迴歸分析-4
Simple Linear Regression -4
13 - 1
學習目標
銘傳應用統計系
1. 複習 ----簡單線性迴歸分析- 1 、 2 、 3
2. 今日內容 -----
簡單線性迴歸分析- 4
13 - 2
學習目標 (複習—重點內容)
銘傳應用統計系
簡單線性迴歸分析- 1
1. 簡單線性迴歸模型 ----- 迴歸模型參數之估計
2. 模型各變異量的估計 ----- ANOVA 表
簡單線性迴歸分析- 2
3. 估計誤差項的變異情形
4. 決定係數的計算與解釋 ----- R2 (或是 r2 )
13 - 3
學習目標 (複習—重點內容)
銘傳應用統計系
簡單線性迴歸分析- 3
5. 評估衡量所建立的模型
---- 驗證迴歸模型成立的假設
6. 迴歸斜率係數的檢定
---- 決定因變數Y與自變數X間是否有線性相關
13 - 4
學習目標 (今日內容 )
銘傳應用統計系
簡單線性迴歸分析- 4
7. 利用迴歸模式做估計或預測工作
8. 線性相關分析
9. 回顧簡單線性迴歸分析所學
13 - 5
迴歸模型使用時的步驟
銘傳應用統計系
F
Regression Modeling Steps
1. 事先決定反應變數與獨立變數間的模式
2. 估計模式的參數
3. 模式中誤差項的機率分配之描述
4. 評估衡量所建立的迴歸模型
5. 利用迴歸模式做估計或預測工作
 在特定x值時,Y的期望平均 E(Yi|xi)
 在某特定點xi下,Yi的反應
6. 線性相關分析
13 - 6
利用迴歸模式做估計或預測工作
銘傳應用統計系
(1) 複習 ----- 簡單線性迴歸模型
(2) 了解 ----- 估計或預測些什麼?
13 - 7
簡單線性迴歸模型
銘傳應用統計系
獨立變數X和反應變數Y之間為線性關係
截距參數
Y-intercept
斜率參數
slope
Yi = b 0 + b1X i + e i
因變數(Dependent
response variable)
13 - 8
自變數
(Independent
, explanatory
variable)
隨機誤差
Random error
簡單迴歸模型下的母體與
樣本
銘傳應用統計系
母體Population
假設母體關係
:未知為參數
隨機取樣
推論
L$
Yi = b 0 + b1X i + e i
J$
13 - 9
J$
K$
J$
Random Sample
Yi = bˆ0 + bˆ1 X i + eˆi
J$
K$
簡單線性迴歸模型取樣後結果
銘傳應用統計系
Yi = bˆ0 + bˆ1 X i + e i
Y
未取到的
觀察值
e^i = 殘差
觀察值
觀察到的誤差
Yˆi = bˆ0 + bˆ1 X i
根據樣本所建立的模型
觀察值
13 - 10
E Y  = b 0 + b 1 X i
母體的真實關係
X
隨機誤差機率分配示意圖
銘傳應用統計系
Error Probability Distribution
f(e)
殘差
e = eˆ
不同X值所對應的Y值
均呈現常態分配,而且有相同的變異
數
= Y  Yˆ
Y
X2
X1
X
13 - 11
迴歸直線
使用迴歸模型作預測
Prediction With Regression Models
銘傳應用統計系
1. 在特 定x值時,預測的種類


點估計﹕平均Y值
區間估計﹕平均Y值、個別y值
2. 估計或預測些什麼?
在特定xp值時,Y的期望平均 =E(Yp|xp)
即在母體迴歸線上的某特定點xp下,Yp的平均反應
13 - 12
預測的示意圖
What Is Predicted
銘傳應用統計系
Yindividual
Y
YIndividual
Yˆi = bˆ0 + bˆ1 X i
根據樣本所建立的模型
| Mean
Yp ,Y,
E(Y
p | Xp
Mean
E(Y)
^b 0 +
^
)Y i=
^b 1X
|
E(Y) = b 0 + b 1X
prediction Yˆp ^
Prediction,
Y
XP
13 - 13
E Y  = b 0 + b 1 X i
X
母體的真實關係
E(Yp|Xp) 的信賴區間
銘傳應用統計系
Confidence Interval Estimate of Mean Yp
Yˆp  t n  2, / 2  SYˆ  E (Yp | X p )  Yˆp + t n  2, / 2  SYˆ
p
p
其中
1
+
SYˆ = S
p
n
X  X 
 X  X 
2
p
n
i =1
13 - 14
2
i
, S = MSE
影響信賴區間寬度的因素
Factors Affecting Interval Width
銘傳應用統計系
1. 信賴水準的選擇Level of confidence (1 - )

信賴水準增加則信賴區間寬度也隨之變寬
2. 資料距離迴歸線的散布情形 (S)

S加大,信賴區間寬度也隨之增加
3. 樣本數Sample size

樣本數減少則信賴區間寬度會隨之增加
4. 特定點Xp至自變數平均數 X的距離

距離越遠則信賴區間寬度將隨之增加
13 - 15
信賴區間估計範例
銘傳應用統計系
Confidence Interval Estimate
你是銘傳熊寶寶的行銷分析人員, 已知
bˆ0 = -.1, bˆ1 = .7 而 s = .60553。
廣告費(千元) 銷售量 (千個)
1
1
2
1
3
2
4
2
5
4
廣告花費在4千元時平均銷售量的95%信賴區
間為多少﹖
13 - 16
迴歸模型計算用總結表
銘傳應用統計系
Xi
Yi
Xi2
Yi2
XiYi
1
1
1
1
1
2
1
4
1
2
3
2
9
4
6
4
2
16
4
8
5
4
25
16
20
15
10
55
26
37
13 - 17
直線樣本迴歸估計式
銘傳應用統計系
bˆ0 = 0.1
bˆ1 = 0.7
Yˆ = 0.1 + 0.7 X i
在 X p = 4 時,E (Yp | X p ) 的 點估計值
Yˆp = 0.1 + 0.7 4 = 2.7
13 - 18
信賴區間估計求解
銘傳應用統計系
Confidence Interval Estimate
在 X p = 4 時, E (Yp | X p ) 的信賴區間
Yˆp  t n  2, / 2  SYˆ  E (Yp | X p )  Yˆp + t n  2, / 2  SYˆ
p
p
Yˆp = 0.1 + 0.7 4 = 2.7
X to be predicted
1 4  3
SYˆ = .60553 +
= 0.3316
p
5
10
t52,0.025 = t3,0.025 = 3.1824
2
SYˆ
p
1
=S
+
n
X  X 
 X  X 
2
p
n
i =1
2
i
2.7  3.18240.3316  E (Yp | X p )  2.7 + 3.18240.3316
13 - 19
1.6445  E (Yp | X p = 4)  3.7553
個別特定點估計的預測區間
銘傳應用統計系
Prediction Interval of Individual Response
Yˆp  tn2, / 2  SY Yˆ   YP  Yˆp + tn2, / 2  SY Yˆ 
p
p
其中
1
S Y Yˆ  = S 1 + +
p
n
X  X 
 X  X 
2
P
n
i =1
注意!多出了1
13 - 20
2
i
為何會多出一倍的 ‘S’?
銘傳應用統計系
Yindividual
Y
YIndividual
e
|
Yˆi = bˆ0 + bˆ1 X i
根據樣本所建立的模型
^b 0 +
Mean
Mean YY,, EE(Y)
(Y )
^Y i=
^b 1X
|
E(Y) = b 0 + b 1X
prediction Yˆp ^
Prediction,
Y
XP
13 - 21
E Y  = b 0 + b 1 X i
X
母體的真實關係
預測區間估計求解
銘傳應用統計系
在 X p = 4 時, Y p 的信賴區間
Yˆp  t n  2, / 2  S (Y Yˆ
p
)
 Yp  Yˆp + t n  2, / 2  S (Y Yˆ
p
Yˆp = 0.1 + 0.7 4 = 2.7
)
X to be predicted
1 X p  X 
1 4  3
= .60553 1 + +
= 0.69041 S(Y Yˆ ) = S 1 + n + n
2
5
10
 X i  X 
2
2
S(Y Yˆ
p)
p
t52,0.025 = t3,0.025 = 3.1824
i =1
2.7  3.18240.69041  Yp | 2.7 + 3.18240.69041
13 - 22
0.50284  (Yp | X p = 4)  4.89716
電腦報表之估計
銘傳應用統計系
Dep Var
Obs SALES
1 1.000
2 1.000
3 2.000
4 2.000
5 4.000
Pred Std Err Low95% Upp95% Low95% Upp95%
Value Predict
Mean
Mean Predict Predict
0.600
0.469 -0.892 2.092 -1.837
3.037
1.300
0.332 0.244 2.355 -0.897
3.497
2.000
0.271 1.138 2.861 -0.111
4.111
2.700
0.332 1.644 3.755
0.502
4.897
3.400
0.469 1.907 4.892
0.962
5.837
在x=4時
觀測值, y
SY^
在x=4時E(y)的
點估計值, y
13 - 23
信賴區間
預測區間
銘傳應用統計系
全域信賴區間估計形成之信賴帶
Hyperbolic Interval Bands
Y
^
^= b0
Xi
^
b
1
+
Yi
_
X
13 - 24
X
XP
相關(線性)模型
銘傳應用統計系
Correlation Models
1. 衡量兩變數之間線性相關的強度
2. 線性相關係數(coefficient of correlation)
 母體(真正)相關係數為 (rho)
 其值介於-1 至 +1間
3. 用於了解兩變數之間的線性相關之強度及
方向
13 - 25
樣本線性相關係數
Sample Coefficient of Correlation
銘傳應用統計系
量測兩數值變數間線性相關的程度
Measures the strength of the linear
relationship between two quantitative
variables
n
r=
 X
i =1
n
 X
i =1
13 - 26
i
i
 X Yi  Y 
X
2
n
 Y  Y 
i =1
i
2
雙數值變數的散佈圖形表達
—正相關例題一
銘傳應用統計系
X
Y
1
2
3
4
5
6
7
8
9
10
0
2
3
5
8
9
9
10
7
11
13 - 27
Y
15
10
5
0
1
0
2 3
4
5
10
8
5 6 7
9
10
15
線性相關係數r的計算一
銘傳應用統計系
X
Y
1
2
3
4
5
6
7
8
9
10
mx
5.5
0
2
3
5
8
9
9
10
7
11
my
5.9
13 - 28
X-mx X-mx)2 Y- my Y my)2X-mx)(Y-my)
-4.5
20.25
-5.9 34.81
26.55
-3.5
12.25
-3.9 15.21
13.65
-2.5
6.25
-2.9
8.41
7.25
-1.5
2.25
-0.9
0.81
1.35
-0.5
0.25
2.1
4.41
-1.05
0.5
0.25
3.1
9.61
1.55
1.5
2.25
3.1
9.61
4.65
2.5
6.25
4.1 16.81
10.25
3.5
12.25
1.1
1.21
3.85
4.5
20.25
5.1 26.01
22.95
總和
82.5
g=
126.9
0.889
91
雙數值變數的散佈圖形表達
—負相關例題二
銘傳應用統計系
X
Y
1
2
3
4
5
6
7
8
9
10
XY散佈圖
10
7
11
5
8
9
9
0
2
3
13 - 29
12
3
10
1
6 7
8
5
2
6
Y
4
4
10
2
9
0
8
0
5
10
15
線性相關係數r的計算二
銘傳應用統計系
X
Y
1
2
3
4
5
6
7
8
9
10
mx
10
7
11
5
8
9
9
0
2
3
my
5.5
3.6
13 - 30
X-mx X-mx)2 Y- my Y my)2X-mx)(Y-my)
-4.5
20.25
4.1 16.81
-18.45
-3.5
12.25
1.1
1.21
-3.85
-2.5
6.25
5.1 26.01
-12.75
-1.5
2.25
-0.9
0.81
1.35
-0.5
0.25
2.1
4.41
-1.05
0.5
0.25
3.1
9.61
1.55
1.5
2.25
3.1
9.61
4.65
2.5
6.25
-5.9 34.81
-14.75
3.5
12.25
-3.9 15.21
-13.65
4.5
20.25
-2.9
8.41
-13.05
總和
82.5
g=
126.9
-0.684
-70
線性相關係數的性質
銘傳應用統計系
Features of Correlation Coefficient
• 無單位
• 值在-1與1之間
• 越靠近-1時表示負線性相關越強烈
• 越靠近1時表示正線性相關越強烈
• 數值靠近0時表示線性相關微弱
13 - 31
各種線性相關所繪得的散佈圖
銘傳應用統計系
Y
Y
Y
X
r = -1
X
r = -.6
Y
13 - 32
X
r=0
Y
r = .6
X
r=1
X
樣本形成的線性相關係數
Sample Coefficient of Correlation
銘傳應用統計系
1. 皮耳森線性相關係數 r
(Pearson’s coefficient of correlation)
r= R =
2
Coefficien t of Determinat ion
 X
n
=
i =1
 X
n
i =1
13 - 33
i
 X Yi  Y 
X 
2
i
 Y  Y 
n
i =1
2
i
線性相關係數值的含意
銘傳應用統計系
Coefficient of Correlation Values
無線性相關
No Correlation
-1.0
-.5
循此方向逐漸加強兩者
間的負線性相關關係
Increasing degree of
negative correlation
13 - 34
0
+.5
+1.0
線性相關係數值的含意
銘傳應用統計系
Coefficient of Correlation Values
無線性相關
完全負相關
-1.0
13 - 35
No Correlation
-.5
0
+.5
+1.0
循此方向逐漸加強兩者
間的正線性相關關係
Increasing degree of
positive correlation
線性相關係數值的含意
銘傳應用統計系
Coefficient of Correlation Values
無線性相關
完全負相關
-1.0
13 - 36
完全正相關
No Correlation
-.5
0
+.5
+1.0
線性相關係數值各範例
Coefficient of Correlation Examples
銘傳應用統計系
r=1
Y
Y
r = -1
X
Y
r = .89
Y
X
13 - 37
X
r=0
X
線性相關係數的檢定
Test of Coefficient of Correlation
銘傳應用統計系
1. 可顯示(檢定)出兩變數間關係是否為
線性相關
2. 檢定「結果」完全相同於迴歸模型斜率
b1的檢定結果
3. 檢定用的假設Hypotheses


H0:  = 0 (無線性相關no correlation)
Ha:  0 (有線性相關correlation)
13 - 38
線性相關的檢定
銘傳應用統計系
Test for a Linear Relationship
Hypotheses

H0:  = 0 (no correlation) H1:   0 (correlation)
檢定統計量 (Test statistic)
t=

r
where
 r 2
n2
n
r=
r2 =
 X
i =1
n
 X
i =1
13 - 39
i
i
 X Yi  Y 
X
2
n
 Y
i =1
i
Y 
2
熊寶寶行銷範例 – 1/3
銘傳應用統計系
你是銘傳熊寶寶的行銷分析人員,
已知b^ = -0.1和 b^ = 0.7.
0
1
決定係數R2= 0.8167
r = R = 0.8167 = 0.903715
2
13 - 40
熊寶寶行銷範例 -- 2/3
銘傳應用統計系
H0:
 = 0 (no correlation) H1:   0 (correlation)
r
0.903715
t=
=
= 3.656
決策: 拒絕 H0
2
1  0.8167
1 r
結論 :
3
廣告與銷售量之間有著相關性
n2
Critical Value(s):
Reject
.025
Reject
.025
-3.1824 0 3.1824
13 - 41
這個 t 統計量的值 與斜率係
數的檢定統計量值是相等的
熊寶寶行銷範例 --3/3
斜率係數檢定
銘傳應用統計系
1. H0: b1 = 0
2. H1: b1≠ 0
3.  = .05
df = 5 - 2 = 3
4. Critical Value(s):
Reject
.025
t=
bˆ1  b1
S bˆ
0.70  0
=
= +3.656
0.1915
1
Reject
6. Decision:
在  = .05拒絕H0
.025
-3.1824 0 3.1824
13 - 42
5. 在Ho的Test Statistic:
t
結論:兩者之間存在著
顯著的線性相關
線性相關的檢定例 – 1/3
銘傳應用統計系
Data for Seven Stores:
Store
1
2
3
4
5
6
7
Square
Feet
Annual
Sales
($000)
1,726
1,542
2,816
5,555
1,292
2,208
1,313
3,681
3,395
6,653
9,543
3,318
5,563
3,760
13 - 43
From Excel Printout
R e g r e ssi o n S ta ti sti c s
M u lt ip le R
R S q u a re
0 .9 7 0 5 5 7 2
0 .9 4 1 9 8 1 2 9
A d ju s t e d R S q u a re 0 . 9 3 0 3 7 7 5 4
S t a n d a rd E rro r
6 1 1 .7 5 1 5 1 7
O b s e rva t io n s
Q:店面大小是否會
影響年銷售量?
7
線性相關的檢定例 – 2/3
銘傳應用統計系
H0:  = 0 (No association) vs H1:   0 (Association)
 = .05
df = 7 - 2 = 5
拒絕 H0
r
.9706
t=
=
= 9.0099
2
1  .9420
 r
Conclusion:
5
n2
Critical Value(s):
Reject
.025
Reject
.025
-2.5706 0 2.5706
13 - 44
店面大小會影響銷售量
這個 t 統計量的值 與斜率係
數的檢定統計量值是相等的
線性相關的檢定例 – 3/3
銘傳應用統計系
Test Statistic:
H0: b1 = 0
From Excel Printout
H1: b1  0
Coefficients Standard Error
 = .05
Intercept
1636.4147
451.4953
df = 7 - 2 = 5
Footage
1.4866
0.1650
Decision:
Critical Value(s):
拒絕 H0
Reject
Reject
.025
13 - 45
t Stat P-value
3.6244 0.01515
9.0099 0.00028
Conclusion:
店面大小會影響銷售量
.025
-2.5706 0 2.5706
t
t
銘傳應用統計系
回顧所學:
迴歸模型使用時的步驟
1. 事先決定反應變數與獨立變數間的模式
2. 估計模式的參數
3. 模式中誤差項的機率分配之描述
4. 評估衡量所建立的迴歸模型
5. 利用模式做估計或預測工作
6. 線性相關分析
13 - 46
回顧所學 -- 例子
銘傳應用統計系
房價(y)和坪數(x)例子
1. 建立迴歸模式包括平均價格和誤差部分
2. 房價跳動部分,在不同坪數時皆相同(變異
數相同)
3. 估計迴歸模式及評估房價和坪數之關係


知道房屋坪數,只能估計平均房價
個別特定房屋之房價,僅以預測區間估計
13 - 47
結論(一)
銘傳應用統計系
1. 線性迴歸模型及假設條件的描述
Yi = b 0 + b1X i + e i
假設(1). 常態


每一個X值所相對應的Y值,通常有許多值,這些值
之間呈現的為常態分配
誤差項ei 的機率分配為常態
假設(2). 變異數為固定常數

誤差項的變異數為固定常數,通常命名為s2
假設(3). 誤差項之間相互獨立
13 - 48
結論(二)
銘傳應用統計系
n




2. 迴歸模型內各參數的估計(最小平方法)
  X i   Yi 
n
i =1

  i =1 
X
Y


i i
迴歸直線預估方程式
n
i =1
ˆ
bˆ1 = ˆ
n
Yi = b 0 + bˆ1 X i  n  2

 n

X
  i   Yi 
X
n



i
 i =1 
n
 i =1
  i =1 
X
Y

2



i i
X

n

i
ˆ = i =1
b
n
1
2
n
i =1
n
bˆ0 = Y  bˆ1 X
13 - 49


n
2

X

 i
i =1
bˆ0 = Y  bˆ1 X

X

i

i =1

n
結論(二)
變異數分析ANOVA表
銘傳應用統計系
3. 變異數分析表(ANOVA Table)
ANOVA變異數分析表
df
Regression 1
SS
MS
F
SSR
MSR
=SSR/1
P-value of
MSR/MSE
the F Test
MSE
=SSE/(n-p-1)
Residuals
n-p-1
SSE
Total
n-1
SST
13 - 50
Significance F
結論(三)
銘傳應用統計系
3. 變異數分析表(ANOVA Table)


SST = SSR + SSE
df: n-1 = (1) + (n-p-1)


檢定Ho: b=0 vs Ha: b0


MSR = SSR/(1) ; MSE=SSE/(n-p-1)
檢定統計量, F*=(MSReg/MSE) ~ F(1; n-p-1)
2
ˆ
S = s = MSE
13 - 51
2
結論(四)
銘傳應用統計系
4. 線性迴歸模型之詮釋與應用
5. 殘差分析(residual analysis) ---- 評估是否合
乎線性迴歸成立的假設



檢驗線性結構
殘差圖 ( e vs X)
驗證齊一性 -----『變異數是否一致』
Studentized殘差圖 ( SR vs X)
檢驗誤差項之間的獨立性
Durbin-Watson檢定
13 - 52
結論(五)
銘傳應用統計系
6. 迴歸斜率係數的檢定
以樣本斜率的抽樣分配為理論基礎
7. 反應變數(平均值, E(Yp|xp)的信賴區間
Yˆp  t n  2, / 2  SYˆ  E (Yp | X p )  Yˆp + t n  2, / 2  SYˆ
p
1
SYˆ = S
+
p
n
p
X  X  ,
 X  X 
2
p
n
i =1
13 - 53
2
i
S = MSE
結論(六)
銘傳應用統計系
8. 單個觀測值, Yp, 的預測區間
Yˆp  t n 2, / 2  S Y Yˆ   YP  Yˆp + t n 2, / 2  S Y Yˆ 
p
p
1 X p  X 
S(Y Yˆ ) = S 1 + + n
,
p
2
n
 X i  X 
2
i =1
13 - 54
S = MSE
結論(七)
銘傳應用統計系
9. 決定係數
R2 =SSR/SSE
10. 線性相關係數
r =
R2
 X
n
=
i =1
 X
n
i =1
i
i
 X Yi  Y
X

2

11. 電腦報表的解讀
13 - 55
 Y
n
i =1
i

Y

2
關於本課程...
銘傳應用統計系
請你靜下來想一想並回答下列問題:
1. 你此堂課學到的最重要的觀念為何?
2. 是否還有相關問題與疑問?
3. 如何改善今後的學習?
13 - 56