상관분석과 단순회귀분석
Download
Report
Transcript 상관분석과 단순회귀분석
단순(선형)회귀분석
n개의 관찰 값 : 두 변수 X와 Y
( X1 ,Y1 ), ( X 2 ,Y2 ), , ( X n ,Yn )
예 : 서강대 학생 50명의 키와 몸무게 측정
키 : X,
몸무게 : Y
학생
X
1
2
175
167
100
183
Y
70
53
85
( X1 , Y1 )
( X 2 , Y2 )
( X n , Yn )
단순선형 회귀분석
두 개 또는 그 이상의 변수 간의 함수관계를
추정하는 방법
모수들(parameters) 간에 선형관계
설명변수가 1개인 경우
예
Y X
1
Y
X
Y X 2
Y Ae X l nY l n A X l nY X
Y AX l nY l n A l n X l nY l n X
독립변수 :1개
모수들이 선형관계
( , )
Y
Yi X i
Yi
ui
일반적으로 모든 점들이
직선상에 있지 않다.
(즉 일반적으로 ui 0 )
0
Xi
X
ui : 교란항(disturbance term)
일반적으로 ui 0 , 왜 ?
(1) 생략된 변수들 때문
(2) Model misspecification
(3) 인간행위의 무작위성
(4) Yi 의 측정오차
Yi X i ui
E[Yi ] X i for all i
(1) E[ui ] 0 for all i
(2) Var[ui ] 2 for all i
i 와 상관없이 모두 같은 분산을 갖는다.
(3) Cov[ui , u j ] 0 for all i and j i
표본에서 교란항의 공분산은 모두 영이다.
(4) X i : fixedfor all i
Var[Yi ] 2 for all i
Y
X X1 일 때 Y값은 여기 어디에 나타남
그러나 기대값으로는 E[Y1 ] X1
E[Yi ] X i
X i
Var[ui ] 2 for all i
X 2
; 분포의 분산이 모두 동일
X1
X
0
X1
X2
Xi
예 : 다음과 같은 조건이 주어져 있다고 하자.
Yi 11 0.4 X i ui
Xi
E[Yi ]
Var[Yi ]
25
and
20
2 Var[ui ] 0.5
15
10
5
0
<표본 회귀선>
Yi X i ui
; 모집단 회귀선
Yi a bXi ei
; 표본 회귀선
a , b ; 회귀계수
e i ; 잔차(residual)
표본을 이용하는 경우의 회귀선과 모집단 전체의 회귀선 간에는
차이가 발생할 수 있다.
궁극적으로는 모수인 와 를 알고자 하나 표본을 추출하여
a 와 b 를 이용하여 모수인 와 를 추측하게 된다.
(1) a 와 b를 구하는 공식을 어떻게 도출해야 하는가 ?
(2) 도출된 공식(estimator)은 ?
(3) 이 공식은 어떠한 성격을 가지고 있는가 ?
이 공식은 확률변수
분산공식의 도출
(4) 설명력 ?
(5) 실제 자료를 이용하여 구하는 점 추정치
(6) 가설검정
(7) 여러 가지 현실 예
1. 최소 이승법 [(Ordinary) Least Squared Method]
“OLS 추정법”이라고도 불리운다.
a 와 b 를 구하는 공식을 어떻게 도출해야 하는가 ?
Y
Yˆi a bXi
Yi
ei
Yˆi a bXi
0
Xi
X
(1) 가능한 e i 들이 작도록 a 와 b 를 구하여야 하는가 ?
e
즉 Min
(2)
e
i
e
i
?
i
0 ?
No !
No !
0 의 의미 ?
Yi a bX i ei Yi a b X i ei
Y
X
ab
0
( X , Y ) 을 지난다.
i
n
e
i
n
i
Y a bX
Y
B
( X , Y ) 을 지나는 모든
직선은 ei 0 의 조건을
만족시킨다.
Y
즉 AB의 직선이 된다는
보장이 없다.
A
0
X
X
따라서
e
i
0 이 하나의 조건이 되지만 또 다른 조건이 필요 !
미지수 2개 : a , b
식이 2개 필요한데 1개의 식만 주어진 것임
(3)
Min
a, b
2
e
i
; 최소 이승법
여기서 ei Yi a bXi
2. 공식의 도출
W Min
a, b
W
0
a
2
e
i
and
where
W
0
b
ei Yi a bXi
; 미지수 2개, 식 2개
W
0
a
2Y a bX (1) 0 (Y a bX ) 0
i
e
i
i
or
Y
i
(1)
i
i
0
(1)
na b X i
(1’)
Y a bX
(1’’)
W
0
b
2Y a bX X 0 (Y a bX ) X
i
i
e X
i
i
i
0
i
i
i
(2)
or
2
X
Y
a
X
b
X
ii i i
(2’)
0
Y na b X
X Y a X b X
i
(1’)
i
i i
i
(2’)
2
i
a 를 소거하기 위해 (2' ) n (1' ) X i
n X iYi na X i nb X i2
X i Yi na X i b X i
n X iYi X i Yi b n X i2
2
X
2
i
양변을 n으로 나누면
X Y n X Y b X
i i
X Y n XY
b
X nX
i
i
2
i
2
or
2
2
i nX
X X Y Y
b
X X
i
i
2
i
or
b
S XY
S X2
From (1’’)
Y a bX
a Y bX
따라서 추정량들(estimators)
S XY
b 2
SX
a Y bX
or
X X Y Y
b
X X
i
i
2
i
3. 도출된 공식의 특성은 ?
X X Y Y
b
와 a Y bX
X X
i
i
2
의 특성 ?
i
(1) Linear estimator(선형 추정량) : 확률변수 Yi 혹은 ui 와 선형관계
1
a X wi
n
Xi X
where w i
X i X 2 : fixed
b wiYi
X X Y Y X X Y Y X
b
X X
X X
i
i
i
i
2
i
2
i
i
X
0
Y
1
a Y bX
w Y X w X Y
n
n
i
i
따라서
a 와 b 는 Yi
i
i
i
들과 선형관계에 있다.
(2) Unbiased estimator(불편 추정량)
E[b]
E[a]
Yi X i ui : population
Yi a bXi ei
: sample
b wiYi wi X i ui wi wi X i wi ui
X X
i
wi
Xi X
2
X X
X X
i
2
i
0
( X X )X
i
wi X i i
2
Xi X
X
X
i
i
X
X
2
2
1
b wiYi wi X i ui wi w i X i wi ui
wi ui
E [b ]
E X u X E[b]
E [a ] E Y b X E Y E b X
X X
E [a ]
(3) Best estimator (최량 추정량)
선형 불편 추정량 중에서 가장 분산이 작은 추정량이다.
(도출은 생략)
Linear estimator
Unbiased estimator
Best estimator
BLUE(Best Linear Unbiased Estimator)
Var[b] Var w1u1 w 2 u2 w n un
w12 2 w 22 2 w n2 2
2 w i2
Note:
Var[b]
2
X
i
X
2
1
a wi X Yi
n
2
1
Var[a] wi X Var[Yi ]
n
2 Yi X i ui
0 2
1
1
2
2 wi X 2 2 X wi X wi2
n
n
n
2
1
Var [a ] 2
n
2
X i X
X
2
Var[b]
2
X
i
X
2
1
Var [a ] 2
n
2
X i X
X
2
2 : unknown
Se2
S b2
e
2
i
를
n2
S
X
i
2
e
X
2 대신에 이용(증명은 생략)
2
1
S a2 S e2
n
2
X i X
X
2
4. 설명력 ?
관찰치의 Y 값들의 차이 ( Yi Y )
= 설명변수인 X 에 의해 설명되어지는 부분( = A)
+ 설명변수 X 에 의해 설명되지 않는 부분(= B)
상대적으로 A의 부분 > B부분
설명력이 높다
상대적으로 A의 부분 < B부분
설명력이 낮다
Y
0
Y
(a)
X
(b)
0
어느 직선의 방정식이 점들을 보다
더 설명을 잘 할 수 있다고 보는가 ?
X
Y Y Yˆ Y e
i
i
i
Yi
ei
Yˆi
설명변수에 의해 설명되지 않는 부분
Yˆ Y
설명변수에 의해 설명되는 부분
i
Y
0
X Xi
X
설명력을 나타낼 수 있는 기준으로 삼을 수 있는 공식은 ?
Y Y Yˆ Y e
i
i
i
만약 단순히 합하면
Y Y Yˆ Y e
i
(항상)
i
0
0
i
i
Y
Yˆ Y e
2
i
0
2
i
Yˆi Y 2 ei2 2 Yˆi Y ei
Y Y
i
2
b X i ei X ei
따라서 제곱을 하여 합한다.
Y
b X i X ei
0
Yˆi Y
e
2
2
i
0
Y Y
i
2
Yˆ Y
i
2
2
e
i
잔차변동
(Error Sum of Squares;ESS)
회귀변동
(Regression Sum of Squares; RSS)
전변동
(Total Sum of Squares; TSS)
TSS = RSS + ESS
1
RSS
ESS
TSS
TSS
R 2 ; 결정계수 설명력을 측정하는
공식
R2
Yˆ Y
Y Y
2
i
i
2
or
R2 1
2
e
i
Y
i
Y
2
두 변수 X, Y (n = 31)
∑X = 1,860, ∑Y = 465, ∑X Y = 23,400
∑X = 201,600, ∑Y = 7,975
i
i
2
i
i i
2
i
(1) a, b = ?
1,860
X=
= 60 ,
31
465
Y=
= 15
31
X Y - nXY
∑
b=
∑X - nX
i i
2
i
2
a = Y - b X = 18
= - 0.05
(2)
e
∑
=
Se2
2
i
n- 2
=?
2
(
)
(
)
∑e = TSS - RSS = ∑Yi - Y - ∑Yi - Y
2
2
i
∑(Y - Y ) = ∑Y - nY = 1,000
∑(Yˆ - Y ) = ∑(a + bX - a - b X )
2
i
2
2
i
2
i
2
i
1 ,000 - 225
∴S =
≈26 .72
29
2
e
=b
2
∑(X
- X ) = 225
2
i
(3)
Sb2 = ? Sa2 = ?
2
b
S =
Se2
∑(X
i
- X)
2
2 1
Sa Se
n
2
26 .72
=
= 0.00072
90 ,000
= 1.9307
2
X i X
X
2
5. 실제 자료의 적용?
Excel을 이용한 자료의 예
6. 신뢰구간 및 가설검정
t
a
~ t n 1
Sa
S a2
Se2
S e2 X i2
n X i X
2
e
i
n2
도출과정은 생략
b
t
~ t n 1
Sb
2
S b2
S e2
X
i
X
2
<신뢰구간>
a
t
~ t n 1
Sa
b
t
~ t n 1
Sb
a
P t 0
t 0 1 0
n 2,
Sa
2
n 2, 2
b
P t 0
t 0 1 0
n 2,
Sb
2
n 2, 2
<가설검정>
예:
Yi X i ui
n 30
Yˆi 120.1 2.1X i
H0 : 0
H1 : 0
(1)
Sb 0.7
의미 : 설명변수 X가 들어가야 하는 변수인가 ?
If H0 : 0 이 맞다면
b 2.1
t
3.0
Sb
0.7
(2) 5%의 유의수준에서 기각역의 임계값 = 2.0452
(3) Reject H0 : 0 즉 설명변수 X가 Y를 설명하는데 필요
7. 여러 가지 현실 예
식품 지출비와 소득간의 관계 : 예
EX i M i
햄버거 가격과 소비량간의 관계 : 예
Qi Pi
lnQi ln Pi
Capital Asset Pricing Model(CAPM) : 예
ri r f (rm r f )
ri r f (rm r f ) 을 추정하고 에 대한 가설 검정
소득과 세금간의 관계: 예
평균세율과 한계세율
광고가 기업수비에 미치는 영향 : 예
TRi Pi ADi