Yi ~N(상수,δ )

download report

Transcript Yi ~N(상수,δ )

회귀분석
1.1. 종속변수/독립변수/외생변수
겸임교수 홍승표
▣ 서론 :
– 경영에 있어서의 통계학의 또 하나의 공헌은 인과간계를 객관적으로 규명하는 것
▣ 종속변수 :
– 결과나 반응을 나타내는 변수
▣ 독립변수 :
– 반응 현상을 가져오는 무수한 원인 중에서 내가 주장하고자 하는 관심 원인들을 독립변수.
▣ 외생변수 :
– 나머지 가능한 모든 원인들을 외생변수라고 함.
– 관행적으로 종속변수는 Y로 표시 독립변수는 x로 모든 외생변수는 총괄적으로 ε로 표시
1.2. 수학적 관계와 통계적 관계
겸임교수 홍승표
▣ 수학적 관계와 통계적 관계의 차이 :
– 수학적 관계와 통계적 관계의 차이는 바로 외생변수 효과를 통제할 수 있는지 달려 있음.
▣ 사회과학의 외생변수 :
– 사회과학에서는 외생변수를 통제하기가 거의 불가능
– 사회과학에서의 인과관계식은 아예 외생변수도 포함하여 종속변수는 Y로 표시 독립변수는
x로
모든 외생변수는 총괄적으로 ε
Y=f(X, ε)
▣ error term :
– 외생변수의 효과를 파악하여 통제하는 것이 현실적으로 불가능. 이에 대한 통제를 포기하고 error
term이라고 표현
1.3. 선형적 관계
겸임교수 홍승표
▣ 선형적 관계의 강점 :
―1. 사회과학에서는 모든 데이터 측정에 오차가 있기 마련.
관계식을 선형으로 표시할 때 소위 ‘rule of averaging out’ 원리가 작용
선형으로 표시 할 때 나타나는 오차가 평균적으로 서로 상쇄되어 비선형으로 표시할 때 보다
열등한
답을 제공하지 않는다는 것으로 경험적으로 알고 있음.
2. 현재의 컴퓨터 성능으로 볼 때, 관계식이 선형인 경우에는 아주 쉽게 해결할 수 있으나 관계
식이
비선형이 되어 버리면 컴퓨터가 원하는 만큼 빠른 속도로 정확하게 해결하지 못하는 경우가
대부분
3. 또 하나는 선형적인 관계를 가정하면 종속변수와 독립변수 그리고 외생변수 간에 필요하면
같은
1.4. 인과관계
겸임교수 홍승표
▣ 사회과학에서의 인과간계 :
– 사회과학에서 모든 것이 서로 복잡하게 얽혀 있어 어느 한 방향으로의 인과관계라기 보다는 하나
의 원(circle)
형태로서 하나의 현상이 원인이 되기도 하고 결과가 되기도 함.
광고와 매출간의 관계
만일 “광고를 적게하여 매출이 줄었다”라고 생각하면, 광고가 원인인 독립변수이고 매출이 그 결과인
종속변수로 볼 수 있다. 그렇지만 광고가 줄어든 이유가 전년도 매출이 줄어들어 자금이 부족하기 때문
일 수도 있다. 이 경우에는 매출이 독립변수가 되고 광고가 종속변수가 될 수도 있는 것이다.
▣ 통계적 관계 :
– 예를 들어 Y=2X+1인 수학적 관계에서 Y가 종속변수로 X가 독립변수이지만 이를 X=1/2Y-1/2로 변
형하면
X가 종속변수로 Y가 독립변수로 표시할 수 있음. 통계적 관계도 마찬가지임.
2.1. 회귀분석-종속변수와 독립변수의 결정
겸임교수 홍승표
▣ 회귀분석 :
– 통계학에서 선형적인 간계를 파악하는 것을 회귀분석이라 함
– 이 관계를 파악하기 위해서는 우선 종속변수와 독립변수의 두 가지 데이터(xi, yi)가 팔요.
▣ 단순회귀분석 :
– 회귀모델을 설명할 때 우리는 독립변수가 하나인 경우를 가정. 이를 단순회귀모델이라고 함.
▣ 다중회귀분석 :
– 다중회귀모델은 단지 독립변수가 여러 개이므로 독립변수끼리의 상관관계 문제라는 단순회귀모
델에서는 존재치
않는 새로운 과제가 추가..
▣ 회귀분석의 독립변수외 종속변수 :
– 회귀분석에서는 독립변수는 상수이고 종속변수는 확률변수
2.1. 회귀분석-종속변수와 독립변수의 결정
겸임교수 홍승표
▣ 두 변수간의 관계 :
매출액(Y)=20 x 광고액(X) + 외생변수 효과(ε)
– 여기서 광고액은 상수이고 매출액은 확률변수. 따라서 매출액이 확률변수 이므로 외생변수 효과
도 확률변수이고
또한 양자간은 선형관계이므로 매출액이 정규분포를 이루면 외생변수 효과도 정규분포를 이룸.
–하지만 반대도 가능. 따라서 독립변수와 종속변수의 결정은 통계학적으로 보면 상수냐 확률변수
냐 하는 것에 따라
결정됨.
2.2. 외생변수 효과의 바람직한 성질
겸임교수 홍승표
▣ 외생변수 효과의 바람직한 성질 :
– 독립변수와 종속변수간의 관계를 도출해 낼 때 외생변수의 효과가 전혀 없다면 가장 바람직하지
만 그렇지 못할
바에는 바람직한 외생변수의 효과가 존재하기를 기대하는 것이 적절
– 가장 바람직한 경우는 모든 외생변수들의 효과가 서로 상쇠되어 전체적으로 볼 때 외생변수의
효과가 무력화
(중립화)되는 것.
–통계학에서는 error term의 평균이 0임.
–외생변수의 효과가 일정하게 존재하는 것이 바람직(분산이 일정하다)
2.3. 회귀 모델
겸임교수 홍승표
▣ 회귀 모델 :
– 주어진 두 데이터(Xi, Yi)를 가지고 다음과 같은 통계적 관계로 표현할 수 있을 때 회귀 모델이라
고 함.
Yi=β0+ β1Xi+ εi
– i= 1, 2, ···, n 쌍의 데이터
–β0=직선의 절편, X나 E와는 관계없이 Y 자체가 갖는 값
–β1=직선의 기울기, Y와 X 간의 관계 정도를 나타냄
– Xi=독립변수의 값으로 이는 상수로써 그 값이 이미 결정되어 있음.
–Yi=종속변수의 값으로 이는 확률변수로서 확률분포를 갖는다. 흔히 정규분포를 가정.
–εi=error term이라 하고 외생변수의 값으로써 yi와 같은 성질을 갖는 확률변수이다. 따라서 정규분
▣ 외생변수 효과의 바람직한 성질 :
포를 갖게 됨.
– 전체 외생변수의 효과가 중립화되어야 하는데 이를 Ei가 평균이 0이고 분산이 일정하며 상호 독
립적이
라고 표현.
2
2
–εi는 E(εi)=0, Var(εi)=δ , Cov(εi, εj)=0의 성질을 가지며, 이를 εi ~N(0,δ )로 표시
2.4. Yi와 εi 관계
겸임교수 홍승표
▣ Yi와 εi 관계:
– 두 확률변수 Yi와 εi는 같은 확률분포를 가지고 있으며, 단지 평균만이 다름. 이를 수식으로 표현
해 보면
2
εi ~N(0,δ )
– i이고 Yi=상수+εi이므로
2
Yi ~N(상수,δ )
–이고 여기서 상수는 정규분포의 성질에 따라 β0+β1Xi이므로 다음과 같이 됨..
2
Yi ~N(β0+β1Xi,δ )
2.5. 회귀분석의 목적
겸임교수 홍승표
▣ 회귀분석의 목적:
– 회귀분석은 β0, β1을 구하는것이 목적. 즉 독립변수와 종속변수 간의 관계 유무 및 그 정도를 도출
하는 것이 목적
– β0와 β1을 구하면 독립변수아 종속변수 간의 수학적 관계식이 나오는데 이를 회귀선(regression
line)이라 함.
E(Y)=β0+β1X
3.1. 회귀선의 추정-추정 회귀선
겸임교수 홍승표
▣ 추정회귀선 :
– 우리가 진정으로 알고자 하는 β0와 β1은 모수가 되고 실제로 우리가 구하는 것은 b0, b1으로
표현되는 표본통계량, 또는 추정치기 되는 것
– 우리가 해야 할 일은 주어진 표본 데이터로 구한 추정치 b0, b1를 깆고 β0, β1을 추정하는 일이
되는 것
추정 회귀 모델:
<
Y=b0+b1Xi+ei
▣ 잔차 :
추정 회귀선
: Y=b0+b1X
– 일반적인 회귀모델에서 나타나는 외생변수 효과(ei)를 error term으로 표현하였지만 추정 회귀 모
델에서는
ei라 표시하고 잔차(residual)라 표현
3.2. 추정치 b0, b1를 구하는 방법
겸임교수 홍승표
▣ 최소자승법 :
– 점으로 표시되는 데이터의 경향을 하나의 선(회귀선)으로 나타내는 방법으로써 그 선과 각 데이터
간의
거리가 최소화되는 선을 구하고자 하는 것.
– 만약 회귀선이 데이터 점들의 성향을 아주 잘 나타내고 있다면 회귀선과 점 데이터 간의 거리가 최
소로 될 것이라는
가정에서 시작. 양자 간의 차이를 수식에서 ei로 표시되며 따라서 ei의 합이 최소회 되는 회귀선
(regression
line:
잔차의
제곱2ei
즉 b0, b1)을 구하고자 하는 것.
=
ei제곱
합
4. 잔차(Residual)
겸임교수 홍승표
– 사전에 ei을 구하고 그에 대한 가정이 올바른지를 확인하는 것이 불가능하므로 먼저 b1, b2을
최소자승법으로 구하고 위의 식을 이용하여 ei을 계산한 후에 ei에 대한 가정을 사후에 확인
– ei의 가정을 확인하는 방법으로 사후적으로 잔차를 그려보는 방법이 많이 이용
– 회귀모델이 적용되기 위해서는 εi들이 정규분포를 이루고 있어야 함.
4. 잔차(Residual)
겸임교수 홍승표
– 회귀모델이 적용되기 위해서는 εi들이 서로 독립적이어야 함.
– 만일 잔차들을 관측시점에 다라 그림으로 나타내보면 인접한 식에 관측된 잔차들의 값이 비
슷한 경우가 있는데
이러한 경우에는 잔차들 간의 독립성에 관한 가정이 위반되었다고 볼 수 있음.
–특히 이러한 현상은 데이터를 시간 간격을 두고 계속적으로 얻을 때(이러한 데이터를 ‘시계
열 데이터’라고 함)
흔히 관측되며 ‘자기상관(autocorrelation)관계가 존재한다’고 함.
– 잔차를 시간의 순서에 따라 그려보면 자기상관성이 있는지의 여부를 판단할 수 있는데 그림 123에 나타나 있는
잔차는 자기 상관성이 높은 경우를 보여주고 있음.
4. 잔차(Residual)
– 지금까지의 회귀분석의 절차를 그림으로 그려보면 다음과 같음.
겸임교수 홍승표
5. 회귀선에 대한 추론
겸임교수 홍승표
▣ 회귀분석에서 통계적 추론 :
– 회귀분석에서 통계적 추론은 크게 회귀모델 자체에 대한 추론과 각 개별변수 β0와 β1의 유의성
에
대한 추론으로 나누어 볼 수 있음.
▣ 회귀모델 자체의 추론과 각 개별 변수의 유의성 추론 :
– 회귀모델 자체의 추론은 회귀모델이 종속변수의 분산을 효과적으로 설명하여 줄 수 있는지를 평
가하는데
그 목적이 있음.
– 각 개별 변수의 유의성 추론은 각각의 독립변수와 종속변수가 통계적으로 유의한 관계를 갖고 있
는지를 평가하는데
그 목적이 있음.
<
– 가장 적합한 회귀선은 Y=9.994+8.719X으로 추정되었음을 알 수 있음.
5.1. 추정 회귀선의 유의성 평가
겸임교수 홍승표
▣ 제곱합의 분해 :
– 제곱합의 분해는 회귀분석에서 독립변수(x)의 설명력을 분석하는데 유용한 방법
– 종속변수에 대한 예측의 불확실성은 관찰값(y)의 변동에 기인하며 다음과 같이 측정.
Yi - Y
▣ 총제곱합(Total Sum of Squares: SST) :
– 편의상 종속변수(y)의 변동 측정은 Yi – Y를 제곱하여 합한 형태로 나타내는데 이를 총제곱합으
로 표시
n
SST=Σ (Yi - Y)2
i=1
▣ 잔차제곱합(Sum of Squares due to Error: SSE) :
<
– 편의상 추정 회귀선 주위에 흩어져 있는 데이터 변동은 Yi – Y를 제곱하여 합한 형태로 나타내는
데
n
이를 잔차제곱합으로 표시
SSE=Σ ei2
i=1
– SSE는 잔차를 제곱하여합한 것과 일치. 만약 모든 데이터가 회귀선상에 위치하게 되면 잔차제곱합은
5.1. 추정 회귀선의 유의성 평가
겸임교수 홍승표
▣ 회귀제곱합의 합(Sum of Squares due to Regression: SSR) :
– 두 합인 총제곱합(SST)과 잔차 제곱합(SSE)을 비교해 보면 독립변수 x를 이용할 때 y의 변동은
독립변수
를 이용하지 않았을 때 y변동보다 훨씬 적다는 것을 그림 12-4의 회귀분석표에서 알 수 있음.
– 이와 같이 줄어든 변동이 바로 회귀제곱의 합이 됨.
SSR=SST-SSE
<
n
=Σ (Yi - Y)2
i=o
– 총변동의 자유도는 n-1이 됨. 그 이유는 SST를 구성하고 있는 n개의 (yi-y)가 하나의 제약조건을 지니
기 때문.
– 회귀변동의 자유도는 독립변수의 개수인 1이 되며 잔차변동의 자유도는 총 자유도에서 회귀변동의 자
유도를
차감한 값 n-2가 됨..
그림 12-4
컴퓨터 분석 결과 중에서 분산분석(Analysis of variance:ANOVA)부분에는 지금까지 설명한 총변
동, 잔차변동,그리고 회귀변동의 값들이 포함되어 있다. 여기서 제곱평균은 각 제곱합을 그 해당하는
자유도로 나눈 값으로 각각을 평균회귀변동(Mean Square due to Regression:MSR)과 평균잔차변동
(Mean Square due to Error:MSE)이라고 부른다. 특히 MSR을 MSE로 나눈 값인 F비가 매우 큰 경
우에는 우리가 획득한 회귀선이 통계적으로 유의하다고 할 수 있다.
5.1. 추정 회귀선의 유의성 평가
겸임교수 홍승표
▣ 회귀모델 평가 방법 ·결정계수 :
– 구한 회귀모델, 즉 회귀선이 어느 정도 두 데이터의 통계적 상관관계를 잘 나타내는가를 평가하
는 숫자가
있음. 이를 결정계수(coefficient of determination)라 함.
<
Yi =b0+b1x1+e1=yi+ei
<
– 여기서 yi는 독립변수의 효과이고 ei는 외생변수의 효과
SST =
SSR
+
SSE
총 차이 = 설명 가능 차이 + 설명 불가능 차이
– 결정계수 R =SSR/SST, 즉 총 차이 중에서 설명되는 부분의 합의 비율을 말한 것임. 따라서 좋은
회귀선은
 2 회귀선은 총 차이를 설명
총 차이를 잘 설명하는 것. 즉 결정계수가 1에 가깝게 나오고 그렇지 못한
하지
5.2. 회귀계수 β1에 대한 통계적 추정
겸임교수 홍승표
▣ 회귀계수 β1에 대한 통계적 추정:
– 우리가 가장 알고 싶은 것은 과연 우리가 결정한 독립변수가 종속변수와 의미 있는 관계가 있느
냐는 것
–이를 수식으로 표시해 보면 β1이 0인가 아닌가 하는 문제
H0: β1=0
Ha: β1≠0
– 회귀계수 β1에 대한 검정은 모평균 μ에 대한 가설검정과 그 절차가 유사함. Β1에 대한 가설검정
은 검정통계량
으로 이는 t분포를 가지고 판단.
b1-0
t=
Sb1
Sb1:표준오차(standard error of estimate)
6. 요약
겸임교수 홍승표
▣ 요약 :
– 회귀분석은 두 변수간의 관계 유무 정도를 판단하여 줌.
– β1이 0이 아니라면 독립변수가 종속변수의 영향을 주는 주원인임을 객관적으로 말해 줌.
– 이 결과는 외생변수의 효과가 무력화된 상태에서 나온 것이므로 안심하고 사용하여도 좋은 것
– 이 결과는 다음 경우에 사용 될 수 있을 것임.
첫째, 회귀분석은 종속변수를 예측(predict)하기 위하여 사용. 예를 들면 회계 담당자는 특정 프로젝
트의 간접비용을
예측하기 위하여 독립변수로서 프로젝트에 필요한 노동시간 수(x1)를 사용하여 종속변수(y)인 프로
젝트의 간접비용
(overhead cost) 값을 예측 할 수 있음.
둘째, 종속변수를 통제(control)하기 위하여 회귀분석이 이용. 예를 들어 음료회사는 청량음료의 광
고 예산과 같은