Transcript 회귀분석
상관분석과 회귀분석 선우하식 1 상관분석 • 산점도 – 두 연속변량 X, Y에 대하여 점 (X, Y)의 그래프 를 산점도라 한다. • 두 변수 사이에 어떤 관계가 있는지를 그 래프로 확인한다. 2 예제 통계학 과목을 수강한 학생 가운데 학생 10명을 랜덤하게 추출하여 그들이 강의에 결석한 시간(x)와 통계학 점수(y) 를 조사하여 다음 표를 얻었다. 결석횟수 통계학점수 0 1 1 2 2 2 3 3 4 5 79 78 75 60 65 72 55 63 40 28 3 산점도 그리기 (scatter plot) 4 산점도 통계학점수 90 80 70 60 50 통계학점수 40 30 20 10 0 0 1 2 3 4 5 6 5 상관계수 • 두 연속변량 (X, Y)의 자료가 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , ⋯ , (𝑥𝑛 , 𝑦𝑛 ) 일 때, 상관계수는 다음과 같다. 𝑟= ∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦 ) ∑ 𝑥𝑖 − 𝑥 2 ∑ 𝑦𝑖 − 𝑦 2 이를 다음과 같이 나타낼 수 있다. 𝑆𝑋𝑌 𝑟= 𝑆𝑋𝑋 𝑆𝑌𝑌 6 상관계수의 성질 • 상관계수는 두 연속변량 X, Y의 선형 관계를 나타 내주며 −1 ≤ 𝑟 ≤ 1이다. • 𝑟 > 0일 때, X가 증가함에 따라, Y도 증가하는 경향 이 있다. • 𝑟 < 0일 때, X가 증가함에 따라, Y는 감소하는 경향 이 있다. • 𝑟 = 1이면 모든 데이터가 기울기가 양수인 직선 위에 있다. • 𝑟 = −1이면 모든 데이터가 기울기가 음수인 직선 위에 있다. • 𝑟 = 0이면 선형관계가 없다. 7 상관계수의 예 r=-0.099 r=0.146 14.00 20.00 12.00 15.00 10.00 8.00 10.00 6.00 4.00 5.00 2.00 0.00 0.00 0.00 2.00 4.00 6.00 8.00 10.00 0.00 12.00 2.00 4.00 6.00 8.00 10.00 8.00 10.00 r=0.903 r=0.420 10.00 20.00 8.00 15.00 6.00 10.00 4.00 5.00 2.00 0.00 0.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 0.00 2.00 4.00 6.00 8 엑셀로 상관계수 구하기 상관계수는 -0.94967 9 주의 • 상관계수가 ±1에 가까울수록 선형관계가 깊 다고 볼 수 있다. 즉, x의 값이 증가함에 따라 y의 값이 증가 또는 감소하는 경향을 뚜렷이 보인다. • 상관계수가 0에 가까우면 두 변량 x, y 사이에 아무런 관계가 없는 것이 아니라 선형관계가 없다고 한다. 10 상관계수는 0이지만 깊은 관계가 있는 예 𝑦=𝑥 2 11 회귀분석 • 두 변량 X, Y 사이의 관계를 가장 잘 나타내주는 함수식 𝑦 = 𝑓(𝑥)을 찾아 modelling을 하고, 예측값을 구하는 과정 • 여기서 함수 𝑓(𝑥)가 일차식인 경우를 선형회귀분석이라 한다. • 종속변수(반응변수) Y에 영향을 미치는 변수(독립변수)가 1개 일 때, 단순회귀분석이라 한다. • 특히, 독립변수가 1개이고 일차식인 경우를 단순선형회귀분석 이라 한다. • 독립변수가 여러 개인 경우는 다중회귀분석이라 한다. 12 단순선형회귀모형 • 두 연속 변량 (X, Y)에 대한 자료가 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , ⋯ , (𝑥𝑛 , 𝑦𝑛 ) 일 때 단순선형회귀모형의 방정식은 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜖𝑖 , 𝑖 = 1,2, ⋯ , 𝑛 • 여기서 𝛼는 회귀직선의 y절편, 𝛽는 회귀직선의 기울기이다. • 또, 𝜖𝑖 는 오차항이라 하며 다음과 같은 가정을 한다. 1. 정규성: 𝜖𝑖 ∼ 𝑁(0, 𝜎 2 ) 2. 독립성: 각 오차는 독립이다. 3. 등분산성: 각 오차의 분산은 동일하다. 13 회귀직선과 오차 16.00 14.00 12.00 𝜖10 10.00 8.00 𝜖2 𝜖1 6.00 4.00 2.00 0.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14 회귀계수 구하기 • 최소제곱법 – 오차 𝜖𝑖 – 즉, • = 𝑦𝑖 − (𝛼 + 𝛽𝑥𝑖 )의 제곱합을 최소로 하는 계수를 구한다. ∑ 𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖 2 을 최소화한다. 회귀계수는 𝛽= ∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑺𝑿𝒀 = ∑ 𝑥𝑖 − 𝑥 2 𝑺𝑿𝑿 𝛼 = 𝑦 − 𝛽𝑥 • 이때, 회귀직선의 방정식은 𝑦 = 𝛼 + 𝛽𝑥 15 엑셀을 이용한 회귀분석 16 회귀분석 결과 • 회귀직선의 방정식 𝑦 = 85.9 − 10.6𝑥 즉, 통계학점수=85.9-10.6 x 결석회수 요약 출력 회귀분석 다중 상관 계수 결정계수 조정된 결 정계수 표준 오차 관측수 통계량 0.949673 0.901879 • 결정계수(𝑅2 ) 0.889613 • • 5.553449 10 분산 분석 자유도 회귀 잔차 제곱합 제곱 평균 F비 유의한 F 1 2267.774 2267.774 73.53162 2.64E-05 8 246.7264 30.8408 계 9 • 결정계수는 0.901이다. 총 변동 중에서 회귀직선 에 의하여 설명되는 변동 의 비율을 나타낸다. 1에 가까울수록 회귀모 형이 적합하다. 2514.5 Y 절편 계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% 85.93035 3.346772 25.67559 5.68E-09 78.21268 93.64802 결석횟수 -10.6219 1.238696 -8.57506 2.64E-05 -13.4783 -7.76545 • 분산분석 결과 해석 유의확률이 2.65E-05 < 0.05 이므로 이 모형은 적합 하다고 할 수 있다. 17 회귀직선의 해석 • 회귀직선의 방정식은 𝑦 = 85.9 − 10.6𝑥 이다. 이는 결석횟수가 1 증가할 때마다 통계학 점수는 평균적으로 10.6씩 줄어든다고 할 수 있다. • 예측치⇒ 𝐲 = 𝟖𝟓. 𝟗 − 𝟏𝟎. 𝟔𝒙 – 회귀직선의 방정식으로부터 x 번 결석한 학생들의 평균 통계학 점수를 알 수 있다. 18 계수에 대한 가설검정 계수 Y 절편 결석횟수 표준 오차 t 통계량 P-값 85.93034826 3.346772 25.67559 5.68E-09 -10.62189055 1.238696 -8.57506 2.64E-05 • H0: 𝛽 = 0 vs H1: 𝛽 ≠ 0 • P- 값이 2.64E-05 < 0.05이므로 귀무가설을 기각 한다. • 즉, 회귀계수(직선의 기울기)는 0이 아니라고 할 수 있다. • Y절편에 대한 검정은 생략 19 회귀직선과 예측치 결석횟 통계학점 예측치 통계학 수 수 점수 0 79 85.93034826 1 78 75.30845771 1 75 75.30845771 2 60 64.68656716 2 65 64.68656716 2 72 64.68656716 100 3 55 54.06467662 90 3 63 54.06467662 4 40 43.44278607 80 5 28 32.82089552 통계학점수 70 60 통계학점수 50 예측치 통계학점수 40 Linear (통계학점수) 30 Linear (예측치 통계학점수) 20 10 0 0 1 2 3 결석회수 4 5 6 20 잔차 분석 잔차 10 잔차에 대한 산점도가 일정 8 한 패턴을 보이지 않으면 모 6 형이 적합하다고 할 수 있다. 4 2 잔차 0 0 1 2 3 4 5 6 -2 -4 -6 -8 21 결정계수 • 전체제곱합 𝑆𝑆𝑇 = ∑ 𝑦𝑖 − 𝑦 2 = ∑ 𝑦𝑖 − 𝑦𝑖 + 𝑦𝑖 − 𝑦 2 = ∑ 𝑦𝑖 − 𝑦 2 + ∑ 𝑦𝑖 − 𝑦𝑖 2 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 이때, 결정계수 𝑅2 은 다음과 같이 정의된다. 𝑆𝑆𝑅 2 𝑅 = 𝑆𝑆𝑇 • 결정계수란? – 회귀직선에 의하여 설명되는 변동을 뜻한다. – 1에 가까울수록 모형이 적합하다. – SSE는 오차를 뜻하는 것으로 오차를 제외한 나머지 양을 뜻한다. 22 상관계수, 회귀계수, 결정계수(𝑅2 )의 관계 • 상관계수(𝑟) 𝑟= ∑(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦 ) ∑ 𝑥𝑖 −𝑥 2 ∑ 𝑦𝑖 −𝑦 • 회귀계수(𝛽) • 𝑆𝑋𝑌 𝑆𝑋𝑋 결정계수(𝑅 2 ) 와 상관계수와의 관계 2 = 𝑆𝑋𝑌 𝑆𝑋𝑋 𝑆𝑌𝑌 𝛽= 𝑅2 = 𝑟 2 • 회귀계수와 상관계수와의 관계 𝛽=𝑟× 𝑆𝑋𝑋 𝑆𝑌𝑌 23 단순선형회귀분석 예제2 • 어느 도시에서 발생한 주거지역 화재 거리(X) 피해액(Y) 3.4 26.6 1.8 17.8 각 피해액 Y와 화재발생지역이 소방 4.6 31.3 2.3 23.1 서와 떨어진 거리 X를 조사하였더니 3.1 27.5 다음과 같았다고 한다. (거리: 마일, 5.5 36.5 0.7 14.1 피해액: 100만원) 3.0 22.3 2.6 19.6 4.3 31.3 2.1 24.0 1.1 17.3 6.1 43.2 4.8 36.4 3.8 26.1 가운데 최근의 화재 15건을 대상으로 24 비선형회귀분석 예제 • 어느 공장에서는 1년동안 작업자의 결근일수 생산량 1 50 1 45 2 31 과 기타 개인적인 여건이 비슷한 작 2 30 업자 10명을 뽑아 조사하여 다음과 3 28 3 25 3 23 4 25 4 22 5 21 결근일수가 일일평균 생산량에 미치 는 영향을 조사하기 위하여 작업경험 같은 자료를 얻었다. 25