회귀분석

download report

Transcript 회귀분석

상관분석과 회귀분석
선우하식
1
상관분석
• 산점도
– 두 연속변량 X, Y에 대하여 점 (X, Y)의 그래프
를 산점도라 한다.
• 두 변수 사이에 어떤 관계가 있는지를 그
래프로 확인한다.
2
예제
통계학 과목을 수강한 학생 가운데 학생 10명을 랜덤하게
추출하여 그들이 강의에 결석한 시간(x)와 통계학 점수(y)
를 조사하여 다음 표를 얻었다.
결석횟수
통계학점수
0
1
1
2
2
2
3
3
4
5
79
78
75
60
65
72
55
63
40
28
3
산점도 그리기
(scatter plot)
4
산점도
통계학점수
90
80
70
60
50
통계학점수
40
30
20
10
0
0
1
2
3
4
5
6
5
상관계수
• 두 연속변량 (X, Y)의 자료가
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , ⋯ , (𝑥𝑛 , 𝑦𝑛 )
일 때, 상관계수는 다음과 같다.
𝑟=
∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦 )
∑ 𝑥𝑖 − 𝑥
2
∑ 𝑦𝑖 − 𝑦
2
이를 다음과 같이 나타낼 수 있다.
𝑆𝑋𝑌
𝑟=
𝑆𝑋𝑋 𝑆𝑌𝑌
6
상관계수의 성질
• 상관계수는 두 연속변량 X, Y의 선형 관계를 나타
내주며 −1 ≤ 𝑟 ≤ 1이다.
• 𝑟 > 0일 때, X가 증가함에 따라, Y도 증가하는 경향
이 있다.
• 𝑟 < 0일 때, X가 증가함에 따라, Y는 감소하는 경향
이 있다.
• 𝑟 = 1이면 모든 데이터가 기울기가 양수인 직선
위에 있다.
• 𝑟 = −1이면 모든 데이터가 기울기가 음수인 직선
위에 있다.
• 𝑟 = 0이면 선형관계가 없다.
7
상관계수의 예
r=-0.099
r=0.146
14.00
20.00
12.00
15.00
10.00
8.00
10.00
6.00
4.00
5.00
2.00
0.00
0.00
0.00
2.00
4.00
6.00
8.00
10.00
0.00
12.00
2.00
4.00
6.00
8.00
10.00
8.00
10.00
r=0.903
r=0.420
10.00
20.00
8.00
15.00
6.00
10.00
4.00
5.00
2.00
0.00
0.00
0.00
2.00
4.00
6.00
8.00
10.00
12.00
0.00
2.00
4.00
6.00
8
엑셀로 상관계수 구하기
상관계수는
-0.94967
9
주의
• 상관계수가 ±1에 가까울수록 선형관계가 깊
다고 볼 수 있다. 즉, x의 값이 증가함에 따라
y의 값이 증가 또는 감소하는 경향을 뚜렷이
보인다.
• 상관계수가 0에 가까우면 두 변량 x, y 사이에
아무런 관계가 없는 것이 아니라 선형관계가
없다고 한다.
10
상관계수는 0이지만 깊은 관계가 있는 예
𝑦=𝑥
2
11
회귀분석
• 두 변량 X, Y 사이의 관계를 가장 잘 나타내주는 함수식 𝑦 =
𝑓(𝑥)을 찾아 modelling을 하고, 예측값을 구하는 과정
• 여기서 함수 𝑓(𝑥)가 일차식인 경우를 선형회귀분석이라 한다.
• 종속변수(반응변수) Y에 영향을 미치는 변수(독립변수)가 1개
일 때, 단순회귀분석이라 한다.
• 특히, 독립변수가 1개이고 일차식인 경우를 단순선형회귀분석
이라 한다.
• 독립변수가 여러 개인 경우는 다중회귀분석이라 한다.
12
단순선형회귀모형
• 두 연속 변량 (X, Y)에 대한 자료가
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , ⋯ , (𝑥𝑛 , 𝑦𝑛 )
일 때 단순선형회귀모형의 방정식은
𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜖𝑖 , 𝑖 = 1,2, ⋯ , 𝑛
• 여기서 𝛼는 회귀직선의 y절편, 𝛽는 회귀직선의 기울기이다.
• 또, 𝜖𝑖 는 오차항이라 하며 다음과 같은 가정을 한다.
1.
정규성: 𝜖𝑖 ∼ 𝑁(0, 𝜎 2 )
2.
독립성: 각 오차는 독립이다.
3.
등분산성: 각 오차의 분산은 동일하다.
13
회귀직선과 오차
16.00
14.00
12.00
𝜖10
10.00
8.00
𝜖2
𝜖1
6.00
4.00
2.00
0.00
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14
회귀계수 구하기
•
최소제곱법
– 오차 𝜖𝑖
– 즉,
•
= 𝑦𝑖 − (𝛼 + 𝛽𝑥𝑖 )의 제곱합을 최소로 하는 계수를 구한다.
∑ 𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖
2 을 최소화한다.
회귀계수는
𝛽=
∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑺𝑿𝒀
=
∑ 𝑥𝑖 − 𝑥 2
𝑺𝑿𝑿
𝛼 = 𝑦 − 𝛽𝑥
•
이때, 회귀직선의 방정식은
𝑦 = 𝛼 + 𝛽𝑥
15
엑셀을 이용한 회귀분석
16
회귀분석 결과
• 회귀직선의 방정식
𝑦 = 85.9 − 10.6𝑥
즉,
통계학점수=85.9-10.6 x 결석회수
요약 출력
회귀분석
다중 상관
계수
결정계수
조정된 결
정계수
표준 오차
관측수
통계량
0.949673
0.901879
• 결정계수(𝑅2 )
0.889613
•
•
5.553449
10
분산 분석
자유도
회귀
잔차
제곱합 제곱 평균
F비
유의한 F
1 2267.774 2267.774 73.53162 2.64E-05
8 246.7264 30.8408
계
9
•
결정계수는 0.901이다.
총 변동 중에서 회귀직선
에 의하여 설명되는 변동
의 비율을 나타낸다.
1에 가까울수록 회귀모
형이 적합하다.
2514.5
Y 절편
계수
표준 오차 t 통계량
P-값
하위 95% 상위 95%
85.93035 3.346772 25.67559 5.68E-09 78.21268 93.64802
결석횟수
-10.6219 1.238696 -8.57506 2.64E-05 -13.4783 -7.76545
•
분산분석 결과 해석
유의확률이
2.65E-05 < 0.05
이므로 이 모형은 적합
하다고 할 수 있다.
17
회귀직선의 해석
• 회귀직선의 방정식은
𝑦 = 85.9 − 10.6𝑥
이다. 이는 결석횟수가 1 증가할 때마다 통계학 점수는
평균적으로 10.6씩 줄어든다고 할 수 있다.
• 예측치⇒ 𝐲 = 𝟖𝟓. 𝟗 − 𝟏𝟎. 𝟔𝒙
– 회귀직선의 방정식으로부터 x 번 결석한 학생들의 평균 통계학
점수를 알 수 있다.
18
계수에 대한 가설검정
계수
Y 절편
결석횟수
표준 오차
t 통계량
P-값
85.93034826
3.346772
25.67559
5.68E-09
-10.62189055
1.238696
-8.57506
2.64E-05
• H0: 𝛽 = 0
vs H1: 𝛽 ≠ 0
• P- 값이 2.64E-05 < 0.05이므로 귀무가설을 기각
한다.
• 즉, 회귀계수(직선의 기울기)는 0이 아니라고 할
수 있다.
• Y절편에 대한 검정은 생략
19
회귀직선과 예측치
결석횟 통계학점 예측치 통계학
수
수
점수
0
79
85.93034826
1
78
75.30845771
1
75
75.30845771
2
60
64.68656716
2
65
64.68656716
2
72
64.68656716
100
3
55
54.06467662
90
3
63
54.06467662
4
40
43.44278607
80
5
28
32.82089552
통계학점수
70
60
통계학점수
50
예측치 통계학점수
40
Linear (통계학점수)
30
Linear (예측치 통계학점수)
20
10
0
0
1
2
3
결석회수
4
5
6
20
잔차 분석
잔차
10
잔차에 대한 산점도가 일정
8
한 패턴을 보이지 않으면 모
6
형이 적합하다고 할 수 있다.
4
2
잔차
0
0
1
2
3
4
5
6
-2
-4
-6
-8
21
결정계수
• 전체제곱합
𝑆𝑆𝑇 = ∑ 𝑦𝑖 − 𝑦 2
= ∑ 𝑦𝑖 − 𝑦𝑖 + 𝑦𝑖 − 𝑦 2
= ∑ 𝑦𝑖 − 𝑦 2 + ∑ 𝑦𝑖 − 𝑦𝑖 2
= 𝑆𝑆𝑅
+
𝑆𝑆𝐸
이때, 결정계수 𝑅2 은 다음과 같이 정의된다.
𝑆𝑆𝑅
2
𝑅 =
𝑆𝑆𝑇
• 결정계수란?
– 회귀직선에 의하여 설명되는 변동을 뜻한다.
– 1에 가까울수록 모형이 적합하다.
– SSE는 오차를 뜻하는 것으로 오차를 제외한 나머지 양을 뜻한다.
22
상관계수, 회귀계수, 결정계수(𝑅2 )의 관계
•
상관계수(𝑟)
𝑟=
∑(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦 )
∑ 𝑥𝑖 −𝑥
2
∑ 𝑦𝑖 −𝑦
•
회귀계수(𝛽)
•
𝑆𝑋𝑌
𝑆𝑋𝑋
결정계수(𝑅 2 ) 와 상관계수와의 관계
2
=
𝑆𝑋𝑌
𝑆𝑋𝑋
𝑆𝑌𝑌
𝛽=
𝑅2 = 𝑟 2
•
회귀계수와 상관계수와의 관계
𝛽=𝑟×
𝑆𝑋𝑋
𝑆𝑌𝑌
23
단순선형회귀분석 예제2
• 어느 도시에서 발생한 주거지역 화재
거리(X)
피해액(Y)
3.4
26.6
1.8
17.8
각 피해액 Y와 화재발생지역이 소방
4.6
31.3
2.3
23.1
서와 떨어진 거리 X를 조사하였더니
3.1
27.5
다음과 같았다고 한다. (거리: 마일,
5.5
36.5
0.7
14.1
피해액: 100만원)
3.0
22.3
2.6
19.6
4.3
31.3
2.1
24.0
1.1
17.3
6.1
43.2
4.8
36.4
3.8
26.1
가운데 최근의 화재 15건을 대상으로
24
비선형회귀분석 예제
• 어느 공장에서는 1년동안 작업자의
결근일수
생산량
1
50
1
45
2
31
과 기타 개인적인 여건이 비슷한 작
2
30
업자 10명을 뽑아 조사하여 다음과
3
28
3
25
3
23
4
25
4
22
5
21
결근일수가 일일평균 생산량에 미치
는 영향을 조사하기 위하여 작업경험
같은 자료를 얻었다.
25