7 Linear and logistic regression

Download Report

Transcript 7 Linear and logistic regression

Linear and
logistic regression
24th Nov 2014
전자전기컴퓨터공학부 이승연
회귀분
석
• 독립변수와 종속변수 간의 관계식 도출
• 자료 분석을 간편하게 하는 통계 기법
독립변수
연속형 자
료
종속변수
연속형
선형 회귀분석
범주형
로지스틱 회귀분
석
선형 회귀분석
독립변수(설명변수)
Y = 𝑏0 + 𝑏1 X + 𝑒
오차(잔차)
종속변수
X가 0일 때
Y의 예측 값,
Y절편
기울기,
X가 Y에 미치는 영향,
X가 한 단위 증가할 때
Y의 증가분
오차 : 모집단에서 실제 관찰 값과 회귀직선에서 예측된 값의 차
이
잔차 : 표본 집단에서 실제 관찰 값과 회귀직선에서 예측된 값의
=> 오차 측정 할 수 없어서 잔차 사용하는 것이 일반적
차이
Y = 𝑏0 + 𝑏1 𝑋1 +𝑏2 𝑋2 +𝑏3 𝑋3 + ⋯ + 𝑒
선형 회귀분석
lm(종속변수 ~ 독립변수, 데이터)
predict(선형 회귀 모델, 데이터=dtest)
선형 회귀분석
실제값 = 예
측값
실제값과 예
측값 사이의
평균
선형 회귀분석
오차 = 예측값-실
제값
오차와 예측값 사
이의 평균
선형 회귀분석
R-squared ( 결정계수 )
•
추정된 회귀선이 얼마나 표본자료를 잘 설명하는지
(독립변수가 종속변수를 얼마나 잘 설명하는지)
𝑆𝑆𝐸(오차 제곱 합)
•
1−
•
0부터 1 사이의 값
𝑆𝑆𝑇(편차 제곱 합)
=> 클수록 좋음
선형 회귀분석
The model is of low-quality
선형 회귀분석
RMSE ( Root Mean Square Error )
•
표준편차의 일반화된 식
•
실제 값과 추정 값의 차이가 얼마인지 아는데 사용
•
임의의 데이터가 많을 수록 더 정확하게 모델의 정확도를 평가할 수 있음
But, 많은 수의 데이터를 사용하기 힘들어 모델 생성시 사용한 데이터만 사용
•
𝑒12 +𝑒22 +𝑒32 + ⋯+𝑒𝑛2
𝑛
=> 작을수록 좋음
선형 회귀분석
나이 1살 증가 -> 수입 100.0117 ≒ 1.027 증가
∴ 2.7% 증가
학사 학위 > 고등학교 학위
100.3938−0.1017
선형 회귀분석
> summary(model)
회귀분석에 사용된 모델 식
• 잔차를 분위수로 표시
( 최소, 1사분위, 중앙, 3사분위, 최대 )
• Median : 그래프가 기울어진 방향
( 0.02458만큼 기울어짐 )
• 1Q & 3Q 차이 많이 없어야 좋음
선형 회귀분석
측정 계수 값
계수 이름
추정된 계수의 표준오
차
Pr(>|t|)
t 분포를 사용하여 각 변수가 얼마나 유의한지
5%(0.05) 유의수준 하에서 귀무가설을 기각
t-value
귀무 가설에 대한 검정통계량
선형 회귀분석
잔차의 표준오차, 자유도
수정 결정계수
: 결정계수와 차이가 크면 회귀모형 재검토 해야
F-검정 통계량: 모형 전체가 유의한지, 제1자유도, 제2자유도
결정계수
: 회귀모형으로 종속변수의 변화(변동)을 얼마나 설명하는지를
나타내는 지표(0 ~ 1)
로지스틱 회귀분석
• 종속변수가 이분형일 경우 종속변수와 독립변수의 관계 : S-Shape
• S-Shape의 관계에서 종속변수에 logit 변환 -> 종속변수 독립변수관계가 선형으로
 로지스틱 모형
 log(odds)를 모형화
사건이 실패할 확률 대비 성공할 확률
p
(1-p)
로지스틱 회귀분석
양막 찌꺼기, 태아 둔위
당뇨,고혈압, 임신중독
산모의 몸무게, 병원 방문 횟
수
로지스틱 회귀분석
종속변수 y를 명료
화,
이항식
link function을 통
해
y로 넘겨줌
predict함수를 통해
예측 확률을 돌려줌
로지스틱 회귀분석
2.66 times higher than
the overall average
로지스틱 회귀분석
37주 미만의 미숙아
 정상아보다 exp(1.545183)
= 4.68884배 위험도 큼
ex) 정상아가 위험상황일 확률 p=1%일 때,
odds = 0.01 = 0.0101
1 - 0.01
=> 미숙아의 위험도
0.0101 * 4.68883 = 0.047
odds
= 0.047
= 4.5%
1+odds
1+0.047
로지스틱 회귀분석
• 선형회귀의 잔차:
실제결과값과 예측 결과값 사이의 차이(오차) 의 벡터
값
• 로지스틱회귀의 잔차 :
- 실제 결과와 예측 확률을 갖는 로그우도와 관련
- 주어진 모델에서 데이터의 로그우도를 최대화
로지스틱 회귀분석
각 데이터들의 로그우도 값 리턴 해주는
함수
y : true outcome
py : predicted probability
deviance residuals 계산
-2 : llcomponents 값들의 차이가 카이스퀘어
분포를 따르게 하기 위함
-∞ < lnL ≤ 0 => 0 < -2lnL ≤ ∞
=> chi-square 분포를 따르게 됨
로지스틱 회귀분석
로그 우도 계산
atRisk인 데이터의 평균
null deviance 계산
예측 확률 계산
residual deviance 계산
test 데이터로 계산한 결과
로지스틱 회귀분석
AIC ( Akaike Information Criterion)
• 모형 검증 - AIC가 작을 수록 좋음
• AIC는 모형의 적합도와 간단,명료성을 동시에 고려하는 지수
( 독립변수의 수가 많으면 적합도에서 유리하나, 간단, 명료성은 떨어지게 됨 )
• AIC = 2n -2log likelihood (n: 모형의 미지수의 수)
로지스틱 회귀분석
pseudo R-squared ( 유사 R –
squared )
• 로그 우도 함수 값을 이용해 계산한 결정계수
• 선형회귀분석의 결정계수 계산과 비교
residual deviance
1–
null deviance
train 데이터로 R-squared 계산
test 데이터로 R-squared 계산
• 로지스틱 회귀분석에서 R-squared 값은 대개 낮게 나오는 편이므로, 모형평가에서 R-squared 에 너무 의존할
필요는 없음
Thank you