로지스틱회귀분석 - Databaser.Net, 이재학
Download
Report
Transcript 로지스틱회귀분석 - Databaser.Net, 이재학
8장 로지스틱 회귀분석
8.1 개요
로지스틱 회귀분석(0,1)
기존의 선형 회귀분석의 종속변수(Y)를 범주형으로
확장한 것이다.
범주형 변수-(카테고리)
Y가 주식의 보유/매도/매수 를 나타내면 이
변수는 3개의 범주를 갖는 범주형 변수라고
정의된다.
8.1 개요
분류 - 0과 1로 분류
로지스틱 회귀 분석은 하나의 집단에 속하지만 어
느 집단인지 모르는 새로운 관찰치에 대해서 예측
변수를 이용하여 특정 집단으로 분류하기 위해 사
용될 수 있으며 이를 분류라 한다.
프로파일링-관찰치들의 유사점.
예측 변수를 이용하여 각 집단 내의 관찰치들 간의
유사점을 찾기 위해 집단에 대한 정보를 갖고 있는
데이터에서 사용하기도 하는데 . 이를 프로파일링
이라 한다.
8.1 개요
로지스틱 회귀 분석은 다음과 같은 의사결
정문제에 적용가능하다.
1. 반납 / 미납으로 고객을 분류하기(분류)
2. 남녀 최고경영진을 판별하는 요인 찾기(프로
파일링)
3. 신용점수와 같은 정보에 기초하여 대출의 승
인 / 비승인을 예측하기(분류)
8.1 개요
다중 선형/로지스틱 회귀분석의 다른점
다중 선형 회귀분석은 연속형 Y값을 예측
로지스틱 회귀분석은 어떤 집단에 속할것인지 예측
로지스틱 회귀분석의 2단계 과정:
1. 각 집단에 속하는 확률의 추정치를 계산.
2. 각 관찰치를 어느 한 집단으로 분류하기 위해서 이
러한 확률들에 분류 기준값을 적용.
8.2 로지스틱 회귀분석
로지스틱 회귀분석
범주형 출력변수를 설명 또는 예측하기 위한
모형이 필요한 경우에 사용.
로짓의 숨은 개념(중간 과정):
집단 0/1에 속한 확률p를 구함.
8.2 로지스틱 회귀분석
식(8.1)
식(8.2)-로지스틱 반응함수
8.2 로지스틱 회귀분석
식(8.3)-승산 계산
집단1에 속
하는 승산
집단0에 속
하는 승산
식(8.4)-사건의 확률 계산
8.2 로지스틱 회귀분석
승산(odds)=>p/(1-p)
p는 어떤 사건이 발생할 확률, 로 계산하며,
0에서 무한대의 범위를 갖도록 바꿔, 확률값을 더 편리하게
사용하기 위한 식입니다.
확률값이 0에 가까우면 작은 값을 갖고, 1에 가까우면 큰 값
을 갖도록 합니다.
예: 요일중에서 일요일을 무작위로 선택할확률 과 승산은?
확률은 1/7 이고 승산은 1/6 , 6 to 1 , 6-1 (모두 six – to –
one이라 읽는다)
결과를 얻지 못
할 방법의 수
결과를 얻을
방밥의 수
8.2 로지스틱 회귀분석
식(8.5)-승산과 예측변수 관계식(8.2)+(8.4)
식(8.6)-로지스틱 모형의 표준화된 공식
(a) 승산 (b)로짓
8.2 로지스틱 회귀분석
데이터 전처리 (예1: 개인대출의 승인)
1.
2.
학습/평가용 집합을 무작위로 데이터를 나눈다.(60:40)
범주형 예측변수에 대해서는 더미변수를 만든다.
EduProf
EducGrad
Securities
CD
Online
CreditCard
0
전문직 교육
받은 경우
대학원졸업 교육
을 받은 경우
고객이 은행에 증
권계좌를 가지고
있는 경우
계좌 가
진 경우
뱅킹을 사용
하는 경우
은행의 신용카
드를 보장한 경
우
1
그외의 경우
그외의 경우
그외의 경우
그외의
경우
그외의 경우
기외의 경우
8.2 로지스틱 회귀분석
단일 예측변수를 이용한 로지스틱 회귀분석
단일 예측변수인 소득을 사용하여 고객 분류 하고
확률의 관점에서 종속변수와 설명변수 간의 관계
를 나타낸다.
승산의 관점에서 표현한 표현식
8.2 로지스틱 회귀분석
최대우도 추정치에 따라 추정된 추정 모형
우도란?/ 최대우도란?
어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라
면, 그러한 결과 E 가 나올 정도는 얼마나 되겠느냐 하는 것이다. 즉 결과 E 가
나온 경우, 그러한 결과가 나올 수 있는 여러 가능한 가설들을 평가할 수 있는
측도가 곧 우도인 셈이다.
우도함수을 최대로 하는 모수의 추정값을 최대우도추정량이라고 한다.
1. 최대우도추정치
2. B0=-6.3525 B1=0.0392
8.2 로지스틱 회귀분석
소득의 함수이 개인대출에 대한 실제 데이터 좌표점들
과 이를 적합시킨 로지스틱 곡선
분류기준값: C = c/(1-c)
고객의 대출제안 수락의 승산
예연소득이 50000달러인 고객
대출제안 수락의 확률
나온 수락의 확률을 분류기준값과 비교한다.
8.2 로지스틱 회귀분석
로지스틱 회귀분석의 추정: 모수추정치의 계산
로지스틱 회귀분석에서 Y와 베타 모수의 관계는 비선형이다.
다중 회귀분석의 최소자승법이 아닌, 최대우도법을 사용하여 베타
모수를 추정한다.
(즉 모집단이 갖고 있는 것과 동일한 데이터를 얻는 가능성를 최대
화하는 추정치를 찾는 것이다.)
좋은 점근성을 보장하기 위하여 컴퓨터 프로그램을 사용하여 모수
를 반복적으로 추정한다.
8.2 로지스틱 회귀분석
최대우도추정량의 특징
일치성
표본의 크기가 증가함에 따라 참의 값과 다를 추
정확률은 0으로 수렴한다.
점근적 효율성
최대우도추정량의 분산은 일치추정량 중에서 가
능한 최소값을 가진다.
점근적 정규성 분포
표본의 크기가 클 경우 , 다중 선형 회귀 분석과
유사한 방식으로 신뢰구간을 계산하고 통계적
검정을 수행할 수 있다.
8.2 로지스틱 회귀분석
예:
P값을 제외한 상태에서 12개의 예측변수를 갖는 모형
에측변수의 값이 클수록 대출제안 수락확률이 높다.
확률계산
8.2 로지스틱 회귀분석
승산을 이용한 결과 분석
승산(odds)가정
개인대출제안에 대한 고객수락모형은 담음과 같이 소득에
대한 함수로 정의된다.
기본적인 승산의 예:
소득이 0인 고객이 대출제안을 수락할 승산은
exp[6.3525+(0.0392)(0)]=0.0017 로 추정된다.
소득이100,000달러의 경우 승산은
exp[6.3525+(0.0392)(100)]=0.088이 된다.
8.2 로지스틱 회귀분석
소득, 즉 x1의 값은 x1에서 x1+1만큼 증가하고 반면
다른 예측변수는 일정한 값으로 고정되었다고 할때
의 승산율은 다음과 같이 계산 된다.
8.3선형회귀분석이 범주형
반응변수에 적합하지 않은 이유
1.각 관찰치에 대해서 Y를 예측하거나 관찰치를 분류하기 위해 사용하
는 모형이 반드시 0또는 1의 예측변수값을 갖는 것은 아니다.
2. 만약 Y가 오직 0과1의 값만을 가진다면 그것은 정규분포라고 할수
없다. 데이터 집합에서 1이라는 숫자의 분포에 더 적합한 분포는
p=P(Y=1)을 가지는 이항분포이다.
3. 모든 집단에 대해서 Y의 분산이 일정하다는 가정은 충족되지 않는
다. Y는 이항분포를 따르기 때문에 분산은 nP(1-p)이다 .
3개의 예측변수를 이용하여 개인대출(PL,대출이 받아들여진 고
객은 PL=1, 그외는 PL=0으로 표기함)을 추정하는 다중 선형 회
귀분석에 적용할 경우 다음과 같이 출력값의 일부를 얻게 된다.
이 추정모형은 다음과 같다.
예를 들어 연소득이 50000달러
이고 가족이 2명이며 유니버셜
은행의 CD계좌를 갖지 않은 고
객의 대출 제안은 수락은
-0.2346+(0.0329)(0)=-0.009
로 예측된다.
8.4 분류 성과의 평가
가장 많이 사용되는 성과 측정치
정오분류표
리프트 도표
목적:
1.
2.
예측변수만을 이용하여 관찰치가 속한 집단을 정확하게 분류
하는것이다.
비록전체 모형의 정확도가 다소 낮아진다고 하더라도 특별히
관심하는 집단에 속하는 관찰치를 찾아내는데 뛰어난 능력을
보이는 모형을 찾는 것이다.
정오분류표
분류 시스템의 데이터 분류문제에 있어서 실제값(정답)과 예측값(실험결과)의
정보를 담고 있다.
정오분류표 의 각각의 항은 다음의 의미를 가지게 된다.
a는 부정값인 데이터를 긍정값으로 예측한 올바른 예측들의 갯수이다.
b는 부정값인 데이터를 부정값으로 예측한 잘못된 예측들의 갯수이다.
c는 긍정값인 데이터를 긍정값으로 예측한 잘못된 예측들의 갯수이다.
d는 긍정값인 데이터를 부정값으로 예측한 올바른 예측들의 갯수이다.
현재값
예측값
긍정값
부정값
긍정값
a
b
부정값
c
d
리프트 도표
Lift chart-로지스틱 회귀모형에 의한 응답에 대한 기대 반응률
을 나타낸다), ROC(Receiver Operating Characteristic - 민감도와
특이도에 대한 곡선
8.4 분류 성과의 평가
로지스틱 회귀분석의 정오분류표를 얻는 순서
1.
2.
3.
예:
추정식으로 소속집단의 확률계산
분류기준값으로 관찰치의 소속집단을 결정
예측된 집단과 관찰치의 실제집단 비교
8.4 분류 성과의 평가
변수 선정:
최종 모형의 선택에 있어서 변수투입에 따른 비
용, 오류의 경향성 그리고 모형의 복잡성 등과 같
은 실제적인 문제들을 고려해야 한다.
8.5 전체 적합도 평가
적합도 평가:
모형이 데이터에 잘 적합되었는지에 대한 평가는 분석의 목적
이 대체로 프로파일링인 경우에 중요하며,분석의 목적이 정확
한 분류에 있는 경우에는 모형의 적합성에 대한 평가가 상대적
으로 덜 중요하다.
모형이 편차
전체 적합도 평가
모형의 편차 D를 단순 모형의
편차 D0과 비교한다.
다중 R2의 측정치는(D0-D)/D0로계산
단순모형의 편차 D0=D/(1-R*R)로 계산
정오분류표와 리프트 도표는 최적
의 모형을 만드는데 사용한 데이
터와 동일한 데이터를 사용하기
때문에 이 정오분류표와 리프트
도표는 미래의 성과 측정치를 제
공하지 못한다. 따라서 학습용 집
합의 정오분류표와 리프트 도표는
과적합화문제와 데이터 입력오류
또는 작업데이터 테이블의 잘못된
선택 등으로 인해 발생하는 기술
적인 문제를 발견하기 위한 용도
로 사용된다.
8.6 예제분석:
예제 분석 순서
1.
2.
3.
4.
5.
모형의 적합화 추정
모형의 해석
모형의 성과
적합도
변수선정
8.6 예제분석:
목적:
데이터 집합에 포함되지 않은 새로운 항공기가 연
착될지 여부를 정확하게 예측하는 것이다. 종속변
수는 이진변수로서 연착변수이며 연착은 1 그외는
0으로 표시한다.
예제의 변수 내역
20대 항공기에 대한 표본
4개 범주형 변수를 포함한다.
X1=출발항공
x2 = 항공사
x3= 요일군
Y =비행상태
1:월-수 / 2: 목-일
1:월-수 =>컨티넨탈
2: 목-일 => 델 타
최악의 공항=>LAD
데이터 전처리
범주형 예측변수를 위해 더미변수를 만든다.(출발
공항 2개,도착공항2개, 항공사7개 , 요일은 6개,출
발시간은 15개,기상악화로 인한 연착 1개)
2. 학습용과 평가용 데이터를 60:40의 비율로 나눈다.
1.
모형의 적합화와 추정
이 로직스틱 회귀모형에서 음의 계수가 1보다 낮은
승산계수로 변환 되는것을 살펴야 한다.
2. 양의 로지스틱 회귀계수가 어떻게 1보다 큰 승산계
수로 변환되는지에 대하여 깊게 살펴야 한다.
1.
로지스틱 회귀분석의 추정결과
모형의 해석:
예: 도착공항인 JFK의 계수는 -0.67로 추정된다.
(이것은 LGA에 도착하는 항공기가 JFK에 도착하
는 항공기보다 연착될 경향이 더 크다는 것을 의
미한다.)- 기준집단은 LGA이다.
모형의 성과
목적:
항공기 가 연착할지 여부를 확인하여 항공기의 연
착을 줄이거나 연착에 따른 효과를 경감시킬 수 있
도록 관련 자원들을 관리하는데 있다.
적합도
목적:
추정된 로지스틱 모형이 학습용 데이터에 얼마나
잘 적합되었는지를 보기 위해서는 학습용데이터
를 이용하여 편차와 같은 적합도 측정치, 정오분류
표, 리프트 도표를 계산하기 위함.
모형의 편차는 1.124로 나타난다. 낮은 다중
R2(13.45%)은 모형이 유용하지 않다는것을 의
미한다.
엑셀의 CHIDIST를 이용하여
CHIDIST(1299-1124,24)=0.00
로지스틱 회귀모형이 단순
모형보다 더 좋은 모델임을
설명해줌
변수 선정:
변수 제거
재그룹화
변수군 선택 알고리즘
예:
8.7 3개 이상의 집단을 분류하는 로지
스틱 회귀분석
m개의 집단이 있을때에는 m개의 확률값의 1이기 때문에
m-1개의 확률을 추정하면 된다.
순위형 집단:
순위정보를 가진 집단을 말한다.(매수,보유,매도)
m=2 일때에는 이진형 로지스틱 회귀모형으로 사용
3<=m<=5에는 확장된 로직스틱 회귀모형을 사용
모형에 대한 해석과 계산 단순화:
1.
집단에 속할 누적확률을 조사한다.
예:
m=3인 집단을 가진다고 할 때
1=매수,2=보유,3=매수로 표기한다.
모형에 의해 추정된 확률값은 P(Y<=1)(매수를 추천할 확률)과
P(Y<=2)(매수 또는 보유를 추천 할 확률) 이다.
2. 예측변수들의 함수로서 각 로짓 모형을 구축한다.
주식추천에서 하난의 예측변수 x를 갖는다면 다
음의 2개 식이 구해진다.
3개 집단의 사례에서 다음의 식이 얻어진다.
여기서 a0,b0,b1은 학습용 집합을 통해 얻는 추
정치이다.
명목형 집단
집단들이 순위형이 아니고 단순히 서로 다를 때 이러한 집단은
명목형 집단에 속한다.
다음은 예측변수와의 관계가 선형인 m-1개의 유사 로싲등식을
보여준다.
학습용 집합을 이용하여 4개의 로지스틱 회귀계수를 추정할 경
우, 각 집단에 속할 확률은 다음과 같이 추정될 수 있다.