로지스틱회귀분석 - Databaser.Net, 이재학

Download Report

Transcript 로지스틱회귀분석 - Databaser.Net, 이재학

8장 로지스틱 회귀분석
8.1 개요
 로지스틱 회귀분석(0,1)
 기존의 선형 회귀분석의 종속변수(Y)를 범주형으로
확장한 것이다.
 범주형 변수-(카테고리)
 Y가 주식의 보유/매도/매수 를 나타내면 이
변수는 3개의 범주를 갖는 범주형 변수라고
정의된다.
8.1 개요
 분류 - 0과 1로 분류
 로지스틱 회귀 분석은 하나의 집단에 속하지만 어
느 집단인지 모르는 새로운 관찰치에 대해서 예측
변수를 이용하여 특정 집단으로 분류하기 위해 사
용될 수 있으며 이를 분류라 한다.
 프로파일링-관찰치들의 유사점.
 예측 변수를 이용하여 각 집단 내의 관찰치들 간의
유사점을 찾기 위해 집단에 대한 정보를 갖고 있는
데이터에서 사용하기도 하는데 . 이를 프로파일링
이라 한다.
8.1 개요
 로지스틱 회귀 분석은 다음과 같은 의사결
정문제에 적용가능하다.
1. 반납 / 미납으로 고객을 분류하기(분류)
2. 남녀 최고경영진을 판별하는 요인 찾기(프로
파일링)
3. 신용점수와 같은 정보에 기초하여 대출의 승
인 / 비승인을 예측하기(분류)
8.1 개요
 다중 선형/로지스틱 회귀분석의 다른점
 다중 선형 회귀분석은 연속형 Y값을 예측
 로지스틱 회귀분석은 어떤 집단에 속할것인지 예측
로지스틱 회귀분석의 2단계 과정:
1. 각 집단에 속하는 확률의 추정치를 계산.
2. 각 관찰치를 어느 한 집단으로 분류하기 위해서 이
러한 확률들에 분류 기준값을 적용.
8.2 로지스틱 회귀분석
 로지스틱 회귀분석
 범주형 출력변수를 설명 또는 예측하기 위한
모형이 필요한 경우에 사용.
 로짓의 숨은 개념(중간 과정):
 집단 0/1에 속한 확률p를 구함.
8.2 로지스틱 회귀분석
 식(8.1)
 식(8.2)-로지스틱 반응함수
8.2 로지스틱 회귀분석
 식(8.3)-승산 계산
집단1에 속
하는 승산
집단0에 속
하는 승산
 식(8.4)-사건의 확률 계산
8.2 로지스틱 회귀분석
 승산(odds)=>p/(1-p)
 p는 어떤 사건이 발생할 확률, 로 계산하며,
0에서 무한대의 범위를 갖도록 바꿔, 확률값을 더 편리하게
사용하기 위한 식입니다.
확률값이 0에 가까우면 작은 값을 갖고, 1에 가까우면 큰 값
을 갖도록 합니다.
 예: 요일중에서 일요일을 무작위로 선택할확률 과 승산은?
확률은 1/7 이고 승산은 1/6 , 6 to 1 , 6-1 (모두 six – to –
one이라 읽는다)
결과를 얻지 못
할 방법의 수
결과를 얻을
방밥의 수
8.2 로지스틱 회귀분석
 식(8.5)-승산과 예측변수 관계식(8.2)+(8.4)
 식(8.6)-로지스틱 모형의 표준화된 공식
 (a) 승산 (b)로짓
8.2 로지스틱 회귀분석
 데이터 전처리 (예1: 개인대출의 승인)
1.
2.
학습/평가용 집합을 무작위로 데이터를 나눈다.(60:40)
범주형 예측변수에 대해서는 더미변수를 만든다.
EduProf
EducGrad
Securities
CD
Online
CreditCard
0
전문직 교육
받은 경우
대학원졸업 교육
을 받은 경우
고객이 은행에 증
권계좌를 가지고
있는 경우
계좌 가
진 경우
뱅킹을 사용
하는 경우
은행의 신용카
드를 보장한 경
우
1
그외의 경우
그외의 경우
그외의 경우
그외의
경우
그외의 경우
기외의 경우
8.2 로지스틱 회귀분석
 단일 예측변수를 이용한 로지스틱 회귀분석
 단일 예측변수인 소득을 사용하여 고객 분류 하고
확률의 관점에서 종속변수와 설명변수 간의 관계
를 나타낸다.
 승산의 관점에서 표현한 표현식
8.2 로지스틱 회귀분석
 최대우도 추정치에 따라 추정된 추정 모형
 우도란?/ 최대우도란?


어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라
면, 그러한 결과 E 가 나올 정도는 얼마나 되겠느냐 하는 것이다. 즉 결과 E 가
나온 경우, 그러한 결과가 나올 수 있는 여러 가능한 가설들을 평가할 수 있는
측도가 곧 우도인 셈이다.
우도함수을 최대로 하는 모수의 추정값을 최대우도추정량이라고 한다.
1. 최대우도추정치
2. B0=-6.3525 B1=0.0392
8.2 로지스틱 회귀분석
 소득의 함수이 개인대출에 대한 실제 데이터 좌표점들
과 이를 적합시킨 로지스틱 곡선
 분류기준값: C = c/(1-c)
 고객의 대출제안 수락의 승산
 예연소득이 50000달러인 고객
 대출제안 수락의 확률
 나온 수락의 확률을 분류기준값과 비교한다.
8.2 로지스틱 회귀분석
 로지스틱 회귀분석의 추정: 모수추정치의 계산
 로지스틱 회귀분석에서 Y와 베타 모수의 관계는 비선형이다.
다중 회귀분석의 최소자승법이 아닌, 최대우도법을 사용하여 베타
모수를 추정한다.
(즉 모집단이 갖고 있는 것과 동일한 데이터를 얻는 가능성를 최대
화하는 추정치를 찾는 것이다.)
 좋은 점근성을 보장하기 위하여 컴퓨터 프로그램을 사용하여 모수
를 반복적으로 추정한다.
8.2 로지스틱 회귀분석
 최대우도추정량의 특징
 일치성
 표본의 크기가 증가함에 따라 참의 값과 다를 추
정확률은 0으로 수렴한다.
 점근적 효율성
 최대우도추정량의 분산은 일치추정량 중에서 가
능한 최소값을 가진다.
 점근적 정규성 분포
 표본의 크기가 클 경우 , 다중 선형 회귀 분석과
유사한 방식으로 신뢰구간을 계산하고 통계적
검정을 수행할 수 있다.
8.2 로지스틱 회귀분석
 예:
 P값을 제외한 상태에서 12개의 예측변수를 갖는 모형
 에측변수의 값이 클수록 대출제안 수락확률이 높다.
확률계산
8.2 로지스틱 회귀분석
 승산을 이용한 결과 분석
 승산(odds)가정
 개인대출제안에 대한 고객수락모형은 담음과 같이 소득에
대한 함수로 정의된다.
 기본적인 승산의 예:
소득이 0인 고객이 대출제안을 수락할 승산은
exp[6.3525+(0.0392)(0)]=0.0017 로 추정된다.
 소득이100,000달러의 경우 승산은
exp[6.3525+(0.0392)(100)]=0.088이 된다.
8.2 로지스틱 회귀분석
 소득, 즉 x1의 값은 x1에서 x1+1만큼 증가하고 반면
다른 예측변수는 일정한 값으로 고정되었다고 할때
의 승산율은 다음과 같이 계산 된다.
8.3선형회귀분석이 범주형
반응변수에 적합하지 않은 이유

1.각 관찰치에 대해서 Y를 예측하거나 관찰치를 분류하기 위해 사용하
는 모형이 반드시 0또는 1의 예측변수값을 갖는 것은 아니다.

2. 만약 Y가 오직 0과1의 값만을 가진다면 그것은 정규분포라고 할수
없다. 데이터 집합에서 1이라는 숫자의 분포에 더 적합한 분포는
p=P(Y=1)을 가지는 이항분포이다.

3. 모든 집단에 대해서 Y의 분산이 일정하다는 가정은 충족되지 않는
다. Y는 이항분포를 따르기 때문에 분산은 nP(1-p)이다 .
 3개의 예측변수를 이용하여 개인대출(PL,대출이 받아들여진 고
객은 PL=1, 그외는 PL=0으로 표기함)을 추정하는 다중 선형 회
귀분석에 적용할 경우 다음과 같이 출력값의 일부를 얻게 된다.
이 추정모형은 다음과 같다.
예를 들어 연소득이 50000달러
이고 가족이 2명이며 유니버셜
은행의 CD계좌를 갖지 않은 고
객의 대출 제안은 수락은
-0.2346+(0.0329)(0)=-0.009
로 예측된다.
8.4 분류 성과의 평가
 가장 많이 사용되는 성과 측정치
 정오분류표
 리프트 도표
 목적:
1.
2.
예측변수만을 이용하여 관찰치가 속한 집단을 정확하게 분류
하는것이다.
비록전체 모형의 정확도가 다소 낮아진다고 하더라도 특별히
관심하는 집단에 속하는 관찰치를 찾아내는데 뛰어난 능력을
보이는 모형을 찾는 것이다.
 정오분류표

분류 시스템의 데이터 분류문제에 있어서 실제값(정답)과 예측값(실험결과)의
정보를 담고 있다.

정오분류표 의 각각의 항은 다음의 의미를 가지게 된다.

a는 부정값인 데이터를 긍정값으로 예측한 올바른 예측들의 갯수이다.

b는 부정값인 데이터를 부정값으로 예측한 잘못된 예측들의 갯수이다.

c는 긍정값인 데이터를 긍정값으로 예측한 잘못된 예측들의 갯수이다.

d는 긍정값인 데이터를 부정값으로 예측한 올바른 예측들의 갯수이다.
현재값
예측값
긍정값
부정값
긍정값
a
b
부정값
c
d
 리프트 도표
 Lift chart-로지스틱 회귀모형에 의한 응답에 대한 기대 반응률
을 나타낸다), ROC(Receiver Operating Characteristic - 민감도와
특이도에 대한 곡선
8.4 분류 성과의 평가
 로지스틱 회귀분석의 정오분류표를 얻는 순서
1.
2.
3.
 예:
추정식으로 소속집단의 확률계산
분류기준값으로 관찰치의 소속집단을 결정
예측된 집단과 관찰치의 실제집단 비교
8.4 분류 성과의 평가
 변수 선정:
 최종 모형의 선택에 있어서 변수투입에 따른 비
용, 오류의 경향성 그리고 모형의 복잡성 등과 같
은 실제적인 문제들을 고려해야 한다.
8.5 전체 적합도 평가
 적합도 평가:
 모형이 데이터에 잘 적합되었는지에 대한 평가는 분석의 목적
이 대체로 프로파일링인 경우에 중요하며,분석의 목적이 정확
한 분류에 있는 경우에는 모형의 적합성에 대한 평가가 상대적
으로 덜 중요하다.
모형이 편차
 전체 적합도 평가
 모형의 편차 D를 단순 모형의
편차 D0과 비교한다.
 다중 R2의 측정치는(D0-D)/D0로계산
 단순모형의 편차 D0=D/(1-R*R)로 계산

정오분류표와 리프트 도표는 최적
의 모형을 만드는데 사용한 데이
터와 동일한 데이터를 사용하기
때문에 이 정오분류표와 리프트
도표는 미래의 성과 측정치를 제
공하지 못한다. 따라서 학습용 집
합의 정오분류표와 리프트 도표는
과적합화문제와 데이터 입력오류
또는 작업데이터 테이블의 잘못된
선택 등으로 인해 발생하는 기술
적인 문제를 발견하기 위한 용도
로 사용된다.
8.6 예제분석:
 예제 분석 순서
1.
2.
3.
4.
5.
모형의 적합화 추정
모형의 해석
모형의 성과
적합도
변수선정
8.6 예제분석:
 목적:
 데이터 집합에 포함되지 않은 새로운 항공기가 연
착될지 여부를 정확하게 예측하는 것이다. 종속변
수는 이진변수로서 연착변수이며 연착은 1 그외는
0으로 표시한다.
 예제의 변수 내역
 20대 항공기에 대한 표본
 4개 범주형 변수를 포함한다.

X1=출발항공
 x2 = 항공사
 x3= 요일군
 Y =비행상태
1:월-수 / 2: 목-일
1:월-수 =>컨티넨탈
2: 목-일 => 델 타
최악의 공항=>LAD
 데이터 전처리
범주형 예측변수를 위해 더미변수를 만든다.(출발
공항 2개,도착공항2개, 항공사7개 , 요일은 6개,출
발시간은 15개,기상악화로 인한 연착 1개)
2. 학습용과 평가용 데이터를 60:40의 비율로 나눈다.
1.
 모형의 적합화와 추정
이 로직스틱 회귀모형에서 음의 계수가 1보다 낮은
승산계수로 변환 되는것을 살펴야 한다.
2. 양의 로지스틱 회귀계수가 어떻게 1보다 큰 승산계
수로 변환되는지에 대하여 깊게 살펴야 한다.
1.
 로지스틱 회귀분석의 추정결과
 모형의 해석:
 예: 도착공항인 JFK의 계수는 -0.67로 추정된다.
(이것은 LGA에 도착하는 항공기가 JFK에 도착하
는 항공기보다 연착될 경향이 더 크다는 것을 의
미한다.)- 기준집단은 LGA이다.
 모형의 성과
 목적:
 항공기 가 연착할지 여부를 확인하여 항공기의 연
착을 줄이거나 연착에 따른 효과를 경감시킬 수 있
도록 관련 자원들을 관리하는데 있다.
 적합도
 목적:
 추정된 로지스틱 모형이 학습용 데이터에 얼마나
잘 적합되었는지를 보기 위해서는 학습용데이터
를 이용하여 편차와 같은 적합도 측정치, 정오분류
표, 리프트 도표를 계산하기 위함.
 모형의 편차는 1.124로 나타난다. 낮은 다중
R2(13.45%)은 모형이 유용하지 않다는것을 의
미한다.
엑셀의 CHIDIST를 이용하여
CHIDIST(1299-1124,24)=0.00
로지스틱 회귀모형이 단순
모형보다 더 좋은 모델임을
설명해줌
 변수 선정:
 변수 제거
 재그룹화
 변수군 선택 알고리즘
 예:
8.7 3개 이상의 집단을 분류하는 로지
스틱 회귀분석
 m개의 집단이 있을때에는 m개의 확률값의 1이기 때문에
m-1개의 확률을 추정하면 된다.
 순위형 집단:
 순위정보를 가진 집단을 말한다.(매수,보유,매도)
 m=2 일때에는 이진형 로지스틱 회귀모형으로 사용
 3<=m<=5에는 확장된 로직스틱 회귀모형을 사용
 모형에 대한 해석과 계산 단순화:
1.
집단에 속할 누적확률을 조사한다.
 예:
 m=3인 집단을 가진다고 할 때
1=매수,2=보유,3=매수로 표기한다.
모형에 의해 추정된 확률값은 P(Y<=1)(매수를 추천할 확률)과
P(Y<=2)(매수 또는 보유를 추천 할 확률) 이다.
2. 예측변수들의 함수로서 각 로짓 모형을 구축한다.

주식추천에서 하난의 예측변수 x를 갖는다면 다
음의 2개 식이 구해진다.
 3개 집단의 사례에서 다음의 식이 얻어진다.
 여기서 a0,b0,b1은 학습용 집합을 통해 얻는 추
정치이다.
 명목형 집단
 집단들이 순위형이 아니고 단순히 서로 다를 때 이러한 집단은
명목형 집단에 속한다.
 다음은 예측변수와의 관계가 선형인 m-1개의 유사 로싲등식을
보여준다.
 학습용 집합을 이용하여 4개의 로지스틱 회귀계수를 추정할 경
우, 각 집단에 속할 확률은 다음과 같이 추정될 수 있다.