시장 바구니 분석

Transcript 시장 바구니 분석

- Data Mining Techniques
Site Research
Ⅰ. 데이터마이닝
1. 데이터마이닝이란 ?
Data mining is the exploration and analysis, by automatic or semiautomatic means,
of large quantities of data in order to discover meaningful patterns and rules.
대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고
찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들.
3
2. 데이터마이닝 과정
데이터 획득
데이터 정제 및 변환
데이터 분석
Scree
n
DW
지식 발견
일반화
4
모형구축 및 평가
3. 데이터 마이닝의 유용성
Task
Technique
판
별 (Classification)
Decision Tree, Memory-based reasoning, Link analysis
추
정 (Estimation)
Neural Network
예
측 (Prediction)
유사그룹 (Affinity Group)
Decision Tree, Memory-based reasoning,
Link analysis, Neural network
Association rules
군
집 (Clustering)
Cluster analysis
기
술 (Description)
Market basket analysis
5
4. 데이터 마이닝 방법론
가설 검정
지식 발견
(Hypothesis testing)
(Knowledge discovery)
Bottom-up approach
Top-down approach
-The data suggests new hypotheses to test
- Hypotheses dictate the data
to be analyzed
1. Generate good ideas
2. Determine what data would
allow these hypotheses to be
tested
3. Locate the data
4. Prepare the data for analysis
5. Build computer models based
Directed method
Undirected method
- to explain relationships
-to recognize relationships
1. Identify sources of
1. Identify sources of data
reclassified data
2. Prepare data for analysis
3. Build and train a computer
model
2. Prepare data for analysis
3. Build and train a computer
model
5. Evaluate the computer model
4. Evaluate the computer
model
6. Apply the computer model to
new data
7. Identify potential targets for
on the data
directed knowledge discovery
6. Evaluate computer models to
8. Generate new hypotheses to
confirm or reject hypotheses
test
6
5. 데이터 마이닝 효과측정
기술모델 측정
(Measuring descriptive model)
MDL(Minimum Description Length)
판별, 예측 : 오분류율(Error rate)
예측모델 측정
(Measuring predictive model)
추정 : 표준편차(Standard deviation)
연관성 : 신뢰도(Confidence), 향상도(Support)
군집 : 거리(Distance)
Lift
결과 측정(Measuring model)
ROC 도표
Response threshold
효과측정(Measuring impact)
LTV(Lifetime Value)
7
6. 데이터 마이닝 기법
시장 바구니 분석
동시에 발생한 사건들(transaction)중에 항목들의 군집화
(Market basket analysis)
(clustering of items)를 위한 분석방법 (Association rules)
기계적 군집 발견
(Automatic cluster detection)
신경망 분석
(Artificial neural network)
의사결정나무
(Decision tree)
데이터 내에서 사전에 알려지지 않은 유사성(similarity)을
찾는데 사용되는 방법
데이터 내에서 반복적인 학습과정을 통해 내제되어 있는 패턴을
찾아내는 분석방법
의사결정규칙을 나무구조로 표현하여 분류 (classification)와
예측(prediction)을 수행하는 분석방법
G.A.
(Genetic algorithm)
연결고리 분석
(Link analsys)
8
Ⅱ. 시장바구니분석
1. 시장 바구니 분석 - 연관성 규칙
시장 바구니 분석은 연관성 규칙을 통해서 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호관련성을
발견하는 것
연관성 규칙의 일반적인 형태 : 조건과 반응(if-then)
의미 있는 연관성 규칙 발견을 위한 평가도구 : 지지도(support), 신뢰도(confidence), 향상도(lift)
규칙 ‘If A then B’의 지지도(support)
= P(A and B) / N = (A 와 B를 동시에 포함하는 거래의 수) / 전체 거래수
지지도는 두개의 항목이 동시에 일어날 확률을 나타낸다.
‘If A then B’ 의 규칙의 지지도 = ‘If B then A’의 규칙의 지지도
규칙 ‘If A then B’의 신뢰도(confidence)
= P(B|A) = (A 와 B를 동시에 포함하는 거래의 수) / 품목 A를 포함하는 거래수
규칙 ‘If A then B’의 신뢰도  규칙 ‘If B then A’의 신뢰도
규칙 ‘If A then B’의 향상도(lift)
= P(B|A)/P(B) = (A와 B를 동시에 포함하는 거래 수)/(A를 포함하는 거래수*B를 포함하는 거래수)
이는 실제의 신뢰도를 독립성 가정하에서 나눈 값이며 이는 또한 실제의 지지도를 독립가정하에서의 지지도로
나눈 값과 동일하며, 의미 있는 연관성 규칙이 되려면 리프트값이 1이상이어야 한다.
10
2. 시장 바구니 분석 - 연관성 예제1
고객의 토핑 추가 LIST
거 래 수
항목이 포함된 거래 수
토핑 추가 확률
버섯
100
100+400+300+100=900
0.45
페페로니
150
150+400+200+100=850
0.425
치즈
200
200+300+200+100=800
0.40
버섯+페페로니
400
400+100=500
0.25
버섯+치즈
300
300+100=400
0.20
페페로니+치즈
200
200+100=300
0.15
버섯+페페로니+치즈
100
100
0.05
토핑 안함
550
2,000
합 계
규칙
전체거래건수 : 2,000
지지도(support)
신뢰도(confidence)
향상도(lift)
(버섯+페페로니)

치즈
100/2,000=0.05
0.05 / 0.25 = 0.20
0.05 / (0.25*0.40) = 0.5
(버섯+치즈)

페페로니
100/2,000=0.05
0.05 / 0.20 = 0.25
0.05 / (0.20*0.425) = 0.59
(페페로니+치즈)

버섯
100/2,000=0.05
0.05 / 0.15 = 0.33
0.05 / (0.15*0.45) = 0.74
버섯

페페로니
400/2,000=0.20
0.25 / 0.45 = 0.56
0.25 / (0.45*0.425) = 1.31
11
3. 시장 바구니 분석 – 연관성 예제2
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%
[ 제품구입 결과에 대한 연관성 분석 결과 ]
향상도(lift)
지지도(support)
신뢰도(confidence)
Software  Hardware
1.78
12.77
47.55(=>) , 47.93(<=)
생활용품  가전제품
1.69
11.60
43.67(=>) , 45.00(<=)
CD/비디오  Software
1.33
12.24
35.62(=>) , 45.57(<=)
CD/비디오  Hardware
1.18
10.81
31.47(=>) , 40.58(<=)
CD/비디오  책
1.18
21.25
61.87(=>) , 40.48(<=)
공연티켓  책
1.17
12.85
61.18
가전제품  CD/비디오
1.15
10.17
39.44
생활용품  CD/비디오
1.13
10.29
38.76
생활용품  책
1.12
15.63
58.85
의류제품  책
1.12
10.86
58.67
12
3. 시장 바구니 분석 – 연관성 예제2
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%
[ 제품구입 결과에 대한 연관성 분석 결과 - 남자 ]
향상도(lift)
지지도(support)
신뢰도(confidence)
Software  Hardware
1.48
17.18
51.85(=>) , 49.19(<=)
CD/비디오  책
1.18
21.50
61.86(=>) , 40.90(<=)
가전제품  책
1.09
16.08
57.21(=>) , 30.59(<=)
책  Hardware
1.08
19.91
37.86(=>) , 57.01(<=)
Software  책
1.08
18.87
56.95(=>) , 35.89(<=)
[ 제품구입 결과에 대한 연관성 분석 결과 - 여자 ]
향상도(lift)
지지도(support)
신뢰도(confidence)
책  CD/비디오
1.17
20.10
37.88(=>) , 61.86(<=)
책  생활용품
1.09
17.71
33.37(=>) , 57.82(<=)
책  미용/화장
1.01
16.42
30.95(=>) , 53.53(<=)
13
4. 시장 바구니 분석 – 연관성 예제3
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 ]
향상도(lift)
지지도(support)
신뢰도(confidence)
유료영화  유료정보
2.47
8.51
52.77
사이버증권  인터넷뱅킹
1.56
13.62
60.25
유료영화  성인사이트
1.42
11.54
71.57
유료영화  인터넷뱅킹
1.41
8.83
54.77
유료정보  인터넷뱅킹
1.37
11.35
53.23
유료정보  성인사이트
1.33
14.29
67.05
유료영화  전화
1.33
10.72
66.48
사이버증권  성인사이트
1.32
14.98
66.24
유료정보  전화
1.23
13.10
61.44
인터넷뱅킹  성인사이트
1.22
23.65
61.07
성인사이트  전화
1.20
30.34
60.37(=>) , 60.50(<=)
사이버증권  전화
1.20
13.60
60.14
인터넷뱅킹  전화
1.18
22.97
59.30
게임  채팅
1.18
34.65
52.01(=>) , 78.31(<=)
유료영화  방송청취
1.17
14.00
86.84
채팅  동호회
1.16
36.40
82.26(=>) , 51.13(<=)
방송청취  전화
1.15
42.98
57.91(=>) , 85.69(<=)
유료영화  게임
1.12
12.06
74.83
유료정보  방송청취
1.12
17.76
83.30
14
4. 시장 바구니 분석 – 연관성 예제3
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.13
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 남자 ]
유료영화  유료정보
사이버증권  인터넷뱅킹
유료정보  인터넷뱅킹
유료영화  인터넷뱅킹
유료영화  전화
유료영화  성인사이트
유료정보  성인사이트
유료정보  전화
동호회  채팅
게임  채팅
유료영화  방송청취
전화  방송청취
인터넷뱅킹  전화
사이버증권  성인사이트
인터넷뱅킹  성인사이트
유료정보  방송청취
전화  채팅
유료정보  채팅
향상도(lift)
지지도(support)
신뢰도(confidence)
2.32
10.23
54.84
1.48
17.21
61.5
1.36
13.37
56.57
1.36
10.52
56.40
1.27
13.04
69.88
1.23
15.01
80.45
1.22
18.85
79.73
1.21
15.66
66.26
1.17
36.16
52.42(=>) , 80.94(<=)
1.17
36.40
52.36(=>) , 81.48(<=)
1.17
16.29
87.32
1.15
47.50
86.40(=>) , 63.39(<=)
1.15
26.23
63.16
1.15
20.93
74.80
1.14
31.01
74.68
1.13
20.04
84.78
1.13
27.64
50.27(=>) , 61.86(<=)
1.12
11.88
50.24
15
4. 시장 바구니 분석 – 연관성 예제3
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 여자 ]
사이버증권  인터넷뱅킹
성인사이트  젼화
유료영화  전화
사이버증권  전화
성인사이트  게임
게임  채팅
유료영화  방송청취
유료영화  게임
성인사이트  소프트웨어다운
성인사이트  방송청취
전화  방송청취
채팅  동호회
전화  소프트웨어다운
유료정보  소프트웨어다운
사이버증권  소프트웨어다운
향상도(lift)
지지도(support)
신뢰도(confidence)
1.63
8.00
54.88
1.39
11.43
57.42
1.37
6.39
56.35
1.35
8.11
55.66
1.22
14.45
72.56
1.19
29.84
50.12(=>) , 71.13(<=)
1.17
9.63
85.01
1.17
7.91
69.79
1.16
16.32
81.98
1.16
16.72
83.98
1.15
34.46
83.65
1.15
35.23
83.98
1.13
33.08
80.31
1.12
13.08
79.28
1.11
11.48
78.76
16
4. 시장 바구니 분석 – 연관성 예제4
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 보유하고 있는 제품 또는 서비스에 대한 연관성 분석 결과 ]
향상도(lift)
지지도(support)
신뢰도(confidence)
캐비넷형 냉장고  프로젝션 TV
2.58
5.81
31.40(=>) , 47.79(<=)
프로젝션 TV  드럼 세탁기
1.94
6.75
55.48
콘도 회원권  무비카메라
1.92
3.08
50.52
드럼세탁기  캐비넷형 냉장고
1.86
9.85
34.35
콘도회원권  김치냉장고
1.77
2.68
43.99
디지털카메라  스캐너
1.75
5.65
35.49
콘도회원권  가스오븐렌지
1.73
3.83
62.72
디지털카메라  무비카메라
1.67
6.98
43.86
콘도회원권  에어컨
1.61
4.70
77.11
식기세척기  김치냉장고
1.59
5.99
39.41
콘도회원권  CATV
1.58
3.14
51.47
식기세척기  가스오븐렌지
1.53
8.44
55.55
MP3 Player  스케너
1.51
5.72
30.59
스캐너  무비카메라
1.44
7.66
37.83
캐비넷형 냉장고  가스오븐렌지
1.44
9.62
51.96
가스오븐렌지  김치냉장고
1.36
12.21
33.73(=>) , 49.24(<=)
식기세척기  무비카메라
1.35
5.40
35.58
무비카메라  가스오븐렌지
1.32
12.61
47.87(=>) , 34.81(<=)
김치냉장고  에어컨
1.31
15.62
62.98(=>) , 32.57(<=)
식기세척기  에어컨
1.31
9.53
62.73
식기세척기  드럼세탁기
1.30
5.65
37.23
17
Ⅲ. 행렬도분석
1. 행렬도 분석 – 두 범주간의 관련성
행렬도(biplot)는 자료행렬에 대한 비정칙치 분해(singular value decomposition)를 통해 행그림과
열그림을 구하고 그들을 하나의 그림에 동시에 나타내어 그들의 관계를 파악하는 다변량 그래프적
분석기법 이다.
행렬도는 크게 요인행렬도(principal component factor biplot)과 주성분행렬도(principal
component biplot)으로 구분되며, 요인행렬도는 변수간의 상관관계에 더 관심이 있을 때 사용할 수
있으며 주성분행렬도는 개체들간의 거리관계에 더 관심이 있을 때 사용할 수 있다.
19
2. 행렬도 분석 예제1
Sun
CTC
GSK
GJA
UJB
Mon
GYA
GCN
BCS
DDM
DGJ
CGK
JJN
DDJ
ASA
CWN
DSW
UNG
Wed
TGU
USN
ASN
BSW
GPO
YDP
SBS
KHE
SSO
Fri
20
GGU
Thu
DJD
Sat
Tue
YTG
2. 행렬도 분석 예제2
국민카드
BC카드
삼성카드
LG카드
외환카드
국민은행
2728
470
476
473
157
기업은행
95
311
157
165
38
협
225
1049
539
492
130
신한은행
141
159
252
233
68
외환은행
128
149
244
254
866
제일은행
58
303
130
160
41
조흥은행
203
1545
403
449
110
주택은행
149
868
291
266
88
한빛은행
233
1069
569
484
133
농
* 고객들이 이용하는 은행과 카드에 대한 주요 은행과 주요 카드사에 대한 빈도표임
21
2. 행렬도 분석 예제2
8
외환카드
외환은행
6
4
2
국민카드국민은행
신한은행
0
-8
-6
-4
-2
LG카드/삼성카드
2
0
기업은행
제일은행
-2
4
6
8
주택은행/한빛은행/농협
조흥은행
BC카드
-4
카드회사의 시장점유는 크게 국민카드, 외환카드, BC카드 3사로 형성되어 있으며 이들과 관련 깊은
은행들은 국민카드는 국민은행, 외환카드는 외환은행과 신한은행, BC카드(삼성,LG카드)는 기타 은행
(기업/제일/주택/한빛/농협/조흥은행)들과 높은 관계를 나타내고 있다.
22
2. 행렬도 분석 예제3
LG화재
동부화재
동양화재
삼성화재
현대해상
쏘나타
489
656
311
1504
803
갤로퍼
103
106
32
223
123
그랜저
86
156
62
277
139
누비라
146
148
70
327
95
레간자
85
100
42
223
75
마티즈
133
164
74
304
129
상용차
103
179
49
302
163
세피아
261
319
146
682
245
아반테
380
352
179
970
438
98
116
44
278
96
엑센트
243
247
126
632
257
엘란트라
255
265
147
654
300
78
94
43
204
104
크레도스
133
146
67
337
138
프라이드
177
214
107
460
175
프린스
131
184
78
315
128
에스페로
카렌스
23
2. 행렬도 분석 예제3
동부화재
상용차
프린스
그랜저
마티즈
카렌스
쏘나타
현대해상
동양화재
프라이드
레간자
에스페로
크레도스
갤포퍼
엑센트
삼성화재
엘란트라
아반테
24
세피아
누비라
LG화재
Ⅳ. 의사결정나무분석
1. 의사결정나무 – Decision Trees
의사결정규칙(decision rule)을 바탕으로 분류(classification)와 예측(prediction)을 하는 분석 방법이다.

의사결정나무의 주요 알고리즘
CHAID(Chi-squared automatic induction, Hartigan, 1975)
CART(classification and regression trees, Brieman, 1984)
C4.5(?,Quinlan, 1993)

범주형 목표변수에 적용되는 분리기준(splitting rule)
카이스케어 통계량 p-value
지니 지수(gini index)
엔트로피 지수(entropy index)

연속형 목표변수에 적용되는 분리기준(splitting rule)
분산분석 F 통계량
분산 감소량(variance reduction)

의사결정나무 분석과정
의사결정나무의 형성  가지치기  타탕성 평가  해석 및 예측
26
2. 의사결정나무 – Decision Trees
yes
2
뿌리 마디 (root node) : 나무구조의 시작으로 목표변수의
1
no
3
yes
형태를 파악할 수 있다. 1번
중간마디 (internal node) : 나무구조에서 중간에 위치한
no
마디로서 이 마디는 다시 분리규칙에 의해 분리된다. 3번,
4번 마디
1
끝마디(terminal node, leaf) : 나무구조의 끝에 위치한
4
yes
no
5
6
7
마디로서 끝마디의 개수만큼 분류규칙이 생성된다. 2번,
5번, 6번, 7번
부모마디(parent node)와 자식마디(child node) : 분리
되기 전의 마디를 부모 마디라 하고 분리되어진 2개 이상의
마디를 자식 마디라 한다. 4번 노드를 부모노드로 볼 때
이 마디의 자식마디는 5번과 6번이다.
27
3. 의사결정나무 예제
사용여부(30186)
1
1
2
3
4
2
3
4
YES
38.0%
38.7%
NO
62.0%
61.3%
YES
11480
5012
NO
18706
7925
YES
23.6%
3053
NO
76.4%
9872
YES
46.3%
778
NO
53.7%
901
YES
62.0%
3211
NO
38.0%
1964
YES
44.8%
3957
NO
55.2%
4872
YES
30.5%
481
NO
695%
1097
10대, 20대초반
30대이상, 여자
30대이상, 남자
20대 후반, 신용카드 보유
5
5
28
20대후반, 신용카드 미 보유
4. 의사결정나무의 모형 평가 도구
구축된 모형으로부터의 사후확률을 이용하여 구축된 모형에 대한 평가를 할 수 있는 도구들이다.
이 도구들을 이용하여 하나의 결과에 여러 개의 모형을 구축하고 가장 적정한 구축 모형을 선택할 수 있다.
Lift Chart, Response Threshold Chart,ROC Chart
Threshold-based Chart, Correct classification, Interactive Profit
P_PAYSERVEyes : predicted payserve yes
I_PAYSERVE : into payserve
F_PAYSERVE : from payserve
P_PAYSERVEyes가 분류기준 0.5를 넘으면 I_PAYSERVE가 YES로 분류된다.
29
5. Lift Chart - %Captured Response
리프트가 의미하는 것은 전체 모집단으로부터 우리가 원하는 치우친 샘플(biased sample)을 선택하기
위한 모델을 설정했을 때 관심이가는 그룹에 대한 변화의 정도를 나타낸다.
Lift = P(관심이 가는 그룹에 속하는 사람 | 샘플) / P(관심이 가는 그룹에 속하는 사람 | 모집단) 리프트는
샘플의 크기에 대한 함수로써, X축은 모집단에서의 퍼센트를 나타내고, Y축은 관심이 가는 집단에 속한
사람들의 퍼센트를 나타낸다. 리프트차트에서 45도 각도의 직선은 모델이 고려되지 않았을 때의 반응을
나타내며, 다른 하나의 선은 모형이 고려되었을 때의 향상도, 즉 리프트를 나타낸다.
앞에서 설정한 나무모형을 이용하여 특정 고객에 대한
모형화를 할 경우 그렇지 않은 경우보다 더욱 효율적
이다는 것을 알 수 있으며, 특히 모집단의 상위 40%정도를
샘플링하여 특정 고객에 대한 판별을 할 경우
약 60%정도의 향상을 가져옴을 알 수 있다.
30
6. Lift Chart의 형태 – 누적(Cumulative)
%Response
%Captured Response
%Lift Value
%Profit
31
7. ROC Chart
• ROC차트는 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음, 특이도와 민감도를 통해
모형을 평가한다.
• 사후확률은 구축된 모형을 통해 종속변수(목표변수)가 특정 범주에 속할 확률을 의미한다.
• 분류기준값(cut-off, threshold)은 사후확률을 통해 각각의 관찰치를 특정 범주에 분류할 때 사용
하는 기준값으로 분류의 기준은 1/목표변수의 범주의 개수로 설정한다.
• 오분류행렬이란 목표변수의 실제 범주와 모형에 의해 예측된 분류범주 사이의 관계를 나타낸다.
• 민감도(sensitivity) = (실제 1, 예측 1)인 관찰치의 빈도 / 실제 1인 관찰치의 빈도
• 특이도(specificity) = (실제0, 예측0)인 관찰치의 빈도 / 실제 0인 관찰치의 빈도
특정고객에 대한 나무구조분석을 통해
모형이 모형을 설정하지 않았을 때 보다 효과적
임을 알 수 있다.
이러한 ROC차트는 빨간색 부분과 같은 형태를
가질수록 더욱 효과적이라는 의미를 가지게 된다.
32
8. Response Threshold Chart
사후확률과 분류기준값 및 목표변수의 특정
범주의 빈도를 이용하여 평가한다.
Response Threshold 차트는 분류기준값이
변화함에 따라 모형의 분류결과가 얼마나
적은 변동을 가지는지를 파악하기 위해
사용한다.
옆의 그림은 사후확률이 대체로 0.6보다 작아
높은 분류기준값을 설정할 경우에는 분류를
제대로 하고 있지 못하며 의사결정을 위한
분류기준값이 0.3에서 0.5사이에 이루어져야
함을 보여주고 있다.
33
9. Response-based Chart
Threshold-based 차트는 한 모형을 평가하기 위해 각 분류기준값별로 사후확률에 근거한 오분류행렬을 이용한다.
오분류표와 이익행렬(profit matrix)을 이용하여 수익을 나타내는 이익도표를 작성하며 위의 왼쪽그림은 분류기준값
을 0.5로 했을 때의 결과이며 오른쪽은 분류기준값으로 0.4를 했을때의 결과이다. 분류기준값을 변경하면서 비교해
보았을 때 이 값들 사이에서 분류기준값을 정하는 것이 타당하다는 생각을 할 수 있으며 추가적인 작업으로 correct
classification을 고려할 수 있다.
34
10. Correct classification
Correct classification은 정분류율, 민감도, 특이도를 도표화한다. 이 세개의 값을 모두
높게 하는 분류 기준값은 존재하지 않는다. 따라서 이 들 셋 중 어느 하나가 지나치게
크거나 작지 않은 분류기준값을 찾는 것이 바람직하다. 여기서는 대략 분류기준값으로 50을
고려할 수 있음을 보여주고 있다.
35
11. Interactive profit
지금까지 고려된 모형은 정분류에는 1을,
오분류에는 0이라는 이익이 발생한다는
가정하에서 모형이 구축되었으며 그 결과가
옆의 그림과 같다. 그러나 실제로 이익행렬은
달라 질 수 있으며 이러한 형태를 직접 고려
하여 그 형태를 보아가며 분류기준값을 설정
할 수 있다.
특정 제품 사용 여부에 대한 이익행렬을
Yes를 Yes로 에측하거나 No를 No로 예측
할 경우의 발생 이익을 1로 그렇지 않은
오분류에서의 발생 이익을 0으로 했을 때의
결과이다.
36
Ⅴ. 로지스틱 회귀분석
1. 로지스틱 회귀분석
목표변수가 입력변수들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를
적절한 함수식으로 표현하여 분석하는 통계적 분석방법을 회귀분석이라 하며, 특히
목표변수가 이분형(dichotomous)을 가질 때의 회귀분석을 로지스틱 회귀분석이라 한다.
선형 회귀모형
로지스틱 회귀모형
로지스틱 회귀분석의 목적 : 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이기
때문에, 일반적인 판별분석과 비교하여 로지스틱 판별분석이라 부르며, 목표변수에 대한
사후확률을 구하여 새로운 개체에 대한 판별을 한다.
사후확률
38
2. 로지스틱 회귀분석 예제1
여기서는 온라인 패밀리카드 고객자료를 이용하여 어떠한 변수들이 인터넷 상에서
상품을 구입하는데 영향을 주는 변수인지 모형화를 통해 살펴보고자 한다.
목적변수 – PAYSERVE(온라인 상품 구매 이용여부, 0:이용한 적 없다 1: 이용한 적 있다)
설명변수 – TYPE[인터넷이용형태, 0 : LIGHT USER, 1: HEAVY USER)
SEX[성별, 1 : 남자, 2: 여자]
MAR[결혼, 0: 미혼, 1: 기혼]
I_PLACE[인터넷 주 이용장소, HOUSE(집), OFFICE(사무실), GAMEROOM(PC방), SCHOOL(학교)]
COMPUTER[보유컴퓨터, DESKTOP, NOTEBOOK, NONE)
CAR[차량소유여부, YES, NO]
CCARD[신용카드소유여부, YES, NO]
BANK[은행계좌소유여부, YES, NO]
INSU[자동차보험가입여부, YES, NO]
GEN(연령대, 10대, 20대초반, 20대후반, 30대이상)
INCOME[소득, LOW, MIDDLE, HIGH]
분석에 있어서 유료정보 서비스를 이용하는데 영향을 주는 요소로서 위와 같은 변수를 고려하였으며, 2차 교호
작용도 함께 고려하였다. 분석과정에서 2차 교호작용이 들어가있는 모형이 조금 나았지만 그 차이가 아주 미미
하여 좀 더 간단한 모형으로 설명하고자 교화 효과가 포함되지 않은 모형을 고려 하였고 그 결과가 다음과 같다.
39
2. 로지스틱 회귀분석 예제1
모형구축을 위한 통계적 방법
링크 한수 : Logit Function 가변수에 대한 코딩 : Deviation
변수선택방법 ; 단계적방법(stepwise method) Criteria : Validation Error
최적화방법 : Newton-Raphson w/Ridging
모형구축에 선택된 변수
상수항, car ccard, computer, gen, income, insu, mar, sex, type
Type III Analysis of Effects
Wald
Effect
Pr >
DF
Chi-Square
Chi-Square
car
1
14.7178
0.0001
ccard
1
266.9468
<.0001
computer
2
75.4109
<.0001
gen
3
267.5672
<.0001
income
2
77.0948
<.0001
insu
1
60.2473
<.0001
MAR
1
59.7892
<.0001
SEX
1
406.7122
<.0001
type
1
181.6564
<.0001
40
2. 로지스틱 회귀분석 예제1
Input Class Level Information
Type
Heavyuser
1
LightUser
-1
computer
desktop
1
0
none
0
1
-1
-1
notebook
SEX
MAR
i_place
1
1
2
-1
0
1
1
-1
car
ccard
Gamer
1
0
0
House
0
1
0
Office
0
0
1
School
-1
-1
-1
bank
insu
gen
no
1
yes
-1
no
1
yes
-1
no
1
yes
-1
no
1
yes
-1
10대
1
0
0
20초
0
1
0
hig
1
0
20후
0
0
1
low
0
1
30하
-1
-1
-1
mid
-1
-1
income
41
2. 로지스틱 회귀분석 예제1
추정된 회귀계수
Analysis of Maximum Likelihood Estimates
Standard
Wald
Pr >
Chi-square
Chi-square
exp(Est)
Parameter
DF
Estimate
Error
Intercept
1
-0.7614
0.0258
868.17
<.0001
0.467
car
no
1
-0.0571
0.0149
14.72
0.0001
0.944
ccard
no
1
-0.2808
0.0172
266.95
<.0001
0.755
computer
desktop
1
0.000373
0.0208
0.00
0.9857
1.000
computer
none
1
-0.2358
0.0321
53.82
<.0001
0.790
gen
10대
1
-0.4132
0.0383
116.19
<.0001
0.662
gen
20초
1
-0.2097
0.0251
69.61
<.0001
0.811
gen
20후
1
0.1281
0.0221
33.47
<.0001
1.137
income
hig
1
0.2007
0.0233
74.15
<.0001
1.222
income
low
1
-0.1423
0.0274
26.92
<.0001
0.867
insu
no
1
-0.1082
0.0139
60.25
<.0001
0.897
MAR
0
1
-0.1432
0.0185
59.79
<.0001
0.867
SEX
1
1
0.2833
0.0140
406.71
<.0001
1.328
type
Heavyuser
1
0.1728
0.0128
181.66
<.0001
1.189
42
2. 로지스틱 회귀분석 예제1
온라인 상품구매 여부에 대한 독립변수의 회귀계수를 통해 살펴보면, 30대이상, 남자,
노트북 소유, 고소득, Heavy User, 기혼, 20후, 자동차보험 가입자, 차 소유, 데스크탑 등이
사후확률을 증가시키는 변수임을 알 수 있다.
gen
sex
ccard
computer
income
type
mar
gen
insu
car
computer
car
income
insu
income
mar
type
gen
computer
ccard
sex
gen
30이상
남자
yes
notebook
high
Heavyuser
기혼
20후
yes
yes
desktop
no
middle
no
low
미혼
Lightuser
20초
none
no
여자
10대
43
0.4948
0.2833
0.2808
0.235427
0.2007
0.1728
0.1432
0.1281
0.1082
0.0571
0.000373
-0.0571
-0.0584
-0.1082
-0.1423
-0.1432
-0.1728
-0.2097
-0.2358
-0.2808
-0.2833
-0.4132
2. 로지스틱 회귀분석 예제1
입력변수가 온라인 상품구매 이용여부에 미치는 영향의 정도는 오즈비로 계량화할수 있는데
오즈비가 1보다 크다는 것은 입력변수가 양의 방향으로 영향을 미침을 의미한다.
예를 들어, 남자는 여자보자 1.762배 만큼 증가방향으로 영향을 미침을 의미한다.
오 즈 비
Odds Ratio Estimates
Input
Odds Ratio
car
no vs ye
0.892
ccard
no vs ye
0.570
computer desktop vs noteboo
0.791
computer none vs noteboo
0.624
gen
10대 vs 30하
0.403
gen
20초 vs 30하
0.494
gen
20후 vs 30하
0.693
income
hig vs mid
1.296
income
low vs mid
0.920
insu
no vs ye
0.805
MAR
0 vs 1
0.751
SEX
1 vs 2
1.762
type
Heavyuser vs LightUser
1.413
44
2. 로지스틱 회귀분석 예제1
왼쪽의 리프트도표는 온라인 상품구매 대한 교호작용이 있는 회귀분석모형과 입력변수만이 고려된
회귀분석모형, 의사결정나무모형에 대한 결과이다. 의사결정모형보다는 회귀분석모형이 더 좋은 결과를
제공하고 있다는 것을 나타내고 있고, 오른쪽의 ROC도표를 통해서도 회귀분석모형이 좀 더 좋은 결과를
나타냄을 알 수 있다. 따라서 온라인 상품구매에 대한 모형구축에서는 의사결정나무보다 회귀분석모형이
더욱 적절하다는 결론을 내릴 수 있다.
45
3. 구축된 모형
패널데이터
데이터분할
의사결정
나무모형
교호작용이
없는
로지스틱
회귀모형
교호작용을
포함하는
로지스틱
회귀모형
46
모형평가
점수화
Ⅵ. 군집분석
1. 군집분석
군집분석(cluster analysis)은 관찰치를 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하여, 데이터
전체에 대한 구조를 이해하는데 도움을 주는 분석 도구이다. 복잡한 전체보다는 전체를 대표하는 군집
들을 관찰함으로써 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있다.

군집분석의 목적
자료에 대한 탐색과 요약을 하며 어떠한 특수목적이 없는 기법으로 전제데이터를 군집을 통해
잘 구분하는 것이 분석의 목적이다.

거리의 종류
유클리드 거리
민코브스키 거리

군집의 유형
상호 배반적 군집(disjoint clustering)
계보적 군집(hierarchical clustering)
중복 군집(overlapping clustering)
퍼지 군집(fuzzy clustering)

데이터마이닝에서의 유용한 군집분석 알고리즘
K-means clustering, SOM
48
2. 군집분석 예제1
관찰치 : 43,123 샘플 : 2,000 Standardization : Range
Clustering Criterion : Least Squares
GEN
1
INCOME
0.582
I_PLACE
0.554
COMPUTER
0.444
SEX
0.229
MAR
0.229
CCARD
0.226
TYPE
0.218
CAR
0.168
INSU
0
BANK
0
데이터에 대한 군집하에 영향을 가장 많이 미치는
Slice : Std. Diviation Height: Frequency Color : Radius
변수로는 연령층, 수입, 인터넷사용장소,
컴퓨터소유종류, 성별 순으로 나타나고 있음을
알 수 있다.
49
2. 군집분석 예제1
4개의 군집으로 표현되는 온라인 패밀리카드 데이터는 다음과 같은 특성을 가지고 있다.
인구통계
컴퓨터 활용
S.E.S.
10대여자
집에서 데스크탑을 이용하여 인터넷에 접속
하여 유료사이트는 잘 이용하지 않음
Light User
차량보유율이 가장 낮
고, 신용카드 없음.
군집2
30대이상 남자
노트북 사용자가 가장 많음.
주로 사무실에서 이용하며, 유료사이트이용
을 가장 많이 함.
차량, 신용카드를 가지
고 있음.
군집3
20대후반 여자
기혼자가 많음
사무실에서 주로 컴퓨터를 사용하며
데스크탑을 많이 이용. 유료사이트도 군집2
다음으로 많이 이용.
차량, 신용카드,보험에
가입을 하고 있음.
20대 초반 남자
집에서 주로 사용. 유료사이트는 잘 이용하
지 않음.
Heavy User
차량과 현금카드
보유율이 낮음
소득이 낮음
군집1
군집4
50
2. 군집분석 예제1
[ Type ]
[ Sex ]
1집단
2집단
3집단
4집단
1집단
2집단
3집단
4집단
87.44
71.34
58.94 59.19
71.34
58.92
41.08
59.19
57.35
50.96
41.06
40.45
42.65
40.81
28.66
12.56
Heavy User
Light User
남
[ Mar ]
여
자
[ Pay serve ]
1집단
92.15
자
2집단
3집단
4집단
1집단
2집단
3집단
4집단
97.45
87.44
73.89
72.29
62.28
59.90
55.34
44.66
40.10
37.72
27.71
26.11
7.85
미
혼
12.56
2.55
기
No
혼
51
Yes
2. 군집분석 예제1
[ Place ]
1집단
2집단
3집단
4집단
92.58
54.35
41.79
62.87
44.27
29.25
19.43
1.14
1.21
18.15
4.20
18.15
5.71
0.57
Gamer
House
Office
2.66
3.68
School
[ Gen ]
1집단
82.80
37.23
2집단
3집단
4집단
83.57
78.63
37.80
0.35
10대
4.78
1.69
17.69 14.73
8.58
20대 초반
20대 후반
52
10.19
7.28
12.43
2.23
30대 이상

시장 바구니 분석

Transcript 시장 바구니 분석

Directory