정보 추출기술 (Data Mining Techniques ) : An Overview

Download Report

Transcript 정보 추출기술 (Data Mining Techniques ) : An Overview

What is Data Mining ?
Jinseog Kim
Department of Statistics & Information Science
Dongguk University
[email protected]
의사결정을 위한 정보 추출
데이타









인구통계
Point of Sale
ATM
금융통계
신용정보
문헌
첩보자료
진료기록
신체검사기록
2015-07-18
의사결정
정보




A상품 구매자의
80%가 B상품도
구매한다
미국시장의 자
동차 구매력이
6개월간 감소
A상품의 매출
중가가 B상품의
2배
탈수 증상을 보
이면 위험
김진형@정보시스템세미나






광고전략은 ?
상품의 진열
최적의 예산 할
당은 ?
시장점유의 확
대방안은 ?
고객의 이탈 방
지책은 ?
처방은 ?
2
Data Mining 이란 ?
대량의 데이터로부터
 유용한 정보를 추출하여
 이해하기 쉬운 형태로 변환하여
 실제의 의사결정과정에 적용하는
전과정
 저장된 데이터에서 정보, 지식, 규칙,
패턴,특성을 추출함
2015-07-18
김진형@정보시스템세미나
3
배
경
 저장되는 데이터 양의 폭발적 증가
데이타베이스 시스템의 사용 증가
 데이터 수집의 자동화-POS data,
Internet Log

 정보, 지식의 부족 (언제나)
 인지적 처리의 한계

자동처리의 요구 증대
 기계학습(Machine Learning) 기술의 발
전
2015-07-18

김진형@정보시스템세미나
Knowledge Discovery, Knowledge
4
Data Mining 과정
1) 데이터 선택
- 사용될 데이터 유형 선택
2) 데이터 변환
- 정보 추출 유형에 따른 자료 변환
- 수치화, 논리값, 정규화,
3) 정보 추출
4) 결과 해석
- 가시화 (도표), 선택 제시
- 평가, 피드백
2015-07-18
김진형@정보시스템세미나
5
Data Mining 과정
Select
Transform
자료선택
자료변환
DATABASE
Mine
Assimilate
정보추출
해석 및 취합
추출된
데이타
Selected
Data
Extracted
Data
Assimilated
Transformed
data
Visualization
Data
가시화
2015-07-18
김진형@정보시스템세미나
6
고객관계관리(CRM)의 예
자료선택
구매이력
POS Data
Survey data
2015-07-18
자료변환
정보추출
해석 및 취합
Targeting for
Sales
오렌지주스를 구입
한 거래자료
우수고객정의
(buys the same
brand 80% of
time)
60세 넘으신 분들
이 많이 산다
김진형@정보시스템세미나
7
Data Mining기법 분류
u
탐사할 지식, 정보의 종류에 따라서
u
탐사할 데이타베이스의 종류에 따라서
u
적용할 탐사 기법에 따라서
2015-07-18
김진형@정보시스템세미나
8
Data Mining기법 분류
발견할 지식의 종류에 따라서








Summarization (요약)
Association (연관성 발견)
Classification (분류)
Clustering (군집화)
Characterization (특성발견)
Sequential Pattern Discovery (연속패턴발견)
Trend (경향 발견)
Deviation Detection (추세변화발견)
2015-07-18
김진형@정보시스템세미나
9
Data Mining기법분류
탐사할 DB의 종류에 따라서
 Relational DB
 transactional DB
 Object-oriented DB
 Spatial DB
 Temporal DB
 Textual vs Multimedia
 Hetrogeneous, …
2015-07-18
김진형@정보시스템세미나
10
Data Mining 기법분류
탐사 기법에 따라서
 인공지능, 신경망적 방법



논리적 추론, rule induction
이론적으론 어떠한 functional mapping도 가능
강력한 학습 algorithm이 있음
 통계적 방법/ 패턴인식




2015-07-18
Statistical Classification(supervised learning)
Clustering Techniques(unsupervised learning)
Time Series Analysis,
…
김진형@정보시스템세미나
11
연관성 규칙 탐사
 Transaction DB의 자료분석
 <장바구니분석>이라고도 함
 RULE 강도의 척도
A ==> B [support, confidence]
support = #(A and B) / #(total transactions)
confidence = #(A and B) / #(A)
 예 : 맥주 ==> 기저귀 (Agrawal, 최초의 데이터마이닝 소개)
 사례 1: 식품판매업소의 판촉전략
 사례 2: AMAZON.COM

관련서적을 추천
 사례 3: 호주의 의료보험협회

2015-07-18
필요없는 진료 후 경비청구 사례 적발(의료사기탐지)
김진형@정보시스템세미나
12
연관성 탐사 예제
1
2
3
4
5
6
소주,콜라,맥주
소주,콜라,포도주
소주,주스
콜라,맥주
소주,콜라,맥주,포도주
주스
판매 기록
Association Rules
with
Maximum support
of 50%
Rules with
Support>50%
소주콜라
콜라소주
콜라맥주
맥주콜라
Supporting Confidence
Transactions
1,2,5
75%
1,2,5
75%
1,4,5
75%
1,4,5
100%
Classification
 훈련데이터를 근거로 자료의 분류


훈련데이터 : Class-label 과 feature set으로 표현
지도학습(Supervised Learning)의 하나
 동일분류에 동일한 예측, 동일한 대응

새로운 상황을 분류한 후 예비된 대응 조치
 응용: Credit Approval, 의료 진단
 예: 대출시 은행이익 및 지불능력에 따른 특정인의 대출 이자 결정
 Decision Tree, 신경망, 통계적 결정론(logistic model, LDA, QDA)
2015-07-18
김진형@정보시스템세미나
14
Classification Example
나이 가족수 직업 월수입 기대출신용액
Classifier
Class 1
신용도 우량
2015-07-18
Class 2
신용도 보통
김진형@정보시스템세미나
Class 3
신용도 불량
15
Decision Tree Classifier
직업 ?
유
•
데이터로부터
Decision Tree 자
동생성 가능
•
ID3, CART,
C5.0
무
월수입
<200
>=200
나이>25
No
부양가족수
Yes
>=1
=0
기대출금
>=3000
<1000
우량
2015-07-18
>=1000
<3000
보통
김진형@정보시스템세미나
불량
16
Neural Network Classifier
 생물체 신경세포들의 분산형 정보처리
모델
X
w
1
X2
.
.
.
Xn
1
w2
S
F(X1, X2, …, Xn)
wn
 다수의 Neuron이 계층적으로 연결됨
 학습 = 연결강도 조정
Error-back-propagation 지도학습알고리
2015-07-18
김진형@정보시스템세미나
17
즘

Neural Network Classifier
직업유무(1/0)
우량
나이
월수입
보통
부양가족수
불량
기대출금
Input
layer
2015-07-18
Hidden
layer
김진형@정보시스템세미나
Output
layer
18
Sequential Pattern
Discovery
 Transaction 자료로부터 사건의 순서
발견
 응용
우편판매업자의 판촉 전략 수립
 신용카드 사고 예측
 특정 질병의 진행 경과 예측, 대응
 원자력 발전소 사고 발견, 대응

 방법론
연관성 타사의 확장
2015-07-18
김진형@정보시스템세미나
 Hidden Markov
Model for doubly

19
Sequential Pattern Example
Transaction Time
Customer
96-06-20 10:13 am
J.Kim
Juice, Coke
96-06-20 11:03 am
96-06-20 11:47 am
P.Jin
J.Kim
Whisky
Beer
96-06-20 02:32 pm
96-06-21 09:23 am
B.Mim
J.Kim
Beer
Wine, Water, Cider
96-06-21 03:19 pm
S.Moon
96-06-21 05:55 pm
B.Ahn
Beer
96-06-21 06:03 pm
B.Min
Wine, Cider
96-06-22 10:34 am
B.Ahn
Whisky
96-06-22 05:31 pm
B.Min
Whisky
2015-07-18
Items Bought
Beer, Gin, Cider
Sequential Pattern
in DataBase
Sequential Pattern with
Support > 40%
(Beer)(Whisky)
Supporting Customer
(Beer)(Wine,Cider)
J.Kim,B.Min
김진형@정보시스템세미나
B.Ahn,B.Min
20
Similar Time Series
14
Matching Curve
Found
12
10
8
Soda
6
4
14
2
12
0
10
8
Soda
6
Chips
4
2
0
2015-07-18
김진형@정보시스템세미나
21
Clustering(군집화)
 개별 데이터들 간의 유사성을 측정하여 유사
한 자료를 같은 그룹으로 모음
 “유사하다”는 정의가 중요함
 Unsupervised Learning Algorithms


Symbolic, Neural Network based (Kohonen
Feature Map)
Statistical clustering 방법론
 응용


2015-07-18
은행에서 고객의 군집화 - 다른 서비스 제공
고객의 지역적, 생활관습에 따른 차별 홍보전략
김진형@정보시스템세미나
22
Clustering Example
ID Sex 혼인 자녀 월수입
1 M
S
0
150
2 M
D
1
100
3 M
M
2
100
4 F
M
1
150
5 F
D
1
150
6 F
S
0
100
7 F
M
2
100
2015-07-18
ID Sex 혼인 자녀 월수입
1 M
S
0
150
6 F
S
0
100
ID Sex 혼인 자녀 월수입
2 M
D
1
100
4 F
M
1
150
5 F
D
1
150
ID Sex 혼인 자녀 월수입
3 M
M
2
100
7 F
M
2
100
김진형@정보시스템세미나
23
Symbolic Clustering
Similarity = 2 ID Sex 혼인 자녀 월수입
Similarity = 2
ID Sex 혼인 자녀 월수입
1 M
S
0
150
6 F
S
0
100
Diff=3
2
4
5
M
F
F
D
M
D
1
1
1
100
150
150
Diff=2.83
Diff=3
ID Sex 혼인 자녀 월수입 Similarity = 3
3 M
M
2
100
7 F
M
2
100
Total Score for this cluster partition = average similarity + average difference
= 2.33 + 2.94 = 5.27
2015-07-18
김진형@정보시스템세미나
24
Data Mining Interface
 Interactive Mining

GUI를 통한 Task의 지정
 Data Mining Query Language
find association rules
related to gpa, birth_place,
family_income
from student
where major = “CS” and birth_place =
“Seoul”
with support threshold = 0.05
2015-07-18
김진형@정보시스템세미나
with confidence
threshold = 0.7
25
Kohonen’s Feature Map
 신경망을 이용한 군집화 방안
 유사한 것들이 한곳에 모이도록 연결강도
조정
 결과를 Feature Map이라고 함 : 군집화
결과
이웃관계 유지
 Feature Map 상의 거리가 바로 Difference

 연결강도의 조정 방법
2015-07-18
김진형@정보시스템세미나
1) 주어진 입력 X에 가장 잘 맞는 노드 N을 구
26
국내사례: 백화점 고객 세분(customer
segmentation)
 현대정보기술 팀
 백화점 고객 세분화가 목적





주 고객은 누구인가 ?
어떤 종류의 고객을 유치하면 매출이 증가하는가 ?
고객 그룹별 주요 상품은 무엇인가?
상품별 주요 고객 은 어떤그룹인가?
어떤 특성의 고객이 연체하는가 ?
 기대 효과


2015-07-18
일률적 마켓팅전략(mass marketing)에서 부분적이고 차별
화된 마켓팅전략(personalization or target marketing)으로
전환
매출 증대, 비용감소, 연체 감소, 이익 증대
김진형@정보시스템세미나
27
백화점 고객 분류
Scoring기준표
신상정보
매출정보
고객분류
연체정보
우량
우수
보통
불량
매우불량
신용도 정보
각 그룹의 신용한도
2015-07-18
김진형@정보시스템세미나
28
백화점고객분류
시스템 Overview
통합고객 DB
Credit 신청자
연체정보
신상정보
매출정보
신용도정보
Decision Tree
신청자 분류
기존고객 분류
Scoring 기준표
고객 구룹별
Scoring
(Neural Network
Credit 등급 및
신용한도 설정
2015-07-18
김진형@정보시스템세미나
29
국내 사례 : 신용카드 사기검출
 LG종합기술원
 신용카드 사기거래의 효과적 검출

기존 신용카드 승인업무 시스템에 통합 운영
목표
 사기거래의 특징 변수

거래속도, 거래금액, 가맹점 정보, 사용자 정
보
 신경망 기법으로 Fraud Score 생성
2015-07-18
김진형@정보시스템세미나
30
 1995년 LG신용카드 거래자료 14만건으
Data mining Tools
 IBM Intelligent Miner
 SAS E-miner
 Splus Insightful
…
2015-07-18
김진형@정보시스템세미나
31
추가 정보
 Mining Business Databases, Brachman, et al., CACM, Vol39,
No11, 1996
 Mining Scientific Data, Fayyad, et al., CACM, Vol39, No11,
1996
 Quest(IBM Almaden)
 http://www.almaden.ibm.com/cs/quest
 DBMiner(Simon Fraser Univ.)
 http://db.cs.sfu.ca/DBMiner
 KDD(GTE)
 http://info.gte.com/~kdd/index.html
 International Conference on Knowledge Discovery and Data
Mining
 Advances in Knowledge Discovery and Data Mining, MIT
press, 1996
2015-07-18
김진형@정보시스템세미나
32
결론
 대량의 자료 분석 ==> 정보, 지식의 자동 추
출


데이터베이스의 새로운 활용
새로운 통계분석방법의 필요성 증대
 현장에서 쓰이는 솔루션 제공 수준에 도달
 현재 많은 연구가 진행 중
다양한 형태로부터의 정보 추출 연구
 Hot Research Item

2015-07-18
김진형@정보시스템세미나
33