정보 추출기술 (Data Mining Techniques ) : An Overview
Download
Report
Transcript 정보 추출기술 (Data Mining Techniques ) : An Overview
What is Data Mining ?
Jinseog Kim
Department of Statistics & Information Science
Dongguk University
[email protected]
의사결정을 위한 정보 추출
데이타
인구통계
Point of Sale
ATM
금융통계
신용정보
문헌
첩보자료
진료기록
신체검사기록
2015-07-18
의사결정
정보
A상품 구매자의
80%가 B상품도
구매한다
미국시장의 자
동차 구매력이
6개월간 감소
A상품의 매출
중가가 B상품의
2배
탈수 증상을 보
이면 위험
김진형@정보시스템세미나
광고전략은 ?
상품의 진열
최적의 예산 할
당은 ?
시장점유의 확
대방안은 ?
고객의 이탈 방
지책은 ?
처방은 ?
2
Data Mining 이란 ?
대량의 데이터로부터
유용한 정보를 추출하여
이해하기 쉬운 형태로 변환하여
실제의 의사결정과정에 적용하는
전과정
저장된 데이터에서 정보, 지식, 규칙,
패턴,특성을 추출함
2015-07-18
김진형@정보시스템세미나
3
배
경
저장되는 데이터 양의 폭발적 증가
데이타베이스 시스템의 사용 증가
데이터 수집의 자동화-POS data,
Internet Log
정보, 지식의 부족 (언제나)
인지적 처리의 한계
자동처리의 요구 증대
기계학습(Machine Learning) 기술의 발
전
2015-07-18
김진형@정보시스템세미나
Knowledge Discovery, Knowledge
4
Data Mining 과정
1) 데이터 선택
- 사용될 데이터 유형 선택
2) 데이터 변환
- 정보 추출 유형에 따른 자료 변환
- 수치화, 논리값, 정규화,
3) 정보 추출
4) 결과 해석
- 가시화 (도표), 선택 제시
- 평가, 피드백
2015-07-18
김진형@정보시스템세미나
5
Data Mining 과정
Select
Transform
자료선택
자료변환
DATABASE
Mine
Assimilate
정보추출
해석 및 취합
추출된
데이타
Selected
Data
Extracted
Data
Assimilated
Transformed
data
Visualization
Data
가시화
2015-07-18
김진형@정보시스템세미나
6
고객관계관리(CRM)의 예
자료선택
구매이력
POS Data
Survey data
2015-07-18
자료변환
정보추출
해석 및 취합
Targeting for
Sales
오렌지주스를 구입
한 거래자료
우수고객정의
(buys the same
brand 80% of
time)
60세 넘으신 분들
이 많이 산다
김진형@정보시스템세미나
7
Data Mining기법 분류
u
탐사할 지식, 정보의 종류에 따라서
u
탐사할 데이타베이스의 종류에 따라서
u
적용할 탐사 기법에 따라서
2015-07-18
김진형@정보시스템세미나
8
Data Mining기법 분류
발견할 지식의 종류에 따라서
Summarization (요약)
Association (연관성 발견)
Classification (분류)
Clustering (군집화)
Characterization (특성발견)
Sequential Pattern Discovery (연속패턴발견)
Trend (경향 발견)
Deviation Detection (추세변화발견)
2015-07-18
김진형@정보시스템세미나
9
Data Mining기법분류
탐사할 DB의 종류에 따라서
Relational DB
transactional DB
Object-oriented DB
Spatial DB
Temporal DB
Textual vs Multimedia
Hetrogeneous, …
2015-07-18
김진형@정보시스템세미나
10
Data Mining 기법분류
탐사 기법에 따라서
인공지능, 신경망적 방법
논리적 추론, rule induction
이론적으론 어떠한 functional mapping도 가능
강력한 학습 algorithm이 있음
통계적 방법/ 패턴인식
2015-07-18
Statistical Classification(supervised learning)
Clustering Techniques(unsupervised learning)
Time Series Analysis,
…
김진형@정보시스템세미나
11
연관성 규칙 탐사
Transaction DB의 자료분석
<장바구니분석>이라고도 함
RULE 강도의 척도
A ==> B [support, confidence]
support = #(A and B) / #(total transactions)
confidence = #(A and B) / #(A)
예 : 맥주 ==> 기저귀 (Agrawal, 최초의 데이터마이닝 소개)
사례 1: 식품판매업소의 판촉전략
사례 2: AMAZON.COM
관련서적을 추천
사례 3: 호주의 의료보험협회
2015-07-18
필요없는 진료 후 경비청구 사례 적발(의료사기탐지)
김진형@정보시스템세미나
12
연관성 탐사 예제
1
2
3
4
5
6
소주,콜라,맥주
소주,콜라,포도주
소주,주스
콜라,맥주
소주,콜라,맥주,포도주
주스
판매 기록
Association Rules
with
Maximum support
of 50%
Rules with
Support>50%
소주콜라
콜라소주
콜라맥주
맥주콜라
Supporting Confidence
Transactions
1,2,5
75%
1,2,5
75%
1,4,5
75%
1,4,5
100%
Classification
훈련데이터를 근거로 자료의 분류
훈련데이터 : Class-label 과 feature set으로 표현
지도학습(Supervised Learning)의 하나
동일분류에 동일한 예측, 동일한 대응
새로운 상황을 분류한 후 예비된 대응 조치
응용: Credit Approval, 의료 진단
예: 대출시 은행이익 및 지불능력에 따른 특정인의 대출 이자 결정
Decision Tree, 신경망, 통계적 결정론(logistic model, LDA, QDA)
2015-07-18
김진형@정보시스템세미나
14
Classification Example
나이 가족수 직업 월수입 기대출신용액
Classifier
Class 1
신용도 우량
2015-07-18
Class 2
신용도 보통
김진형@정보시스템세미나
Class 3
신용도 불량
15
Decision Tree Classifier
직업 ?
유
•
데이터로부터
Decision Tree 자
동생성 가능
•
ID3, CART,
C5.0
무
월수입
<200
>=200
나이>25
No
부양가족수
Yes
>=1
=0
기대출금
>=3000
<1000
우량
2015-07-18
>=1000
<3000
보통
김진형@정보시스템세미나
불량
16
Neural Network Classifier
생물체 신경세포들의 분산형 정보처리
모델
X
w
1
X2
.
.
.
Xn
1
w2
S
F(X1, X2, …, Xn)
wn
다수의 Neuron이 계층적으로 연결됨
학습 = 연결강도 조정
Error-back-propagation 지도학습알고리
2015-07-18
김진형@정보시스템세미나
17
즘
Neural Network Classifier
직업유무(1/0)
우량
나이
월수입
보통
부양가족수
불량
기대출금
Input
layer
2015-07-18
Hidden
layer
김진형@정보시스템세미나
Output
layer
18
Sequential Pattern
Discovery
Transaction 자료로부터 사건의 순서
발견
응용
우편판매업자의 판촉 전략 수립
신용카드 사고 예측
특정 질병의 진행 경과 예측, 대응
원자력 발전소 사고 발견, 대응
방법론
연관성 타사의 확장
2015-07-18
김진형@정보시스템세미나
Hidden Markov
Model for doubly
19
Sequential Pattern Example
Transaction Time
Customer
96-06-20 10:13 am
J.Kim
Juice, Coke
96-06-20 11:03 am
96-06-20 11:47 am
P.Jin
J.Kim
Whisky
Beer
96-06-20 02:32 pm
96-06-21 09:23 am
B.Mim
J.Kim
Beer
Wine, Water, Cider
96-06-21 03:19 pm
S.Moon
96-06-21 05:55 pm
B.Ahn
Beer
96-06-21 06:03 pm
B.Min
Wine, Cider
96-06-22 10:34 am
B.Ahn
Whisky
96-06-22 05:31 pm
B.Min
Whisky
2015-07-18
Items Bought
Beer, Gin, Cider
Sequential Pattern
in DataBase
Sequential Pattern with
Support > 40%
(Beer)(Whisky)
Supporting Customer
(Beer)(Wine,Cider)
J.Kim,B.Min
김진형@정보시스템세미나
B.Ahn,B.Min
20
Similar Time Series
14
Matching Curve
Found
12
10
8
Soda
6
4
14
2
12
0
10
8
Soda
6
Chips
4
2
0
2015-07-18
김진형@정보시스템세미나
21
Clustering(군집화)
개별 데이터들 간의 유사성을 측정하여 유사
한 자료를 같은 그룹으로 모음
“유사하다”는 정의가 중요함
Unsupervised Learning Algorithms
Symbolic, Neural Network based (Kohonen
Feature Map)
Statistical clustering 방법론
응용
2015-07-18
은행에서 고객의 군집화 - 다른 서비스 제공
고객의 지역적, 생활관습에 따른 차별 홍보전략
김진형@정보시스템세미나
22
Clustering Example
ID Sex 혼인 자녀 월수입
1 M
S
0
150
2 M
D
1
100
3 M
M
2
100
4 F
M
1
150
5 F
D
1
150
6 F
S
0
100
7 F
M
2
100
2015-07-18
ID Sex 혼인 자녀 월수입
1 M
S
0
150
6 F
S
0
100
ID Sex 혼인 자녀 월수입
2 M
D
1
100
4 F
M
1
150
5 F
D
1
150
ID Sex 혼인 자녀 월수입
3 M
M
2
100
7 F
M
2
100
김진형@정보시스템세미나
23
Symbolic Clustering
Similarity = 2 ID Sex 혼인 자녀 월수입
Similarity = 2
ID Sex 혼인 자녀 월수입
1 M
S
0
150
6 F
S
0
100
Diff=3
2
4
5
M
F
F
D
M
D
1
1
1
100
150
150
Diff=2.83
Diff=3
ID Sex 혼인 자녀 월수입 Similarity = 3
3 M
M
2
100
7 F
M
2
100
Total Score for this cluster partition = average similarity + average difference
= 2.33 + 2.94 = 5.27
2015-07-18
김진형@정보시스템세미나
24
Data Mining Interface
Interactive Mining
GUI를 통한 Task의 지정
Data Mining Query Language
find association rules
related to gpa, birth_place,
family_income
from student
where major = “CS” and birth_place =
“Seoul”
with support threshold = 0.05
2015-07-18
김진형@정보시스템세미나
with confidence
threshold = 0.7
25
Kohonen’s Feature Map
신경망을 이용한 군집화 방안
유사한 것들이 한곳에 모이도록 연결강도
조정
결과를 Feature Map이라고 함 : 군집화
결과
이웃관계 유지
Feature Map 상의 거리가 바로 Difference
연결강도의 조정 방법
2015-07-18
김진형@정보시스템세미나
1) 주어진 입력 X에 가장 잘 맞는 노드 N을 구
26
국내사례: 백화점 고객 세분(customer
segmentation)
현대정보기술 팀
백화점 고객 세분화가 목적
주 고객은 누구인가 ?
어떤 종류의 고객을 유치하면 매출이 증가하는가 ?
고객 그룹별 주요 상품은 무엇인가?
상품별 주요 고객 은 어떤그룹인가?
어떤 특성의 고객이 연체하는가 ?
기대 효과
2015-07-18
일률적 마켓팅전략(mass marketing)에서 부분적이고 차별
화된 마켓팅전략(personalization or target marketing)으로
전환
매출 증대, 비용감소, 연체 감소, 이익 증대
김진형@정보시스템세미나
27
백화점 고객 분류
Scoring기준표
신상정보
매출정보
고객분류
연체정보
우량
우수
보통
불량
매우불량
신용도 정보
각 그룹의 신용한도
2015-07-18
김진형@정보시스템세미나
28
백화점고객분류
시스템 Overview
통합고객 DB
Credit 신청자
연체정보
신상정보
매출정보
신용도정보
Decision Tree
신청자 분류
기존고객 분류
Scoring 기준표
고객 구룹별
Scoring
(Neural Network
Credit 등급 및
신용한도 설정
2015-07-18
김진형@정보시스템세미나
29
국내 사례 : 신용카드 사기검출
LG종합기술원
신용카드 사기거래의 효과적 검출
기존 신용카드 승인업무 시스템에 통합 운영
목표
사기거래의 특징 변수
거래속도, 거래금액, 가맹점 정보, 사용자 정
보
신경망 기법으로 Fraud Score 생성
2015-07-18
김진형@정보시스템세미나
30
1995년 LG신용카드 거래자료 14만건으
Data mining Tools
IBM Intelligent Miner
SAS E-miner
Splus Insightful
…
2015-07-18
김진형@정보시스템세미나
31
추가 정보
Mining Business Databases, Brachman, et al., CACM, Vol39,
No11, 1996
Mining Scientific Data, Fayyad, et al., CACM, Vol39, No11,
1996
Quest(IBM Almaden)
http://www.almaden.ibm.com/cs/quest
DBMiner(Simon Fraser Univ.)
http://db.cs.sfu.ca/DBMiner
KDD(GTE)
http://info.gte.com/~kdd/index.html
International Conference on Knowledge Discovery and Data
Mining
Advances in Knowledge Discovery and Data Mining, MIT
press, 1996
2015-07-18
김진형@정보시스템세미나
32
결론
대량의 자료 분석 ==> 정보, 지식의 자동 추
출
데이터베이스의 새로운 활용
새로운 통계분석방법의 필요성 증대
현장에서 쓰이는 솔루션 제공 수준에 도달
현재 많은 연구가 진행 중
다양한 형태로부터의 정보 추출 연구
Hot Research Item
2015-07-18
김진형@정보시스템세미나
33