Week 1. 강의소개 및 입문강좌 : 데이터웨어하우징, 데이터마이닝 [Download]

Download Report

Transcript Week 1. 강의소개 및 입문강좌 : 데이터웨어하우징, 데이터마이닝 [Download]

Introduction to Data Mining
Han-joon Kim
Introduction
data
information
knowledge
Introduction
Information
Knowledge
Shallow
knowledge
OLAP
knowledge
Hidden
knowledge
검색
분석/처리
탐사
SQL 질의
Data Warehousing
OLAP
Data Mining
Data
업무처리
의사결정
Introduction
정보/지식 생성을 위한
기술
Data Warehousing
OLAP
Data Mining
46
Data Mining

Knowledge Discovery in large
Databases




대량의 데이타로부터
이전에 알려지지는 않은,
묵시적이고,
잠재적으로 유용한 정보를 탐사하는 작업
Data Mining - 구매패턴의 발견

Data Mining - 구매패턴의 발견
추
천
Data Mining - 분류패턴의 발견
Data Mining - 자동문서분류
Automatic
Manual
Entertainment (Yahoo)
Comic&Animation
Movie&Film
Editorial
Cartoons
Comic
Books
Animatoin
Comic Strip
News&Media
FilmMaking
Film
Festival
Cartoonist
Review
Magna
History
Animated
Gifs
Magazine
Conventions
Magazine
Festival
Anime
Computer
Animation
Magazine
Screen
Short
Films
Writing
Data Mining Systems 의 사용
홍길동이
내년에 구입할
상품은
무엇인가?
(예측, 추천)
데이타마이닝시스템
홍길동이
금년에 구입한
상품은
무엇인가?
(검색)
분석시스템
DBMS
데이타베이스
(검색) 시스템
47
Data Mining을 통한 의사결정
패턴발견
빵과 과자를 사는 사람의 80%는 우유를 같이 산다
분유와 기저귀를 사는 사람의 74%는 맥주를 같이 산다
의사결정
맥주 소비는 분유와 기저귀 소비에 영향을 미침
빵과 과자 가격 인상은 우유 소비에 영향을 미침
업무적용
상품 진열대에 (빵, 과자, 우유), (분유, 기저귀, 맥주)를 같이 진열
우유 소비를 조절하기 위해 빵,과자 가격을 조정
Data Mining 방법론

Categorization
Learning
학습 데이터
Model
profitable common
Least
loyal
未知 데이터
Categorization

Clustering
Teenager
having a computer
Young urban
고객데이타 =
인구학적정보, 구매정보 등으로 표현
career women
Data Mining 방법론

Association Rules Mining
- 장바구니 분석
학습(Learning)의 원리
Pattern, Model
(Intelligence)
학습 데이터
profitable
common
未知 데이터
과거 데이타
미래 예측
Least
loyal
Data Mining 기술 분야
인공신경망 (Neural Networks)
 의사결정트리 (Decision Trees)
 통계적 방법론

– Bayesian Statistics
– Regression
유전 알고리즘
 퍼지이론
…

Data Mining: Decision Trees
High propensity
Data set
Low propensity
Age < 40
40%
60%
Income >
$40k
Family
10%
30%
21%
39%
Male
18%
12%
Time at
address > 5
10%
Income >
$65K
8%
23%
16%
Data Mining 응용분야

CRM (Customer Relationship Management,
고객관계관리)
– 우량 고객 유지
• 우량 고객 지역/상품특성 등 분석
– 이탈고객 분석
• 과거 이탈 고객의 정보를 학습하여 유사 특성을
보이는 고객을 특별 관리
– 잠재 고객 발굴
• 기존 고객의 모습과 비슷한 모습을 갖고 있는
고객 그룹을 인식
Data Mining 응용분야

eCRM
– 개인화 (추천)
• 맞춤페이지: 선호 상품, 선호 정보 push
– 개인화 (마케팅)
• 맞춤광고
– Event detection
• 구매패턴 변화 감지
맞춤 영역
Data Mining 응용사례

고객불만/문의
콜센터
고객대응
음성인식
자동안내
Data Mining 응용사례

산불예방
Data Mining 응용분야




Retail/Marketing
• 구매자의 성향, 구매패턴, 성향들사이의 관계 등을 판독
• shelf planning, supermarket inventory planning 등에 활용
Banking
• 위조 신용카드사용의 패턴을 추적
• "loyal" 고객을 identify
• 신용카드 가입을 변경시킬 것으로 판단되는 고객을 미리 에측
• 여러 가지 재정 지표들간의 숨겨진 상관관계 판독
Insurance
• Claim Analysis
• 새로운 상품에 대한 고객 수요 예측
• risky customer의 행동 패턴을 identify
• 위조행위를 identify
Medicine
• 환자 history 데이타의 분석
• 성공적인 의료 요법을 identify하는데 이용
• 특정 환자에 대한 수술 여부 판단
Data Mining 응용분야

화학/약학 정보 데이타 관리
• 새로운 화학 구조식의 발견, 새로운 촉매의 발견

석유 탐사
• 석유의 품질에 관한 정보와 지형 데이타상에서 DM
• 석유 생산량과 석유의 품질 예측
정보시스템의 목표
홍길동이
내년에 구입할
상품은
무엇인가?
(예측, 추천)
지식탐사시스템
홍길동이
금년에 구입한
상품은
무엇인가?
(검색)
분석시스템
DBMS
데이타베이스
(검색) 시스템
Intelligent Information Systems
결론

Data Mining: 최신 데이터 가공 방법
–
–
–
–

Text and Web Mining
Multimedia Data Mining
Bioinformatics: 유전, 단백질 데이타
Stream Data Mining: 웹로그 데이타
Data Mining Systems 개발
– 데이타베이스 시스템과 연동