빅데이터 솔루션 도입배경 3. N사 빅데이터 솔루션 적용 사례

Download Report

Transcript 빅데이터 솔루션 도입배경 3. N사 빅데이터 솔루션 적용 사례

BIWORLD
빅데이터 솔루션 도입방안
2012. 06. 29(fri)
BIWORLD 운영자 김기선
SHARE THE KNOWLEDGE
CopyLeft © 2012 BIWORLD
목차
1.빅데이터 솔루션 하둡의 특징
2.건강보험 심사평가원 Fraud Detection
3.N사 빅데이터 솔루션 적용 사례
4.리테일 POS Data 분석
5.통신사 이탈방지 캠페인
6.마치면서 Q&A
1 / 20
BI WORLD
1.빅데이터 솔루션 하둡의 특징
適材適所 [ 적재적소 ]
Hadoop
-
처리 해야할 데이터의 볼륨이 아주 크고 반복적인 계산을 수행해야 하는 경우에 적합
-
시간이 오래 걸리는 배치처리 <> 실시간과는 거리가 있음
적용유형
비정형 SNS data 분석
적용분야
Opinion mining – 마케팅 부서
고객반응 분석 // 여론을 통한 위험 감지
대용량의 로그파일 / 데이터 파일
Web log 분석, CDR분석, 이탈분석, 추천엔진
전체를 뒤져야 하는 분석
연구실(생명공학, 유전자 패턴연구), 온라인게임
RDBMS 시스템에서 Crude data(raw data)
대규모 retail이나 openmarket
Handling
Portal, 심화된 분석
파일 보관용 대량 Storage
정부기관 기록 및 보존연한이 긴 자료 보관
2 / 20
BI WORLD
1.빅데이터 솔루션 하둡의 특징
하둡의 데이터 처리 절차
하둡의 데이터 처리 절차
1. HDFS에 파일을 위치시킨다.(File system file, RDBMS / 정형 or 비정형)
2. 파싱(parsing)
3. 반복계산
4. 결과 도출
HDFS 파일위치
반복계산
reduce
파싱(parsing)
mapping
결과도출
3 / 20
BI WORLD
2.건강보험 심사평가원
방대한 데이터
의료기관에서 진료를 받았을 때
의료기관은 총 진료비의 일부를 환자에게 받고,
나머지는 건강보험심사평가원에 청구를 합니다.
4 / 20
BI WORLD
2.건강보험 심사평가원
진료비 부당청구 탐지
Fraud detection
진료내용
및
진료/약제비 청구
다양한
알고리즘 적용
심평원 DW
5 / 20
Multiple
Algorithm
Hadoop
BI WORLD
3. N사 빅데이터 솔루션 적용 사례
N사-빅데이터 솔루션 도입배경
전체 20T
A-DBMS
A-DBMS
B-DBMS
B-DBMS
C-DMBS
C-DMBS
Backup DB(mirroring DB)
LOG Table
▶요구사항 1: 기존의 로그 데이터를 활용하여 지표를 추출.
- 요구사항 1-1: 지표 추출 주기는 최소 1일 1회.
▶요구사항 2: 추출된 지표는 OLTP 환경으로 서비스.
- 요구사항 2-1: 기존에 사용하던 시스템에 추가 조회 기능으로 추가.
6 / 20
BI WORLD
3. N사 빅데이터 솔루션 적용 사례
N사-빅데이터 솔루션 도입배경
지표분석
적은양의 데이터 : Hadoop Standalone
Hadoop 3datanode : 1000만건부터
지표저장
7 / 20
BI WORLD
3. N사 빅데이터 솔루션 적용 사례
N사-빅데이터 솔루션 도입배경
완성 시스템 구조 :
대용량분석/지표데이터 확장 고려
Hadoop + MongoDB
Mongo Cluster
Hadoop Cluster
DB
HDFS
Name
Node
DB
ETL
Data
node
DB
DB
Data
node
2nd
Name
Node
TR
APP
L4
SW
Data
node
8 / 20
BI WORLD
4. 리테일 POS Data 분석
DW 구조도
마케팅총괄팀
DW
사업부마케팅팀
Source 1
Load Balancing
EIS
본부사용자
점포사용자
OLAP
Source 2
Datawarehouse
Mining
Source 3
정해진 DW 용량 때문에 데이터 보관주기를 정하고
과거 데이터는 백업해서 DW 공간을 비운다.
9 / 20
BI WORLD
4. 리테일 POS Data 분석
Transaction Data (Pos data)
POS 핵심 데이터
판매아이템
최초사업장코드
영업일자
포스번호
판매일련번호
상품등록일련번호
사업장코드
판매구분
상품입력구분
정산관리코드
중분류코드
소분류코드
상품코드
…
…
영수증
최초사업장코드
영업일자
포스번호
판매일련번호
사업장코드
판매시작일시
판매종료일시
영수증번호
거래구분
원영업일자
원포스번호
원영수증번호
…
…
결재관련
최초사업장코드
영업일자
포스번호
판매일련번호
결제일련번호
사업장코드
결제코드
결제금액
잔돈
정상취소구분
카드번호
카드거래승인번호
…
…
S/C 운영계 시스템
일자
10 / 20
점포
단품
판매량
BI WORLD
4. 리테일 POS Data 분석
BIG DATA 솔루션 적용
DW
일자
S/C 운영계
점포
단품
집계과정
전문집계 DB
판매량
DW
Mining
Algorithm
파일로 쌓음
Crude data
Raw data
11 / 20
Hadoop
BI WORLD
5. 통신사 이탈방지 캠페인
CDR(Call Detail Record) format
활동로그
CDR
CDR
Hadoop
CDR
하둡을 통한
Drop call(통화중 끊김)
Counting
12 / 20
BI WORLD
6. Q & A
Q&A
감사합니다.
13 / 20
BI WORLD