데이터 마이닝

Download Report

Transcript 데이터 마이닝

지식정보처리 및 응용
09. 데이터마이닝 기법과 응용
동아대학교 산업경영공학과
김준우
Kim Jun Woo
지식정보처리및응용
‹#›
데이터 마이닝

데이터 마이닝 (Data Mining)
– 데이터에 숨겨진 유용한 지식, 규칙, 패턴을 탐사


방대한 양의 데이터
자동 또는 반자동화된 분석 방법
MINING
DATA
Pattern,
Information,
Knowledge
분류 위한 판정 방법 : 의사결정나무
유사한 레코드끼리의 군집 : k-means
Kim Jun Woo
지식정보처리및응용
‹#›
데이터 마이닝

데이터 마이닝 분석 대상
– 데이터


필드와 레코드로 구성
ID
F1
F2
F3
F4
F5
1
…
…
…
…
…
2
…
…
…
…
…
3
…
…
…
…
…
데이터 마이닝 분석 종류
– 교사 학습


Target 필드(속성) 의 값 추정 방법 도출
미래 데이터 target 값 추정에 활용
– 비교사 학습

Kim Jun Woo
데이터의 특성 묘사, 값 추정 없음
지식정보처리및응용
‹#›
데이터 마이닝

교사 학습 (supervised learning)
– 분류 (classification)

Target 속성 범주형
ID
F1
F2
F3
F4
F5
Target
1
…
…
…
…
…
O
2
…
…
…
…
…
X
3
…
…
…
…
…
O

의사결정나무, 규칙기반분류기, 베이즈분류기, 지지도벡터기계 등
– 예측 (forecasting)

Target 속성 수치형
ID
F1
F2
F3
F4
F5
Target
1
…
…
…
…
…
3.25
2
…
…
…
…
…
1.70
3
…
…
…
…
…
4.55

Kim Jun Woo
인공신경망, 회귀분석 등
지식정보처리및응용
‹#›
데이터 마이닝

비교사 학습 (unsupervised learning)
– 군집 (clustering)


유사한 레코드끼리 집단 형성
K-means, 계층형 군집, DBSCAN 등
연관 분석
– 연관 (association)


Kim Jun Woo
필드 간 인과관계 분석
Apriori, 시퀀스 마이닝 등
F3=O 일 때, F5=X
가 되는 경향 존재
군집 분석
ID
F1
F2
F3
F4
F5
1
…
…
…
…
…
2
…
…
…
…
…
3
…
…
…
…
…
4
…
…
…
…
…
5
…
…
…
…
…
6
…
…
…
…
…
7
…
…
…
…
…
지식정보처리및응용
군집 1
군집 2
‹#›
데이터 마이닝

데이터 마이닝 기법의 활용
– 다양한 분야, 산업에서 활용



제조업
서비스업
IT 업종 등
– 적절한 데이터의 정의 및 수집 필요

Kim Jun Woo
다양한 사례들을 묘사하는 필드, target 속성 등의 정의 필요
지식정보처리및응용
‹#›
영상 데이터 분석

데이터 마이닝 활용 예)
– 영상 데이터를 이용한 무인 자동차
전방 영상 인식
조향 장치 조작
엑셀, 브레이크 조작
– 장치 조작 규칙 필요



Kim Jun Woo
예) 전방 상황이 … 일 때, 조향 장치 좌측 15도
예) 전방 상황이 … 일 때, 조향 장치 0도 (직진)
예) 전방 상황이 … 일 때, 조향 장치 우측 5도
지식정보처리및응용
‹#›
영상 데이터 분석

데이터 마이닝 활용 예)
– 무인 자동차 조향 장치 조작 규칙 도출


인간의 운전 통해 데이터 수집
인간의 운전 데이터에 숨겨진 패턴, 규칙 추출하여 차량에 탑재
전방 영상 인식
전방 영상 정보
인간의 조작 내용
데이터 어떻게 구성, 표현할 것인가?
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

무인 자동차
– 인간의 운전 데이터


전방 영상 : 도로인 부분, 그렇지 않은 부분 나누어 표현
예) 전방 영상을 5X5 영역으로 표현
전방 영상
영역 별 표현
데이터 형식 표현 ( Fij : i 행 j 열 영역 도로 여부 )
F11 F12 F13 F14 F15 F21 F22 F23 F24 F25 F31 F32 F33 F34 F35 F41 F42 F43 F44 F45 F51 F52 F53 F54 F55
X X X X X X X X X O X X X O O X X O O O X X O O X
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

무인 자동차
– 학습 데이터 (training set, 과거 데이터) 레코드 구성


전방 영상 데이터 + 인간 운전자의 조작
예) 조향 각도 : 좌측(-), 직진(0), 우측(+)
전방 영상
영역 별 표현
해당 상황에서 인간의 조향 장치 조작
우측 15도
F11 F12 F13 F14 F15 F21 F22 F23 F24 F25 F31 F32 F33 F34 F35 F41 F42 F43 F44 F45 F51 F52 F53 F54 F55 조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15
학습 데이터 레코드
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

무인 자동차
– 학습 데이터 축적


장기간 인간 운전자 조종 데이터 수집
예)
영역 별 표현
영역 별 표현
영역 별 표현
…
우측 15도
0도
좌측 5도
학습 데이터
F11 F12 F13 F14 F15 F21 F22 F23 F24 F25 F31 F32 F33 F34 F35 F41 F42 F43 F44 F45 F51 F52 F53 F54 F55 조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15
X O O O X X O O O X X O O O X X O O O X X O O O X 0
O O O X X X O O O X X O O O X X O O O X X O O O X -5
… … … … … … … … … … … … … … … … … … … … … … … … … …
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

무인 자동차
– 패턴 및 규칙의 추출


데이터에 숨겨진 지식 추출
예) 수치형 target 의 추정 방법 필요 : 인공 신경망 등
학습 데이터
F11 F12 F13 F14 F15 F21 F22 F23 F24 F25 F31 F32 F33 F34 F35 F41 F42 F43 F44 F45 F51 F52 F53 F54 F55 조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15
X O O O X X O O O X X O O O X X O O O X X O O O X 0
O O O X X X O O O X X O O O X X O O O X X O O O X -5
… … … … … … … … … … … … … … … … … … … … … … … … … …
인공신경망 : 전방 상황에 따른 조향 각도 결정 규칙
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

무인 자동차
– 패턴 및 규칙의 활용



조향 각도 결정 규칙 : 미래 데이터 target 결정에 활용 가능
시스템 탑재하여 활용
예) 무인 자동차의 주행
데이터 변환, 입력
전방 영상 정보
조향 각도 산출
조작 / 제어
Kim Jun Woo
지식정보처리및응용
‹#›
영상 데이터 분석

기타 영상 데이터에서 추출한 패턴 및 규칙 응용 예)
– 필기 문자 인식
문자 영상
영역 별 표현
target
A
A
– 제품의 분류

Kim Jun Woo
예) 수산물 영상 통해 자동 분류 등
지식정보처리및응용
‹#›
설문 데이터

설문 데이터의 구성
– 설문 문항의 구성

적절한 구조화 바람직
– 1) 인구통계 정보 (socio-demography)

성별, 나이, 직업, 주소, 학력, 소득 등
– 2) 주제 관련 세부 문항

영역별로 구성
– 3) target 에 해당하는 문항


Kim Jun Woo
종합적인 척도
예) 마케팅 분야 종합 척도 : 재구매 의사, 추천 의사, 전반적 만족도
지식정보처리및응용
‹#›
설문 데이터

설문 데이터의 구성
– 예) 보험회사 설문 데이터 구성

고객 만족도 조사
인구 통계 문항
1.
귀하의 성별은?
( 남, 여 )
2.
귀하의 연령대는?
(10대, 20대, 30대, 40대, 50대, 60이상)
3.
귀하의 직업은?
(회사원, 자영업, 전문직, 공무원, 기타)
4.
귀하의 연 소득 수준은? ( 2000이하, 2-3000, 3-4000, 4-5000, 5-6000, 6000이상)
5.
귀하의 결혼 상태는? ( 미혼, 기혼, 이혼 )
6.
자녀는 몇 명입니까? ( 0, 1, 2, 3이상 )
Kim Jun Woo
지식정보처리및응용
‹#›
설문 데이터

설문 데이터의 구성
– 예) 보험회사 설문 데이터 구성

고객 만족도 조사
주제 관련 문항
A. 가입 절차 관련
A-1) 가입 경로는 무엇입니까? ( 영업 사원, 인터넷, 전화, 기타 )
A-2) 가입 당시 상담원은 친절했습니까? ( 1 2 3 4 5 )
A-3) 가입 당시 충분한 설명을 들었습니까? ( 1 2 3 4 5 )
A-4) 가입 절차가 편리했습니까? ( 1 2 3 4 5 )
A-5) 가입과 관련된 정보를 찾기가 쉬웠습니까? ( 1 2 3 4 5 )
B. 상품 관련
B-1) 상품 선택 동기는 무엇입니까? ( 영업 사원, 지인, 인터넷, 기타 )
B-2) 상품 설명이 알기 쉬웠습니까? ( 1 2 3 4 5 )
B-3) 상품에 대한 정보를 쉽게 얻을 수 있었습니까? ( 1 2 3 4 5 )
B-4) 상품의 보장 범위에 만족하십니까? ( 1 2 3 4 5 )
C. 요금 납부 관련
C-1) 어떻게 요금을 납부하고 있습니까? (지로, 이체, 신용카드, 기타)
C-2) 요금 납입액이 적정합니까? ( 1 2 3 4 5 )
C-3) 요금 납부 방법이 편리합니까? ( 1 2 3 4 5 )
C-4) 요금 납부와 관련된 정보를 찾기 쉽습니까? ( 1 2 3 4 5 )
D. 보험금 신청 관련
D-1) 보험금을 신청해본 적이 있습니까? ( 예, 아니오 )
D-2) 보험금 신청 절차가 편리했습니까? ( 1 2 3 4 5 )
D-3) 보험금 처리 직원의 응대는 친절했습니까? ( 1 2 3 4 5 )
D-4) 보험금 산정 액수는 만족스러웠습니까? ( 1 2 3 4 5 )
D-5) 보험금 수령까지 소요 기간은 적당합니까? ( 1 2 3 4 5 )
…
Kim Jun Woo
지식정보처리및응용
‹#›
설문 데이터

설문 데이터의 구성
– 예) 보험회사 설문 데이터 구성

고객 만족도 조사
Target 문항
1.
OO 보험사의 다른 상품에도 가입하실 의향이 있습니까? ( 1 2 3 4 5 )
2.
OO 보험사의 상품을 지인에게 추천하실 의향이 있습니까? ( 1 2 3 4 5 )
3.
OO 보험사에 대해 전반적으로 만족하십니까? ( 1 2 3 4 5 )
Kim Jun Woo
지식정보처리및응용
‹#›
설문 데이터

설문 데이터와 데이터마이닝 기법
– 응답자 군집


일반적으로 인구 통계 문항 이용하여 수행
인구 통계 특성이 비슷한 응답자끼리 군집 형성
전체 응답자
군집 1
군집 2
군집 3
연령, 직업, 성별 등이 유사한 응답자끼리 군집
유사한 성향 공유할 가능성 높음
Kim Jun Woo
지식정보처리및응용
‹#›
설문 데이터

설문 데이터와 데이터마이닝 기법
– Target 문항 추정을 위한 분류/예측 모형 생성



주제 관련 문항 : 일반 필드로 사용
Target 문항 : target 속성으로 사용
예) 재구매 의사를 target 으로 하는 의사결정나무
보험금 신청 절차
>= 4
높은 재구매
의사
<4
상품의 보장 범위
>= 3
높은 재구매
의사
Kim Jun Woo
중요 항목 선별 통한 고객
만족도 증진
<3
기업 성과 개선 전략 수립
낮은 재구매
의사
지식정보처리및응용
‹#›
참고 자료

참고 문헌
저자
제목
출처
김훈태, 정재윤, 강석호
(2003)
생산재고 정책수립을 위한 다품종모델 군집화의 실증적 분
석
2003 한국경영과학회/대한산
업공학회 춘계공동학술대회
신원경, 박민용 (2010)
라이프스타일에 의한 노인 사용자 그룹별 UI 품질 함수화
대한인간공학회 2010 추계 학
술대회
곽주은, 김창욱 (2013)
공정이상 진단을 위한 적응형 군집 기반 k-nearest neighbor
알고리즘
2013 한국경영과학회/대한산
업공학회 춘계공동학술대회
Data Mining in Manufacturing: A Review
Journal of Manufacturing
Science and Engineering
Harding, J.A., Shahbaz, M.,
Srinvas, S. and Kusiak, A.
(2006)
Kim Jun Woo
지식정보처리및응용
‹#›