Transcript [Download]

University of Seoul
Data Mining: A Closer Look
2008. 3. 27
데이터베이스 연구실
이 상환
University of Seoul
Contents





2.1
2.2
2.3
2.4
2.5
Data Mining Strategies
Supervised Data Mining Techniques
Association Rules
Clustering Techniques
Evaluating Performance
DATABASE LABORATORY
2
I. Data Mining Strategies(1)
University of Seoul
 supervised
 Supervised 학습은 입력 어트리뷰트를 사용하여 출력 어트리뷰트
의 값을 예측하는 모델을 만드는 것
 대부분 데이터 마이닝 알고리즘에서는 단일 출력 어트리뷰트만을
사용
 출력변수는 종속 변수, 입력 어트리뷰트는 독립변수라고 부름
-> 결과 값이 입력 어트리뷰트의 값에 따라서 결정되기 때문
 unsupervised
 모든 어트리뷰트들은 독립변수
 결과 어트리뷰트가 없기 때문
DATABASE LABORATORY
3
University of Seoul
I. Data Mining Strategies(1)
Supervised 학습전략은
- 출력 어트리뷰트들이 이산형인지 범주형인지에 따라서
- 만들어진 모델이 현재 조건, 장래 결과에 대한 예측을 위한 것인지
좀 더 세분화 된다.
Data Mining
Strategies
Unsupervised
Clustering
Supervised
Learning
Market Basket
Analysis
Classification
Estimation
Prediction
DATABASE LABORATORY
4
I. Data Mining Strategies - Classification
University of Seoul
 가장 잘 알려진 데이터 마이닝 전략
 특징
 Supervised로 학습
 종속 변수는 범주형이다
 새로운 인스턴스들이 결과 클래스들 중의 하나로
분류하는 모델을 만드는 것
 Classification 예





심근경색을 앓고 있는 사람과 그렇지 않은 사람 구별
성공한 사람 프로파일을 만듬
신용카드 부정사용 여부를 판단
자동차 대출 신청자 신용 위험정도의 좋고 나쁨을 분류
뇌경색 환자 중에서 남자와 여자를 구별하는 프로파일 만듬
DATABASE LABORATORY
5
I. Data Mining Strategies -
Estimation
University of Seoul
 추정 모델은 입력된 새로운 인스턴스에 대한 결과 어트리
뷰트의 값을 알아내고자 하는 것
 출력 어트리뷰트는 범주형이 아닌 수치 값을 가짐
 Estimation 예




천둥번개가 주어진 곳까지 도달하는 시간 추정
스포츠카를 소유하고 있는 사람의 연봉 추정
신용카드의 도난 가능성 추정
감마선 폭발체의 길이 추정
DATABASE LABORATORY
6
I. Data Mining Strategies -
Prediction
University of Seoul
 예측은 개념적으로 분류 또는 추정과 유사하지만 예측 모
델은 현재 행위가 아닌 미래에 일어날 결과를 결정
 예측 모델의 출력 어트리뷰트는 범주형, 수치형
 Prediction 예




2002 NFL 시즌에 NFL 러닝백이 터치 다운할 총 개수 예측
신용카드 고객이 카드 영수증에 동봉된 특별 오퍼 이용여부 예측
다우존스 산업평균의 다음 주 종가 예측
전화가입자가 다음 세달 동안에 전화회사를 다른 곳으로 변경할
가능성 예측
 분류나 추정 문제에 사용되는 대부분의 supervised 데이
터 마이닝 기법들은 예측 모델을 만드는 데도 사용
 분류, 추정, 또는 예측중 적절성 여부는 데이터 성격에 결정
DATABASE LABORATORY
7
I. Data Mining Strategies -
Prediction
University of Seoul
303명의 의료 기록중
에서 심장병을 겪고
있는 환자들의 정보
DATABASE LABORATORY
8
I. Data Mining Strategies -
IF 169 <= Maximum Heart Rate <=202
THEN Concept Class = Healthy
Rule accuracy: 85.07%
Rule coverage: 34.55%
Prediction
University of Seoul
IF Thal = Rev & Chest Pain Type = Asymptomatic
THEN Concept Class = Sick
Rule accuracy: 91.14%
Rule coverage: 52.17%
DATABASE LABORATORY
9
I. Data Mining Strategies -
Prediction
IF 169 <= Maximum Heart Rate <=202
THEN Concept Class = Healthy
Rule accuracy: 85.07%
Rule coverage: 34.55%
University of Seoul
분류 | 예측
 예측 규칙으로 사용한다면
 당신의 최고 심장 박동 수를 정기적으로 검사
 만약 그것이 떨어진다면 심장마비 위험이 있을 수 있음
 분류로 사용한다면
 경고 2: 만약 당신이 심장마비를 앓고 있다면, 당신의 최고 심장박
동 수는 감소할 것임
 경고 3: 최고 심장 박동 수 때문에 심장마비가 유발될 수 있음
DATABASE LABORATORY
10
I. Data Mining Strategies -
University of Seoul
Unsupervised Clustering
 Unsupervised 클러스터링에서는 학습과정을 이끌어 갈 종속 변수가
없음
 학습 프로그램은 클러스터가 적절히 만들어졌는지를 측정할 수 있는
척도를 사용하여 인스턴스들을 두 개 이상의 그룹으로 그룹화시킴으
로써 지식구조를 만듬
 목적 : 데이터에 들어 있는 개념구조를 발견
 Unsupervised 클러스터링 예
 데이터에 존재하는 의미 있는 관계가 개념의 형태로 찾아질 수 있는지를
판단
 Supervised 학습자 모델의 성능 평가
 Supervised 학습에서 사용할 가장 적합한 입력 어트리뷰트들을 판단
 이상치(outlier)를 판단
 Unsupervised 클러스터링은 또한 데이터에 들어 있을지도 모르는 비
대표적인, 즉 관계없는 인스턴스를 찾는데 사용함 : 이상치(outlier)
 통계적 방법에서는 주로 Outliers를 없앰. 데이터 마이닝에서는 이상치들
을 찾아냄(신용카드 부정사용)
DATABASE LABORATORY
11
I. Data Mining Strategies –
University of Seoul
Market Basket Analysis
 목적 : 소매상품들간의 흥미로운 관계를 찾고자 함
 프로모션을 설계하거나 상품을 진열, 크로스 마케팅 전략에 활용
 연관규칙 알고리즘 : 장바구니 분석
DATABASE LABORATORY
12
University of Seoul
2.2 Supervised Data Mining Techniques
Acme 신용카드 회사의 신용카드를 가지고 있는 15명의 가상 데이터
DATABASE LABORATORY
13
2.2 Supervised Data Mining Techniques
- Production Rules
University of Seoul
 supervised 데이터 마이닝 사용
 출력 어트리뷰트로는 life insurance promotion을 선택
 목적: 다음 번 신용카드 청구서와 함께 보낼 생명보험 프
로모션을 선택할 가능성이 높은 사람들의 프로파일 만드
는것
 가설
 하나 혹은 그 이상의 데이터 셋 어트리뷰트들의 조합이 생명보험
프로모션을 선택할 사람과 그렇지 않을 사람을 구별
 가설은 현재 상태의 관점이지만 만들어지는 규칙에 따라서 분류,
예측으로 사용할지를 결정
DATABASE LABORATORY
14
2.2 Supervised Data Mining Techniques
- Production Rules
신규고객
(예측)
University of Seoul
1. IF Sex = Female & 19 <= Age <= 43
THEN Life Insurance Promotion = Yes
Rule Accuracy: 100.00%
Rule Coverage: 66.67%
여성의 3분의 2가
프로모션 선택은
너무 낙관적임
2. IF Sex = Male & Income Range = 40-50K
THEN Life Insurance Promotion = No
Rule Accuracy: 100.00%
Rule Coverage: 50.00%
연봉 40-50K 남자는
생명보험 프로모션에
좋지 않은 후보
3. IF Credit Card Insurance = Yes
THEN Life Insurance Promotion = Yes
Rule Accuracy: 100.00%
Rule Coverage: 33.33%
4. IF Income Range = 30-40K & Watch Promotion = Yes
THEN Life Insurance Promotion = Yes
Rule Accuracy: 100.00%
Rule Coverage: 33.33%
DATABASE LABORATORY
카드 발급시 선택여부를
묻기 때문에 유용함
신규고객 분류로 사용
15
2.2 Supervised Data Mining Techniques
- Neural Networks
University of Seoul
 인간의 뇌 기능을 흉내 내도록 설계
 supervised 학습은 물론 unsupervised 클러스터링에도 사용
 어떠한 경우에도 신경망의 입력은 수치값
 전방향(feed-forward) 신경망은 가장 많이 사용되는 supervised 학습자 모델
 신경망 동작 원리
 첫 번째는 학습단계 : 정해진 만큼의 iterration이나 혹은 네트워크가 미리 지정된 최소 에러율
에 도달하면 training은 멈춤
 두 번째 단계 : 네트워크 가중치 값들이 수정되고 그 네트워크는 새로운 인스턴스에 대한 출력
값을 다시 계산함
Input
Hidden
Output
 단점
Layer
Layer
Layer
 학습된 것에 대한 설명력이 부족
 범주형 데이터를 수치형 데이터로
변환 하는 것
DATABASE LABORATORY
16
2.2 Supervised Data Mining Techniques
- Neural Networks
DATABASE LABORATORY
University of Seoul
17
2.2 Supervised Data Mining Techniques
- Statistical Regression
University of Seoul
 통계적 회귀분석은 하난 이상의 입력 어트리뷰트들을 하나의 출력 어트리뷰트에
연결하는 수학공식을 만들어서 수치 데이터 집합을 일반화 시키는 supervised 학습
기법
Life insurance promotion =
0.5909 (credit card insurance)
- 0.5455 (sex) + 0.7727
생명보험 프로모션은 ‘신용카드 값’과 ‘성별’
이라는 두 어트리뷰트들의 선형 조합에 의해
결정
Example
Life insurance promotion =
0.5909 (0) - 0.5455 (0) + 0.7727
값이 0.7727이 1에 가까우므로 프로모션을
선택할 가능성이 높음
DATABASE LABORATORY
18
2.3 Supervised Data Mining Techniques
- Association Rules
University of Seoul
 연관규칙 마이닝 기법은 데이터베이스에 있는 어트리뷰트들간의 흥미 있는
연관성을 발견하는 데 사용
 하나 혹은 하나 이상의 출력 어트리뷰트들을 가질 수 있음
 어떤 규칙에서는 출력 어트리뷰트들이지만 다른 규칙에서는 입력 어트리뷰트들
로 사용될 수 있음
 장바구니 분석에서 가장 인기 있는 기법 : 잠재적으로 관심 있는 상품들의 모
든 가능한 그룹 조합을 탐색할 수 있기 때문
 Apriori 알고리즘(Agrawal et al, 1993) 적용하였으며, Apriori 알고리즘은 수치
데이터는 처리하지 않음
 연관규칙 문제점
 잠재적으로 가치 있는 규칙도 발견하지만 그렇지 못한 규칙들도 나올 수 있음
1. IF Sex = Female & Age = over40 & Credit Card Insurance = No
THEN Life Insurance Promotion = Yes
2. IF Sex = Male & Age = over40 & Credit Card Insurance = No
THEN Life Insurance Promotion = No
정확도 100%
적용범위 20%
3번 규칙 결과 어트리뷰트 2개
3. IF Sex = Female & Age = over40
THEN Credit Card Insurance = No & Life Insurance Promotion =
Yes
DATABASE LABORATORY
19