군집분석

Download Report

Transcript 군집분석

군집분석
4과목 데이터 분석
제 4 장 정형데이터 마이닝
제4절
정훈기
군집분석이란?
• 데이터마이닝 중 한 이론
• 특성(변수)에 따라 데이터의 패턴이나 규
칙을 통해 여러 개의 집단으로 나누는 분
석
클러스터의 정의에 따른 군집 분석
모델의 종류
• Connectivity models : Hierarchical
clustering
• Centriod models : K-Means algorithm
• Distribution models
• Density Models : DBSCAN
• Subspace models
• Group models
• Graph-based models
군집 분석의 집단을 나누는 방법에
따른 분류
• 전통적 군집분석 : 고객등급과 고객 구분의
두 변수로 나누기, 같은 통념적인(주관적인)
기준으로 군집을 나눔.
• 계층적 군집방법 : 고정된 초기값, 객관적 기
준(거리의 측정방법 정의), 군집구성에 대한
정의
• 비계층적 군집방법 : 사전정보 없이 의미있는
자료구조 발견, 다양한 형태의 데이터에 적용
가능, 분석방법의 적용 용이
K-MEANS Algorithm
• 실행하기 이전에 k 를 명시해야 하며 k개의 군집을 뜻
함.
• 목적 : 각 군집 내에 있는 데이터의 차이를 최소화하고,
군집간의 차이는 최대로 만듬.
• 2단계로 나뉨
– 1 단계 ; 최초 k 개 군집에 예제를 지정하고 현재 군집에
속해 있는 예제에 따라 군집의 경계를 조절해 지점을 변경
함.
– 2단계 군집의 적합화가 더 이상 향상되지 않을 때 까지 지
점 변경이 몇 번 일어남. 더 이상 변경되지 않으면 멈춤.
초기 군집 지정
• 군집의 초기중앙을 선택하는 방법
– 속성공간에서 임의의 점을 선택하는 방법(데
이터의 값을 선택하기보다)
– 각 예제를 군집으로 무작위로 지정하고, 알고
리즘은 변경단계로 바로 진행하는 방법(결과
조절될 수 있게 최종 군집에 특정 편향 줌)
새로운 예제 투입
• 새로운 예제가 들어올 때 거리 함수(맨하튼, 유클리디
안 등)에 따라 가장 가깝거나 유사한 군집 중앙으로 지
정됨
• 유클리디안 거리 공식
• 주의! : 거리함수를 사용하기 때문에 모든 데이터(변수
값)에 결측값이 없어야 함
• 범위를 위해 정규화 필요
변경단계
• 새로운 row (case, observation)가 들어오면 현재 군집
에 지정된 점들의 평균인 중앙점이라는 새로운 지점으
로 초기 중앙을 옮김
• 새롭게 옮겨진 중앙에 따라 군집경계가 조정되고 예제
들이 군집에서 다른 군집으로 이동하는 상황이 나옴
• 다시 군집의 평균값 계산, 군집경계조정, 예제이동…..
• 더 이상 군집경계가 재조정 안될때 까지 반복
군집의 적당한 개수 선택
• 무작위로 선택된 군집 중앙에 매우 영향을
받음
• K값이 무작정 크면 좋을까?
• k 평균 군집개수를 찾는 엘보우 기법이라
는 통계적 기법이 있음
K-means 알고리즘의 장단점
• 장점
– 통계용어 없이 설명 할 수 있게 군집 식별에 대한 간단한 원리를 사용
– 매우 유연하며 간단한 수정으로 결점을 극복하게 적용할 수 있음
– 효율적이고 데이터를 유용한 군집으로 나눈다.
• 단점
– 최근 군집화 알고리즘 보다 덜 세련되다.
– 무작위 초기화 때문에 최적의 군집을 찾지 못할 수도 있다.
– 데이터에서 얼마나 군집이 생성될 수 있을지 합리적인 추측이 필요하다.
최신 분석 기법들
•
•
•
•
•
•
K-means++
K-median
K-medoid
Fuzzy clustering
Density based clustering(DBSCAN)
PAM