Transcript 군집분석
군집분석 4과목 데이터 분석 제 4 장 정형데이터 마이닝 제4절 정훈기 군집분석이란? • 데이터마이닝 중 한 이론 • 특성(변수)에 따라 데이터의 패턴이나 규 칙을 통해 여러 개의 집단으로 나누는 분 석 클러스터의 정의에 따른 군집 분석 모델의 종류 • Connectivity models : Hierarchical clustering • Centriod models : K-Means algorithm • Distribution models • Density Models : DBSCAN • Subspace models • Group models • Graph-based models 군집 분석의 집단을 나누는 방법에 따른 분류 • 전통적 군집분석 : 고객등급과 고객 구분의 두 변수로 나누기, 같은 통념적인(주관적인) 기준으로 군집을 나눔. • 계층적 군집방법 : 고정된 초기값, 객관적 기 준(거리의 측정방법 정의), 군집구성에 대한 정의 • 비계층적 군집방법 : 사전정보 없이 의미있는 자료구조 발견, 다양한 형태의 데이터에 적용 가능, 분석방법의 적용 용이 K-MEANS Algorithm • 실행하기 이전에 k 를 명시해야 하며 k개의 군집을 뜻 함. • 목적 : 각 군집 내에 있는 데이터의 차이를 최소화하고, 군집간의 차이는 최대로 만듬. • 2단계로 나뉨 – 1 단계 ; 최초 k 개 군집에 예제를 지정하고 현재 군집에 속해 있는 예제에 따라 군집의 경계를 조절해 지점을 변경 함. – 2단계 군집의 적합화가 더 이상 향상되지 않을 때 까지 지 점 변경이 몇 번 일어남. 더 이상 변경되지 않으면 멈춤. 초기 군집 지정 • 군집의 초기중앙을 선택하는 방법 – 속성공간에서 임의의 점을 선택하는 방법(데 이터의 값을 선택하기보다) – 각 예제를 군집으로 무작위로 지정하고, 알고 리즘은 변경단계로 바로 진행하는 방법(결과 조절될 수 있게 최종 군집에 특정 편향 줌) 새로운 예제 투입 • 새로운 예제가 들어올 때 거리 함수(맨하튼, 유클리디 안 등)에 따라 가장 가깝거나 유사한 군집 중앙으로 지 정됨 • 유클리디안 거리 공식 • 주의! : 거리함수를 사용하기 때문에 모든 데이터(변수 값)에 결측값이 없어야 함 • 범위를 위해 정규화 필요 변경단계 • 새로운 row (case, observation)가 들어오면 현재 군집 에 지정된 점들의 평균인 중앙점이라는 새로운 지점으 로 초기 중앙을 옮김 • 새롭게 옮겨진 중앙에 따라 군집경계가 조정되고 예제 들이 군집에서 다른 군집으로 이동하는 상황이 나옴 • 다시 군집의 평균값 계산, 군집경계조정, 예제이동….. • 더 이상 군집경계가 재조정 안될때 까지 반복 군집의 적당한 개수 선택 • 무작위로 선택된 군집 중앙에 매우 영향을 받음 • K값이 무작정 크면 좋을까? • k 평균 군집개수를 찾는 엘보우 기법이라 는 통계적 기법이 있음 K-means 알고리즘의 장단점 • 장점 – 통계용어 없이 설명 할 수 있게 군집 식별에 대한 간단한 원리를 사용 – 매우 유연하며 간단한 수정으로 결점을 극복하게 적용할 수 있음 – 효율적이고 데이터를 유용한 군집으로 나눈다. • 단점 – 최근 군집화 알고리즘 보다 덜 세련되다. – 무작위 초기화 때문에 최적의 군집을 찾지 못할 수도 있다. – 데이터에서 얼마나 군집이 생성될 수 있을지 합리적인 추측이 필요하다. 최신 분석 기법들 • • • • • • K-means++ K-median K-medoid Fuzzy clustering Density based clustering(DBSCAN) PAM