받기 - Soft Computing Lab.

Download Report

Transcript 받기 - Soft Computing Lab.

Clustering with Minitab
Soft Computing Lab
Yonsei Univ.
공공 전력 사업체 분석
데이터 다운로드
방법1. http://sclab.yonsei.ac.kr/Dataset.zip
방법2. http://sclab.yonsei.ac.kr/ -> Courses -> Special
lecture -> 삼성 미니탭 교육 ->전체 다운로드
1
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
공공 전력 사업체 분석 예제
• 유사한 사업체들을 그룹화
– 군집화 해야 하는 레코드: 22개의 사업체
– 레코드 변수의 수: 8개
– 규제 완화에 대한 비용 효과 예측 연구등에 사용
• 다양한 사업체 대한 상세한 비용 예측 모형 구축의 필요성
• 군집화를 통한 군집별로 대표적 사업체를 대상으로만 모형 구축
• 시간과 노력 감소
– 예로 매출액(sales)와 연료비(fuel cost)변수를 살펴봄
• 군집화에 도움이 되는 예
2
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 매출액과 연료비 변수
데이터 셋
• Fixed_charge: 고정부채보상배율(수익/부채)
• RoR: 투자수익률
• Cost: 킬로와트당 생산비용
• Load_factor: 연간 부하량
• Demand_growth: 1974년부터 1975년까지의 최고 전력 수요량(kwh) 증
가율(%)
• Sales: 전력판매량(kwh/년)
• Nuclear: 원자력발전의 비율(%)
• Fuel Cost: 총 연료비용(cents/kwh)
3
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 매출액과 연료비 변수
산점도
• 그래프->산점도(단순)->Y변수: 연료비, X변수: Sales
Click
4
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 매출액과 연료비 변수
산점도
5
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 매출액과 연료비 변수
산점도 분석
• 2~3개의 군집이 나타나 있는 것으로 보임
– 높은 연료비, 낮은 매출액
– 낮은 연료비, 상대적으로 낮은 매출액
– 낮은 연료비, 높은 매출액
6
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 매출액과 연료비 변수
군집화 알고리즘
• 개별 레코드 사이의 거리를 측정
• 거리에 따라 군집들을 형성
• 계층적 방법(Hierarchical methods)
– 병합 또는 분할 방법
• 병합방법: n개의 군집들을 가지고 최종적으로 하나의 군집이 남을 때 까지 병합
• 분할방법: 모든 레코드를 포함하는 하나의 군집에서 나누어 짐
– 분석의 목적이 군집들을 자연적 계층 구조로 정렬할 때 유용
– 계층적 병합 군집화
• 비 계층적 방법(Nonhierarchical methods)
– 미리 군집의 수를 결정
– 레코드들을 정해 진 군집에 할당
– 적은 계산량
– 대량의 데이터 베이스에서 유용
– K-평균 군집화
7
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
수치형 척도의 정규화(표준화)
• 거리 계산의 척도는 각 변수의 단위(scale)에 영향 받음
– 값이 큰 변수는 총 거리에 매우 큰 영향을 줌
• 정규화
– (측정치-평균)/표준편차
• 계산->표준화
Click
Click
8
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
수치형 척도의 정규화(표준화)
정규화 전
정규화 후
9
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
정규화된 산점도
10
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
거리 측도
• 두 접(레코드)간의 거리를 계산하는 방법
• 고려해야 할 사항
– 무엇이 측정 되고 있는가?
– 레코드 간의 어떤 관련이 있는가?
– 어떤 척도(수치형, 순서형, 명목형)로 처리해야 하는가?
– 극단치들이 있는가?
• 유클리드 거리 척도
– 큰 값에 영향을 많이 받음(정규화 필요)
– 측정항목들 사이의 관계가 무시
• 측정학목들이 실제 강한 상관 관계가 있다면 다른 형태의 거리척도(통계적 거리 등)를 사용
– 극단치에 민감
11
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
연결 방법
• 두 군집을 병합 할 때 군집을 연결 하는 기준
•
•
•
•
•
•
•
평균거리: 하나의 군집 내에 있는 관측지들과 다른 군집 내에 있는 관측치들 사이의 모든 가능한 거리의 평균 거리
중심거리: 두 군집의 중심간의 거리
완전거리: 가장 멀리 떨어진 두 관측치 사이의 거리
McQuitty: 곧 결합할 군집과 다른 군집간 거리의 평균
중위수: 한 군집의 한 항목과 다른 군집의 한 항목 간 거리의 중위수
단일거리: 가장 가까이에 있는 두 관측치 사이의 거리
Ward: 연결 가능한 군집조합 중 연결된 후에 군집 내 제곱합을 계산, 최소 제곱합을 가지는 군집의 거리 연결
12
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
계층적 병합 군집화
• 하나의 레코드로 구성된 군집들로부터 모든 레코드들로 구성된 하나
의 군집만 남을 때까지 가장 가까운 2개의 군집들을 단계적으로 병합
– 통계분석->다변량 분석->
– 관측 개체 군집 분석: 각각 변수들 간의 그룹화
– 변수 군집 분석: 한 변수 내에서의 그룹화
• 덴드로그램
– 군집화 과정 및 결과를 나타내는 나무 형태의 도표
– 아랫부분에 레코드가 표시
– 수직선의 길이는 레코드 사이의 거리, 유사한 레코드들 연결
13
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
단일 연결법(관측 개체 군집 분석)
• 통계분석->다변량 분석->관측 개체 군집 분석
• 연결방법: 단일, 거리 측도: Euclid, 군집수: 1
Click
S
FT COMPUTING @ YONSEI UNIV . KOREA
14
16
단일 연결법(관측 개체 군집 분석)
• 통계분석->다변량 분석->관측 개체 군집 분석
• 저장
Click
S
FT COMPUTING @ YONSEI UNIV . KOREA
15
16
단일 연결법(관측 개체 군집 분석)
• 통계분석->다변량 분석->관측 개체 군집 분석
• 저장->소속 군집 열 : C18
Click
16
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
단일 연결법(관측 개체 군집 분석)
• C18열에 데이터의 군집 표시
17
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
단일 연결법(관측 개체 군집 분석)
단일 군집
• 가장 왼쪽 군집이 단일 군집
18
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
단일 연결법(관측 개체 군집 분석)
단일 군집
• 가장 상위의 연결선으로 군집화(2개의 군집)
• 가장 왼쪽 군집이 단일 군집
19
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
단일 연결법(관측 개체 군집 분석)
단일 군집
• 두 번째 연결선으로 군집화(3개의 군집)
20
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
완전 연결법(관측 개체 군집 분석)
• 적절한 군집으로 나누어 짐
• 가장 선호하는 방법
21
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
평균 연결법(관측 개체 군집 분석)
• 완전 연결 보다 최초의 군집의 수가 적음
22
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
군집 평가
• 목적: 의미 있는 군집들을 산출
• 군집 분석의 유용성
– 군집의 설명 가능성
• 군집 분석에 사용된 각 변수들에 대해 각 군집의 요약통계량(평균값, 최소값, 최대값)을 구함
• 군집 분석에서 누락된 변수가 있는지 조사
• 군집에 대한 이해를 기초로 각 군집에 맞는 명칭 부여
– 군집의 안정성
• 입력값들이 약간 달라질 때 나누어 진 군집들이 유의하게 변화하는지 조사
• 데이터를 나누어 한쪽 데이터를 사용하여 만든 군집이 나머지 데이터에도 유사한지 확인
– 분할된 데이터 집합으로 군집 분석 수행
– a집합의 군집 중심점을 이용하여 B의 각 레코드가 속하는 군집을 결정
– B의 군집 결과가 모든 데이터를 사용하여 얻은 군집 결과와 비교하여 일관성 조사
23
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
계층적 군집화의 장단점
• 장점
– 군집화가 데이터에 의해 수행
– 덴드로그램의 표현으로 설명이 쉬움
• 단점
– 데이터 집합이 매우 클 경우 계산 횟수가 많아 짐
– 단 한번의 군집화 시도, 초기에 잘못 분배되면 재분배 불가능
– 안정성이 낮은 경향
– 단일,완전 거리척도가 바뀌어도 군집 분석의 결과에 변화가 적음
– 평균연결법의 척도는 완전히 다른 군집들이 형성될 수 있음
– 극단치에 민감
24
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
비계층적 군집화(k-평균 군집 분석)
• 군집의 수를 명시(군집의 수 결정이 중요)
• 군집들 내부의 분산을 최소화 하여 각각의 사례를 군집들 중 하나에 할당
• 측정항목을 기준으로 군집들이 가능한 한 동질성을 갖도록 사전 정의된
군집으로 표본을 나눔
• 군집내 분산 측정
– 군집의 중심에서 부터 관찰치까지의 거리의 합
• 유클리드 거리의 제곱합
• 정수계획법을 포함하는 최적화 문제
– 휴리스틱 방법
• 빠르면서 만족
• 최적은 아님
• k-평균 알고리즘
• 알고리즘
– k개의 초기 군집으로 시작
– 가장 가까운 중심을 가진 군집에 할당
– 관찰치가 빠지거나 추가되면 군집의 중심을 재 계산
– 군집 사이에 관찰치 이동이 분산을 증가시키면 군집화 중단
S
FT COMPUTING @ YONSEI UNIV . KOREA
25
16
비계층적 군집화(k-평균 군집 분석)
• 통계분석->단변량 분석->K-평균 군집 분석
Click
Click
26
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
비계층적 군집화(k-평균 군집 분석)
• 결과(표준화 전), 군집의 수: 6
27
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
비계층적 군집화(k-평균 군집 분석)
• 결과(표준화 후), 군집의 수: 6
28
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
아침용 시리얼 분석
29
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 데이터 집합
– 77개의 아침용 시리얼 제품에 대한 영양 정보, 진열 상태, 평가에 대한 정보
• 목표
– 단일 연결법과 완전 연결법 비교
– 의미 있는 군집 도출
– 어린이를 위한 시리얼 추천
• 문제
– 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오.
군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오.
– 군집을 분석하세요.
– 초등학생을 위한 시리얼 세트를 추천하시오. 데이터 표준화를 해야 하는가?
데이터의 모든 변수를 사용해야 하는가?
30
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오.
군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오.
• 다변량 분석->관측 개체 군집 분석->단일, 완전, 군집수 4~6
Click
Click
31
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 연결방법: 단일, 군집수: 5
문제: 파란색과 핑크색의 군집에 1개의 종류만 그룹화 되어 있음
32
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 연결방법: 완전, 군집화: 5
33
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 연결방법: 단일, 군집화: 6
문제: 파란색과 보라색의 군집에 1개의 종류만 그룹화 되어 있음
34
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 연결방법: 완전, 군집화: 6
35
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 적절한 군집 선택
– 단일 연결 방식에서는 단일 군집이 도출
– 완전 군집화 덴드로그램의 관측값들을 분석
36
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 어른들이 선호하는 시리얼의 그룹
• 어린이 들이 선호하는 시리얼의 그룹(높은 설탕 비율)
S
• 군집화된 결과를 보고 미리 가지고 있던 정보(아이들이 선호하는 시
리얼은 설탕 비율이 높다)로 추론
FT COMPUTING @ YONSEI UNIV . KOREA
37
16
예제: 아침용 시리얼
• 초등학생을 위한 시리얼 세트를 추천하시오. 데이터 표준화를 해야 하는가?
데이터의 모든 값을 사용해야 하는가?
– 표준화를 해야 함
• 각 데이터 별로 측정 단위가 다를 수 있기 때문에 표준화를 해주지 않으면 하나의 값이 다
른 값들에 비해 크기가 크거나 작을 수 있다.
• 예: mg으로 측정된 값과 g으로 측정된 값의 단위가 다르기 때문에 표준화가 필요
– 데이터의 모든 값으로 군집화할 필요는 없음
• 사전 정보에 의해서 어린이에게 중요한 영향소만을 생각해도 된다.
• 예: 어린이 건강에 중요한 값(protein, fat, sodium, sugar)
38
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 통계분석->다변량 분석-> 관측 개체 군집 분석
• 변수(protein, fat, sodium, fiber), 완전 연결 방법, 군집수 3
Click
Click
39
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 군집의 중심을 보고 판단
• protein이 높고 fat이 낮으며 fiver가 높은 군집 1을 선택
40
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
예제: 아침용 시리얼
• 그래프당 최대 관측 개수 설정
Click
Click
• 100%_Bran, All-Bran, All-Bran_with_Extra_Fiber를 추천
S
FT COMPUTING @ YONSEI UNIV . KOREA
41
16
곰 데이터셋 분석
42
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
곰 데이터셋
• 곰.mtw 워크시트 열기 : 143마리의 곰 데이터
– 전체길이, 머리 길이
– 전체무게, 머리무게
– 목 둘레, 가슴둘레
• 목표: 143마리의 곰을 소, 중, 대 크기의 곰으로 분류
• 제한조건: 2번째, 78번째, 15번째의 곰이 각각 이 세범주의 전형이라
는 것을 알고 있다. (1=소, 2=중, 3=대)
• K-평균 군집분석을 수행하고, 곰의 크기라는 열을 만들어 소속 군집
을 저장하시오.
43
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
초기 분할 열 만들기
44
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
초기 분할 열 만들기
열의 이름 지정
모든 값을 0으
로 채워줍니다.
전체 데이터의
개수만큼
• 제한 조건을 따르기 위해 데이터에 값을 입력합니다.
– 2번째 =1, 78번째=2, 15번째=3
45
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
K-평균 군집 분석
ㅋ
46
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
K-평균 군집 분석
47
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
K-평균 군집 분석
48
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
무게-가슴둘레 사이 그래프에서 군집화 결과
49
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
무게-가슴둘레 사이 그래프에서 군집화 결과
50
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
주성분 분석을 이용한 값에 대한 크기 분석
• 곰의 크기1: 전형적인 곰의 상태를 알고 있음.
• 곰의 크기2: 전형적인 상태를 모르는 상태에서의 군집화
51
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
관측 개체 군집 결과1
52
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
관측 개체 군집 결과2
53
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
K-평균 vs 관측 개체 군집
54
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
Wine 데이터 분석
55
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
Wine 데이터 셋 구성
• 같은 지역 내에 있는 세 개의 다른 포도주 양조장에서 얻은 와인의 13
가지 성질을 포함
– Alcohol : 알코올
– Malic Acid : 말산
– Ash : 물푸레나무
– Alkalinity of ash : 물푸레나무의 알칼리도
– Magnesium : 마그네슘
– Total phenols : 총 페놀
– Flavanoids : 플래버노이즈
– Nonflavanoid phenols
– Proanthocyanins : 프로안토시아닌
– Color intensity : 색의 강도
– Hue : 색상
– OD280/OD315 of diluted wines
– Proline : 프롤린
56
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
문제
1. Wine 데이터 셋을 시각화 하기 위해 주성분 분석으로 2개의 주성분
을 찾으시오.
(주성분 분석 : 서로 연관이 있는 변수들의 정보들을 최대한 확보하는 적은
수의 새로운 변수들을 생성하는 방법)
2. 1번에서 찾은 주성분으로 Wine 데이터 셋을 2차원으로 시각화 하여
데이터의 분포를 확인하고 몇 개의 군집으로 구분할 수 있을지를 논
하시오.
3. K-평균 군집 분석을 이용하여 2번에서 정한 군집의 개수로 군집화
하시오.
4. 관측 개체 군집 분석을 이용하여 3번에서 수행한 군집의 개수와 비
교하시오.
5. 군집된 클러스터의 속성을 비교하시오.
57
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
1번 풀이(계속)
• Wine 데이터 셋 불러오기
– 미니탭 상단의 메뉴에서 [파일]->[워크시트 열기] 클릭 후 Wine.xls 열기
• 미니탭 상단의 메뉴에서 [통계분석]->[다변량 분석]->[주성분 분석]
클릭
• 변수란에 왼쪽에 변수들을 모두 클릭하고 “선택”버튼 클릭
58
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
1번 풀이(계속)
• 계산할 성분 수에 “2” 입력
• 행렬 유형 : 상관계수
• “저장”버튼 클릭
• 점수란에 “C15, C16” 입력 후 확인
59
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
1번 풀이
• 워크시트에 주성분1(PC1)은 C15열에 주성분2(PC2)는 C16열에 저장
된 것 확인
60
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
2번 풀이(계속)
• [그래프]->[산점도] 클릭
• “단순” 선택 후 “확인”버튼 클릭
• X변수, Y변수에 PCA의 결과로 얻은 주성분 각각을 선택 후 “확인”버
튼 클릭
주성분2
주성분1
61
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
2번 풀이
• 주성분 PC1와 PC2로 데이터 셋을 시각화
• 2~3개의 군집으로 그룹화 하는 것이 적절함
62
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
3번 풀이(계속)
• [통계분석]->[다변량 분석]->[K-평균 군집 분석] 클릭
• “군집수” 란에 “2” 입력, 변수 표준화 체크박스 선택
• 저장버튼 클릭
• “소속 군집 열” 란에 c17 입력 후 확인버튼 클릭
63
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
3번 풀이(계속)
• 미니탭 화면에 워크시트 C15 컬럼에 군집화 결과가 저장됨
64
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
3번 풀이(계속)
• 산점도 그래프를 이용하여 클러스터링의 결과를 시각화
• [그래프]->[산점도] 클릭
• “그룹” 표시 선택 후 “확인” 버튼 클릭
• 산점도 그리는 나머지 설정은 이전과 동일
• 결과 그래프에서 임의의 점을 선택 후 마우스 오른쪽 버튼 클릭 및
“기호편집” 클릭
65
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
3번 풀이
• “기호 편집”에서 [그룹] 탭을 클릭 후 C17 선택 및 “확인”버튼 클릭
• 클러스터링의 결과를 산점도로 확인
66
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
4번 풀이(계속)
• 상단 메뉴에서 [통계분석]->[다변량 분석]->[관측 개체 군집 분석] 클
릭
• 연결 방법은 “완전”, 변수 표준화 체크 박스 클릭, 군집 수 “4”
67
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
4번 풀이
• 유사성 수준의 차이는 3개의 군집이 최종 분할로 충분함을 나타냄
68
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
5번 풀이 (계속)
• 군집된 클러스터의 각 성분 비교를 위해 데이터 표준화
• 상위 메뉴의 [계산]->[표준화] 클릭
69
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
5번 풀이 (계속)
• C18-C30에 표준화 결과 저장
• 워크시트의 변수 이름 복사
70
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
5번 풀이 (계속)
• 막대 차트 생성 : [그래프]->[막대 차트] 메뉴 클릭
71
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
5번 풀이 (계속)
• 함수를 “평균”으로, 그래프 변수를 “표준화된 변수들”로, 그룹화 범주
형 변수에 “Cluster”로 설정 후 “확인” 버튼 클릭
72
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
5번 풀이
• 결과 해석
– e.g. 군집 1의 알코올 성분이 군집 2의 알코올 성분보다 평균 15정도 더
많음
73
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Wine 데이터 셋 예제
추가문제
• 거리측도를 변경하여 군집화를 수행하고 비교하시오.
– Euclid, Manhattan, Pearson, Euclid 제곱, Pearson 제곱
74
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
IRIS 데이터 분석
75
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Iris 데이터 셋 예제
Iris 데이터 셋 구성
• 3가지 붓꽃을 분류하기 위한 데이터셋 (Setosa, Versicolour, Virginica)
–
–
–
–
–
Sepal length (cm 단위) : 꽃받침의 길이
Sepal width (cm 단위) : 꽃받침의 너비
Petal length (cm 단위) : 꽃잎의 길이
Petal width (cm 단위) : 꽃잎의 너비
Species : 꽃의 종류 (setosa / versicolor / virginica)
76
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Iris 데이터 셋 예제
문제
1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시
오)
2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고
결과를 비교하시오.
77
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Iris 데이터 셋 예제
1번 답
1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시
오)
78
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• Iris 데이터 셋 예제
2번 답
2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고
결과를 비교하시오.
79
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
Boston House 분석
80
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
BostonHousing 데이터 셋 구성
• 보스턴 시의 주택 가격에 대한 데이터 셋
–
–
–
–
–
–
–
–
–
–
–
–
–
–
CRIM : 자치시(town) 별 1인당 범죄율
ZN : 25,000 평방피트를 초과하는 거주지역의 비율
INDUS : 비소매 상업 지역이 점유하고 있는 토지의 비율
CHAS : 찰스강에 대한 더미변수(강의 경계는 1, 아니면 0)
NOX : 10ppm 당 농축 일산화질소
RM : 주택 1가구당 평균 방의 개수
AGE : 1940년 이전에 건축된 소유주택의 비율
DIS : 5개의 보스턴 직업센터까지의 접근성 지수
RAD : 방사형 도로까지의 접근성 지수
TAX : 10,000 달러 당 재산세율
PTRATIO : 자치시별 학생/교사 비율
B : 1000(Bk-0.63)^2 (Bk는 자치시별 흑인의 비율)
LSTAT : 모집단의 하위계층의 비율(%)
MEDV : 본인 소유의 주택가격(중앙값) (단위 : $1,000)
81
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
문제
1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각
화 하시오.
2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데
이터 셋을 군집화 하시오.
3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.
4. 관측 개체 군집 분석의 거리 측도를 Manhattan과 Pearson으로 변
경하고 군집 수를 4로 설정하여 군집화 하시오.
82
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
1번 답
1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각
화 하시오.
83
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
2번 답
2.
K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데
이터 셋을 군집화 하시오.
84
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
3번 답
3.
2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.
85
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• BostonHousing 데이터 셋 예제
4번 답
4.
관측 개체 군집 분석의 거리 측도를 변경하고 군집 수를 4로 설정
하여 군집화 하시오.
Manhattan 거리
Pearson 거리
86
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
휴대전화 통화 분석
87
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
Telco-CAT 통신회사 자료 (2001년)
• 변수 설명
– 신원 및 인구정보: ID 번호, 성, 나이
– 계좌 기록: Churn(이탈여부), Tariff(요금제), Tariff_OK(요금제의 적절성 여
부) 등
– 통화 정보: Peak(주간 통화), Off-Peak(야간 통화), Weekend(주말 통화) 관
련 통화 횟수 및 통화시간, International(국제 통화) 통화시간등
88
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
문제
1. 고객의 통화 관련 행태(Behavior)를 분석할 것이다. 열복사를 이용하
여 워크시트를 다음의 8가지 변수를 사용하여 구성하시오.
–
–
–
–
–
–
–
Customer_ID(사용자 ID), Peak_calls_Sum (주간 총 통화 횟수)
AvePeak (주간 평균 통화시간(분), 통화 1건당)
OffPeak_calls_Sum (야간 총 통화 횟수)
AveOffPeak (야간 평균 통화시간(분), 통화 1건당)
Weekend_calls_Sum (주말 총 통화 횟수)
AveWeekend(주말 평균 통화시간(분), 통화 1건당)
International_min_Sum (국제통화 총 통화시간(분))
2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오.
(AvePeak, AveOffPeak, AveWeekend열만 수정)
3. 시각화를 위하여 2개의 주성분을 찾으시오.
4. K-means 클러스터링을 사용하여 2개의 군집으로 그룹화하고 의미
를 추론하시오.(막대 차트를 이용)
5. K-means 클러스터링을 사용하여 3, 4개의 군집으로 나누어 결과를
비교하고 의미를 추론하시오. (막대 차트를 이용)
89 16
S
FT COMPUTING @ YONSEI UNIV . KOREA
결측치 처리 기준
• 결측치가 10% 이하일 경우
– 해당 표본을 제거
– 대치법을 사용
– 단순회귀분석을 사용
• 결측치가 10~20%인 경우
– Hot deck cast substitution
– Regression
– Model-based methods
• 결측치가 20%이상인경우
– Egression
– Model-based method
90
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
결측치 확인 방법 1
• 시계열도를 이용
②
①
91
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
결측치 확인 방법 1
①
②
③
92
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
• 그래프 결과
결측치
93
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
결측치 확인 방법2
• 열 통계량 이용
• 결과 (세션창)
– International_mins_Sum에서의 총 관측치 수 = 3237
– 비결측값 수 = 3196
– 결측값 수 = 41
94
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
결측치 대치
• 평균값을 이용
• 해당 열 선택 -> 바꾸기
– International_mins_Sum의 평균 = 168.799
95
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
결측치 대치
• 값 입력 후 모두 바꾸기
• 결과
96
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
문제
1. 고객의 통화 관련 행태(Behavior)를 분석할 것이다. 열복사를 이용하
여 워크시트를 다음의 8가지 변수를 사용하여 구성하시오.(열복사 이용)
–
–
–
–
–
–
–
–
Customer_ID(사용자 ID)
Peak_calls_Sum (주간 총 통화 횟수)
AvePeak (주간 평균 통화시간(분), 통화 1건당)
OffPeak_calls_Sum (야간 총 통화 횟수)
AveOffPeak (야간 평균 통화시간(분), 통화 1건당)
Weekend_calls_Sum (주말 총 통화 횟수)
AveWeekend(주말 평균 통화시간(분), 통화 1건당)
International_min_Sum (국제통화 총 통화시간(분))
2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오.
3. 시각화를 위하여 2개의 주성분을 찾으시오.
4. K-means 클러스터링을 사용하여 2개의 군집으로 그룹화하고 의미를
추론하시오.(막대 차트를 이용)
5. K-means 클러스터링을 사용하여 3, 4개의 군집으로 나누어 결과를
비교하고 의미를 추론하시오. (막대 차트를 이용)
97
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
해설1, 2
• 총 8가지 변수의 워크시트
98
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
해설 3
• 결과
99
S
FT COMPUTING @ YONSEI UNIV . KOREA
16
해설 3
• 막대 차트
10016
S
FT COMPUTING @ YONSEI UNIV . KOREA
해설 4, 5
• 군집화 결과
10116
S
FT COMPUTING @ YONSEI UNIV . KOREA
해설 4, 5
• 막대 차트
10216
S
FT COMPUTING @ YONSEI UNIV . KOREA