Transcript Chapter3_01

데이터 마이닝
3.데이터 탐색과 차원축소
Contents
 3.1 개요
 3.2 예제를 통한 고찰
 3.3 데이터의 요약
 3.4 데이터의 시각화
 3.5 상관관계 분석
 3.6 범주형 변수의 범주 개수 축소
 3.7 주성분 분석
 3.8 실습
3.1 개요
 데이터 마이닝 적용시 나타날 문제점
 과적합화(overfitting)
 모형에 많은 변수 포함
 입출력변수와 관련 없는 변수들을 포함시킴
 모형의 차원
 모형에 사용된 독립변수(입력변수)의 수
 정확도를 떨어뜨리지 않으면서 이러한 차원을
축소 하는 방법을 찾는 것이다.
3.2 예제를 통한 고찰
 전문자+제공자
 변수를 고찰할때 고려해야 할점
 업무에 가장 중요한 변수
 가장 불필요한 변수
 상당한 오차를 내포하고 있는 변수
 비용타당성
 실제 측정 가능 여부
3.2 예제를 통한 고찰
예제 1:보스톤 지역의 주택가격
보스톤 주택 데이터
의 변수내역
보스톤 주택 데이터
의 첫10개의 레코드
3.3 데이터의 요약
 데이터 분석
1 데이터 탐색-데이터 이해하고 요약표와 그래
프를 통해 그 특성을 파악하는것.
 average, median – 대표값
 편차가 크면 변수의 분포가 비대칭-한쪽으로 경사
진 왜도가 존재함.
 min , max – 오차된 극단치
 stedv(분산정도)
 Countblank- 결측치에 대한 정보
3.3 데이터의 요약
보스톤 주택 데이터의 요약 통계량
3.3 데이터의 요약
 통계량
 각 변수들이 다른 값의 범위를 갖고 있다.
 변수들 사이의 척도값의 편차를 적적하게 처리하지
않을 경우 데이터 분석이 왜곡된다.
 평균값이 중앙값보다 크면 분포가 오른쪽으로 경사.
3.3 데이터의 요약
 2. 변수들 간의 관계요약(상관관계 행렬표)
 상관관계는 매우 강하게 나타나지 않으며 LSTAT와
PTRATIO그리고 MEDV와B간의 상관관계를 제외함 모
든 결과는 음의 상관관계를 갖는다.
보스톤 주택 변수군
의 일부 변수 간의
상관관계 행렬표
3.3 데이터의 요약
 피봇 테이블
 정보를 조합하고 일련의 요약통계량(빈도,평균,비율
등)을 계산함으로써 변수간의 상호작용을 보여준다.
 다수의 변수들을 대상으로 사용된다.
3.4 데이터 시각화
 데이터 시각화
 데이터 분포의 형태를 알고자 할 때,
 고차원 데이터의 분포를 2차원 혹은 3차원 공간
상으로 축소 후 시각화
 데이터 분포의 형태를 알고자 할 때
 히스토그램
 상자그림
 행렬 산점도
3.4 데이터 시각화
 목적:
 PCA를 사용하여 차원을 감소시켜 적은 양의 표
본으로도 정확한 데이터 분포를 표현
3.4 데이터 시각화
 히스토 그램
3.4 데이터 시각화
 히스토그램
 도수분포를 나타내는 그래프로, 관측한 데이터
의 분포의 특징이 한눈에 보이도록 기둥 모양으
로 나타낸 것이다.
Histogram
80
70
Frequency
60
50
40
30
20
10
0
5
10
15
20
25
30
MEDV
35
40
45
50
3.4 데이터 시각화
 상자그림
Box Plot
60
MEDV
Y Values
50
MEDV: Median
40
MEDV: Mean
30
MEDV: Outliers
MEDV
20
MEDV: Median
10
MEDV: Mean
0
0
CHAS
Series8
1
3.4 데이터 시각화
 행렬 산점도

산점도는 수치형 변수들 간의 관계를 보여주는 데 매우 유용하다.
Y
Y
X
Y
X
3.5 상관관계 분석
 상관관계 행렬 조사
 중첩되는 변수를 찾기 위해 사용됨-데이터 축소
 다중공선성
3.6 범주형 변수의 범주 개수 축소
 범주형 변수 축소 방법
 범주형 변수
 일정 범위의 변수를 하나의 범주로 가정함
 M 개의 범주를 갖는 변수는 분석에 사용할 경우
m-1 개의 더미변수로 변환된다.
 가까운 범주들을 하나로 합침으로서 범주의 수를
줄인다.
3.7 주성분 분석
 주성분 분석(PCA)
 입력변수를 분석함으로써 모형의 예측변수의 수
를 줄이기 위한 유용한 기법이다.
 주성분 분석은 원시데이터 집합에서 설명
 주성분 분석은 정량변수에 사용
 범주형 변수는 대응분석과 같은 다른 기법들이
적합.
3.7 주성분 분석
 예:아침 식사용 시리얼
아침 식사용 시리얼
데이터 집합의 표본
데이터
 칼로리,고객등급 변수에 초점
1. 평균칼로리,평균 고객등급
2. 공분산 행렬 추정
3. 계산 결과(음의 상관관계)=>변수들 중복성
4. 두 변수를 하나의 새로운 변수로 만든다.
3.7 주성분 분석
 변수 내역
아침 식사용 시리얼
데이터 집합의 변수
내역
3.7 주성분 분석
 시리얼과 칼로리와 등급
3.7 주성분 분석
 75개 시리얼의 평균칼로리는 106.88 이고 평
균 고객등급은 42.67이다.
이두 공분산 행렬은 다음과 같이 추정된다.
3.7 주성분 분석
 이 행렬은 칼로리와 고객등급의 변수 간에
는 다음과 같이 높은 음의 상관관게를 갖고
있음을 보여준다.
3.7 주성분 분석
 분석 결과:
 중복된 정보를 갖고 있다.
 이 경우 정보의 손실 없이 두 변수를 하나의 변수
로 줄일 수 있다. (여기서 정보는 변동성을 의미
한다.)
3.7 주성분 분석
 총변동성은 두 변수 간의 분산의 합을 말
하며, 이 사례에서는 총 변동성이
577(379.63+197.32)이다.
 여기에서 칼로리가 총변동성 중
66%(=379.63/577)를 설명하고 있다는 것
을 의미한다. 나머지 34%는 고객등급을
설명하고 있음을 나타낸다.
3.7 주성분 분석
 그림 3.7은 등급 대 칼로리 간의 산점도를 보여준다.
직선 z1은 해당 점들의 변동성이 가장 큰 직선이다.
이 직선을(1차 주성분)이라고 부른다.
 이 직선은 또한 이 직선과 점들 간의 수직거리를 제
곱한 합계값을 최소화 한다.
 이 그림에서 직선 z2는
2차 주성분이다. Z1과 직
교를 이룬 모든 선들 가운
데서 다음으로 큰 변동성
을 가지는 직선이다.
3.7 주성분 분석
 그림 3.8은 이 두 변수들을 이요하여 주성
분 분석을 실행한 MLMiner의 결과를 보여
준다.
재조정된 분산을 보여준다. 즉 z1
은 총변동성의 86%, z2는 총변동수
의 14%를 설명하고 있다.
3.7 주성분 분석
 주성분 분석 –점수
처음 17개 시리얼의 칼로리와 등급
에 대한 주성분 분석의 주성분 점수
3.7 주성분 분석
 주성분 분석의 절차
1. P개의 원시변수 표기
2. 평균값과 가중평균값을 찾는다.
3. 분산의 크기에 따라서 순위 매김
3.7 주성분 분석
 주성분 분석- 공식화
 P개의 원시 변수들을 x1,x2,…xp로 표기한다. 주성분
분석에서 새로운 변수의 집합으로서 원시 변수에서
이 변수의 평균값을 차감한 값들의 가중평퓬값인
z1,z2,…zp를 찾는다.
3.7 주성분 분석
 이제 전체 15개 변수들을 포함하고 있는 아침용 시
리얼 데이터 집합으로 돌아가서 13개의 수치형 변수
에 적용하면 총 변동성 중 96%가 첫 3개의 성분과
관련되였음을 알수 있다.
3.7 주성분 분석
 주성분 분석의 장점:
 주성분들이 서로 상관되어 있지 않다는 것이다.
만약 이러한 주성분들을 독립변수로서 사용하
여 회귀모형을 구축한다면 다중공선성의 문제
가 발생하지 않을 것이다.
3.7 주성분 분석
 데이터의 정규화
아침 식사용 시리얼 데이터 집합에서 정규화된 13개
수치형 변수를 이용한 주성분 분석결과
3.7 주성분 분석
 데이터 정규화는 언제 해야 하는가?
 변수가 꽤 다른 단위로 측정되어서 다른 변수들의 변
동성을 비교하는 것이 불분명하거나
 변수들의 척도가 동일한 단위로 측정되었지만 그 척
도 자체가 중요하지 않다면 정규화 시키는 것이 바람
직 하다.

그림 3.12 정규화된 아침 식사용 시리얼의 출력결과의 출력결과에 대
한 첫 번째 및 두 번째 주성분 주성분 점수에 대한 산점도
연습문제
 사례1
 <그림 3.5>에서 범죄율과 주택가격(중앙값)
간의 좌표를 찾아낸 후, 이를 해석하시오.
도표를 보면 맨 왼쪽 하단에서
CRIM은 x축에 나타나고 , MEDV가
y축에 나타난다. 도표에서 범죄가
자주 발생하는 지역의 주택가격은
낮아지고 반대로 안정된 지역은 주
택가격이 높다.
연습문제
 사례2- 아침 식사용 시리얼 사례

3.7절의 아침식사용 시리얼 예제의 데이터를 사용하여 다음과 같이 이
를 탐색하고 요약하시오. 일부 레크드들은 결측치를 포함하고 있음에
유의해야 한다. 한가지 해결방안으로는 결측치가 매우 적기 때문에 이
결측치를 먼저 제가하는 것이다. 여러분은 XLMiner의 결측치 처리
(missing data handing)메뉴기능을 사용할수 있다.
a)어느 변수들이 정량적/수치형 변수 또는 순위형, 명목형 변수인가?
정량적 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass, vita
mins, weight, cups
수치형 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass ,vita
mins, weight ,cups
순위형 변수: rating
명목형 변수: mfr,type,shelf
연습문제

b)각 정량적 변수들의 평균, 중앙값,최소값,최대값,그리고 표준편차
를 포함하는 표를 작성하시오. 이 표는 엑셀 함수 또는 엑셀의 도구
데이터 분석-> 기술적 통계 메뉴를 이용하라.
연습문제
 c)XLMiner를 사용하여 각각의 정량적 변수들에 대한 히스토그
림을 작성하시오.
히스토 그램과 요약통계량을 토대로 다음의 질문에 답하시오.
가. 어떤 변수가 가장 큰 변동성을 가지는가?
나트륨과 칼륨
나. 어느 변수의 분포가 한쪽으로 치우쳐 있는가?
weight
다. 극단치로 보이는 값이 존재하는가?
100% Bran , All-Bran with Extra Fiber

d)XLMiner를 사용하여 저온용 대 고온용 시리얼에 함유된 칼로리를
비교하는 나란히 근접한 상자그림을 그리시오. 이 그림은 어떤 정보를
보여주는가?

칼로리가 고온일때에는 항상 100을 유지하고 저온일때에는 칼로리는
상대적으로 100보다 크다
Box Plot
Y Values
200
calories
Series2
150
Series3
100
Series4
Series5
50
Series6
0
C
type
H
Series7
연습문제
e) XLMiner를 사용하여 진열대 높이의 함수로서 고객등급에 대해
나란히 근접한 상자그림을 그리시오. 진열대의 높이로부터 고객등
급을 예측한다면 , 선반 높이의 3가지 범주 모두를 유지해야 한다.
Box Plot
100
rating
80
Y Values

Series2
Series3
60
Series4
40
Series5
Series6
20
Series7
0
1
shelf2
3
Series8

f)정량적 변수에 대한 상관관계 테이블을 작성하시오(엑셀의 도구> 데이터 분석->상관관계 분석 메뉴). 추가로 XLMiner를 사용하여
이들 변수들에 대한 행렬 산점도를 작성하시오.
가. 어떤 변수의 쌍에서 가장 강한 상관관계가 존재하는가?
Sodium과 fiber , calories 와 fiber , calories와 sodium
나. 이러한 상관관계 결과에 기초하여 어떻게 변수들의 수를 줄일 수 있는
가?
서로 강한 상관 관계를 가지고 있는 변수들을 하나로 묶어준다.
다. 데이터를 먼저 정규화시킨다면 상관관계 결과는 어떻게 변할 것인가?

g)<그림 3.10>의 맨 왼쪽의 첫 번째 열을 살펴본 후, 이 열이 무엇을
나타내고 있는지를 간략히 설명하시오.

주성분과 주성분 점수를 나타내고 있는 그림이다. 이 그림에서는 나트륨과
칼륨이 그림 3.10에서 강한 상관관계를 가지고 있는다. 즉 나트륨과 칼륨이
아침식사용 시리얼 데이터에 가장 큰 영향을 가져다 준다.
연습문제
 포도주의 화학적 특성 사례
<표 3.5>는 정규화되지 않은 데이터의 주성분 분석결과를 보여준다.
이 결과에서 각 변수들은 포도주의 화확적 특징들을 나타내고 각각의
사례는 다른 포도주들로 구성된다.
 a)데이터는Wine.xls 파일에 잇다. ‘분산’이라고 쓰여진 맨 끝행쪽을 보
시오. 왜 1열의 분산이 다른 열의 분산보다 훨씬 더 큰지를 설명하시
오.

기존 데이터에 결측치를 가지고 있는데 표 3.5에서는 데이터 정규
화를 진행하지 않았다.

b)a)부분에서 정규화의 사용에 대해 의견을 제시하시요.
결측치를 가지고 있는 변수는 제거해야 한다.
연습문제
 대학 순위 사례
 미국의 전문대학과 종합대학교의 순위에 대한 데이터 집합
(www.dataminigbook.com에서 참조)은 학부교육 프로그램을
제공하는 1.302개의 미국 전문대학 및 종합대학교의 정보를 담
고 있다. 각 대학교에 대해서는 연속형 측정치와 범주형 측정치
들을 포함하여 총 17개의 측정항목들을 포함하고 있다.
 a)모든 범주형 변수들을 제거하시오. 그 다음에 데이터 집합에
서 수치형 측정치에서 결측치를 포함하고 있는 모든 레코드들
을 제거하시오.
 b)정제된 데이터를 대상으로 주성분 분석을 실시하고 그 결과를
분석하시오. 이때 데이터는 정규화시켜야 하는가? 이 분석에서 중
요하게 고려해야 할 주성분은 무엇인가?
 정규화시키지 않아도 된다.- 주성분 분석을 통하여 서로 강한 상관
관계를 가지는 변수가 없다.
 고려해야 할 주성분은 7번째 주성분이다.
연습문제
 도요타 코롤라 자도차 판매 사례

TototaCorolla.xls 파일에는 네델란드에서 2004년 늦여름 동안에 판
매된 도요타 코롤라 중고차에 대한 데이터가 수록되어 있다. 이 파
일은 ‘가격’,’사용시간’,’주행거리’,’마력’,그리고 다른 사양정보들을 포
함한 총 38개 속성들을 상세한 정보를 담고 있으며 , 총 1,436개의
레코드들로 구성된다. 이 사례의 목적은 상세한 속성정보들을 토대
로 도요타 코롤라 중고차의 가격을 예측하는 것이다.
a) 범주형 변수들을 구별해 내시오
Us,source, web_order, Gender=Mfr_Guarantee , BOVAG_Guar
antee ,ABS ,Airbag_1, Airbag_2, Airco, Automatic_airco, Boar
dcomputer ,CD_Player ,Central_Lock ,Powered_Windows ,Po
wer_Steering ,Radio, Mistlamps ,Sport_,Model, Backseat_,Di
vider, Metallic_,Rim Radio_cassette ,Tow_Bar
 b) 범주형 변수와 그 변수로부터 파생된 이진 더미변
수 간의 관계를 설명 하시오.
 c)N개의 범주를 가진 범주형 변수들의 정보를 포함
시키기 위해서는 얼마나 많은 더미변수들이 필요한
가?
N-1개의 더미변수가 필요하다.
연습문제
 d)XLMiner의 데이터 처리기능을 이용하여 데이터 집합의 범
주형 변수들을 이진 더미변수들로 변환시킨 후 , 하나의 레
코드에 대해서 이진 더미변수들의 값들을 간략히 설명하시
오
자동차의 색상을 표시하는 변수에서 자동차 색상이 화이트
이면 1 화이트가 아니면 0으로 표시한다.
 e)엑셀의 상관관계 분석 명령(도구->데이터 분석->상관관계
분석 메뉴)을 이용하여 상관관계 행혈표를 작성하고,
XLMiner의 행렬 산점도를 이용하여 전체 산점도에 대한 행
렬표를 생성시키시오. 그리고 이 표를 이용하여 변수들 간의
관계를 설명하시오.