Transcript Chapter3_01
데이터 마이닝
3.데이터 탐색과 차원축소
Contents
3.1 개요
3.2 예제를 통한 고찰
3.3 데이터의 요약
3.4 데이터의 시각화
3.5 상관관계 분석
3.6 범주형 변수의 범주 개수 축소
3.7 주성분 분석
3.8 실습
3.1 개요
데이터 마이닝 적용시 나타날 문제점
과적합화(overfitting)
모형에 많은 변수 포함
입출력변수와 관련 없는 변수들을 포함시킴
모형의 차원
모형에 사용된 독립변수(입력변수)의 수
정확도를 떨어뜨리지 않으면서 이러한 차원을
축소 하는 방법을 찾는 것이다.
3.2 예제를 통한 고찰
전문자+제공자
변수를 고찰할때 고려해야 할점
업무에 가장 중요한 변수
가장 불필요한 변수
상당한 오차를 내포하고 있는 변수
비용타당성
실제 측정 가능 여부
3.2 예제를 통한 고찰
예제 1:보스톤 지역의 주택가격
보스톤 주택 데이터
의 변수내역
보스톤 주택 데이터
의 첫10개의 레코드
3.3 데이터의 요약
데이터 분석
1 데이터 탐색-데이터 이해하고 요약표와 그래
프를 통해 그 특성을 파악하는것.
average, median – 대표값
편차가 크면 변수의 분포가 비대칭-한쪽으로 경사
진 왜도가 존재함.
min , max – 오차된 극단치
stedv(분산정도)
Countblank- 결측치에 대한 정보
3.3 데이터의 요약
보스톤 주택 데이터의 요약 통계량
3.3 데이터의 요약
통계량
각 변수들이 다른 값의 범위를 갖고 있다.
변수들 사이의 척도값의 편차를 적적하게 처리하지
않을 경우 데이터 분석이 왜곡된다.
평균값이 중앙값보다 크면 분포가 오른쪽으로 경사.
3.3 데이터의 요약
2. 변수들 간의 관계요약(상관관계 행렬표)
상관관계는 매우 강하게 나타나지 않으며 LSTAT와
PTRATIO그리고 MEDV와B간의 상관관계를 제외함 모
든 결과는 음의 상관관계를 갖는다.
보스톤 주택 변수군
의 일부 변수 간의
상관관계 행렬표
3.3 데이터의 요약
피봇 테이블
정보를 조합하고 일련의 요약통계량(빈도,평균,비율
등)을 계산함으로써 변수간의 상호작용을 보여준다.
다수의 변수들을 대상으로 사용된다.
3.4 데이터 시각화
데이터 시각화
데이터 분포의 형태를 알고자 할 때,
고차원 데이터의 분포를 2차원 혹은 3차원 공간
상으로 축소 후 시각화
데이터 분포의 형태를 알고자 할 때
히스토그램
상자그림
행렬 산점도
3.4 데이터 시각화
목적:
PCA를 사용하여 차원을 감소시켜 적은 양의 표
본으로도 정확한 데이터 분포를 표현
3.4 데이터 시각화
히스토 그램
3.4 데이터 시각화
히스토그램
도수분포를 나타내는 그래프로, 관측한 데이터
의 분포의 특징이 한눈에 보이도록 기둥 모양으
로 나타낸 것이다.
Histogram
80
70
Frequency
60
50
40
30
20
10
0
5
10
15
20
25
30
MEDV
35
40
45
50
3.4 데이터 시각화
상자그림
Box Plot
60
MEDV
Y Values
50
MEDV: Median
40
MEDV: Mean
30
MEDV: Outliers
MEDV
20
MEDV: Median
10
MEDV: Mean
0
0
CHAS
Series8
1
3.4 데이터 시각화
행렬 산점도
산점도는 수치형 변수들 간의 관계를 보여주는 데 매우 유용하다.
Y
Y
X
Y
X
3.5 상관관계 분석
상관관계 행렬 조사
중첩되는 변수를 찾기 위해 사용됨-데이터 축소
다중공선성
3.6 범주형 변수의 범주 개수 축소
범주형 변수 축소 방법
범주형 변수
일정 범위의 변수를 하나의 범주로 가정함
M 개의 범주를 갖는 변수는 분석에 사용할 경우
m-1 개의 더미변수로 변환된다.
가까운 범주들을 하나로 합침으로서 범주의 수를
줄인다.
3.7 주성분 분석
주성분 분석(PCA)
입력변수를 분석함으로써 모형의 예측변수의 수
를 줄이기 위한 유용한 기법이다.
주성분 분석은 원시데이터 집합에서 설명
주성분 분석은 정량변수에 사용
범주형 변수는 대응분석과 같은 다른 기법들이
적합.
3.7 주성분 분석
예:아침 식사용 시리얼
아침 식사용 시리얼
데이터 집합의 표본
데이터
칼로리,고객등급 변수에 초점
1. 평균칼로리,평균 고객등급
2. 공분산 행렬 추정
3. 계산 결과(음의 상관관계)=>변수들 중복성
4. 두 변수를 하나의 새로운 변수로 만든다.
3.7 주성분 분석
변수 내역
아침 식사용 시리얼
데이터 집합의 변수
내역
3.7 주성분 분석
시리얼과 칼로리와 등급
3.7 주성분 분석
75개 시리얼의 평균칼로리는 106.88 이고 평
균 고객등급은 42.67이다.
이두 공분산 행렬은 다음과 같이 추정된다.
3.7 주성분 분석
이 행렬은 칼로리와 고객등급의 변수 간에
는 다음과 같이 높은 음의 상관관게를 갖고
있음을 보여준다.
3.7 주성분 분석
분석 결과:
중복된 정보를 갖고 있다.
이 경우 정보의 손실 없이 두 변수를 하나의 변수
로 줄일 수 있다. (여기서 정보는 변동성을 의미
한다.)
3.7 주성분 분석
총변동성은 두 변수 간의 분산의 합을 말
하며, 이 사례에서는 총 변동성이
577(379.63+197.32)이다.
여기에서 칼로리가 총변동성 중
66%(=379.63/577)를 설명하고 있다는 것
을 의미한다. 나머지 34%는 고객등급을
설명하고 있음을 나타낸다.
3.7 주성분 분석
그림 3.7은 등급 대 칼로리 간의 산점도를 보여준다.
직선 z1은 해당 점들의 변동성이 가장 큰 직선이다.
이 직선을(1차 주성분)이라고 부른다.
이 직선은 또한 이 직선과 점들 간의 수직거리를 제
곱한 합계값을 최소화 한다.
이 그림에서 직선 z2는
2차 주성분이다. Z1과 직
교를 이룬 모든 선들 가운
데서 다음으로 큰 변동성
을 가지는 직선이다.
3.7 주성분 분석
그림 3.8은 이 두 변수들을 이요하여 주성
분 분석을 실행한 MLMiner의 결과를 보여
준다.
재조정된 분산을 보여준다. 즉 z1
은 총변동성의 86%, z2는 총변동수
의 14%를 설명하고 있다.
3.7 주성분 분석
주성분 분석 –점수
처음 17개 시리얼의 칼로리와 등급
에 대한 주성분 분석의 주성분 점수
3.7 주성분 분석
주성분 분석의 절차
1. P개의 원시변수 표기
2. 평균값과 가중평균값을 찾는다.
3. 분산의 크기에 따라서 순위 매김
3.7 주성분 분석
주성분 분석- 공식화
P개의 원시 변수들을 x1,x2,…xp로 표기한다. 주성분
분석에서 새로운 변수의 집합으로서 원시 변수에서
이 변수의 평균값을 차감한 값들의 가중평퓬값인
z1,z2,…zp를 찾는다.
3.7 주성분 분석
이제 전체 15개 변수들을 포함하고 있는 아침용 시
리얼 데이터 집합으로 돌아가서 13개의 수치형 변수
에 적용하면 총 변동성 중 96%가 첫 3개의 성분과
관련되였음을 알수 있다.
3.7 주성분 분석
주성분 분석의 장점:
주성분들이 서로 상관되어 있지 않다는 것이다.
만약 이러한 주성분들을 독립변수로서 사용하
여 회귀모형을 구축한다면 다중공선성의 문제
가 발생하지 않을 것이다.
3.7 주성분 분석
데이터의 정규화
아침 식사용 시리얼 데이터 집합에서 정규화된 13개
수치형 변수를 이용한 주성분 분석결과
3.7 주성분 분석
데이터 정규화는 언제 해야 하는가?
변수가 꽤 다른 단위로 측정되어서 다른 변수들의 변
동성을 비교하는 것이 불분명하거나
변수들의 척도가 동일한 단위로 측정되었지만 그 척
도 자체가 중요하지 않다면 정규화 시키는 것이 바람
직 하다.
그림 3.12 정규화된 아침 식사용 시리얼의 출력결과의 출력결과에 대
한 첫 번째 및 두 번째 주성분 주성분 점수에 대한 산점도
연습문제
사례1
<그림 3.5>에서 범죄율과 주택가격(중앙값)
간의 좌표를 찾아낸 후, 이를 해석하시오.
도표를 보면 맨 왼쪽 하단에서
CRIM은 x축에 나타나고 , MEDV가
y축에 나타난다. 도표에서 범죄가
자주 발생하는 지역의 주택가격은
낮아지고 반대로 안정된 지역은 주
택가격이 높다.
연습문제
사례2- 아침 식사용 시리얼 사례
3.7절의 아침식사용 시리얼 예제의 데이터를 사용하여 다음과 같이 이
를 탐색하고 요약하시오. 일부 레크드들은 결측치를 포함하고 있음에
유의해야 한다. 한가지 해결방안으로는 결측치가 매우 적기 때문에 이
결측치를 먼저 제가하는 것이다. 여러분은 XLMiner의 결측치 처리
(missing data handing)메뉴기능을 사용할수 있다.
a)어느 변수들이 정량적/수치형 변수 또는 순위형, 명목형 변수인가?
정량적 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass, vita
mins, weight, cups
수치형 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass ,vita
mins, weight ,cups
순위형 변수: rating
명목형 변수: mfr,type,shelf
연습문제
b)각 정량적 변수들의 평균, 중앙값,최소값,최대값,그리고 표준편차
를 포함하는 표를 작성하시오. 이 표는 엑셀 함수 또는 엑셀의 도구
데이터 분석-> 기술적 통계 메뉴를 이용하라.
연습문제
c)XLMiner를 사용하여 각각의 정량적 변수들에 대한 히스토그
림을 작성하시오.
히스토 그램과 요약통계량을 토대로 다음의 질문에 답하시오.
가. 어떤 변수가 가장 큰 변동성을 가지는가?
나트륨과 칼륨
나. 어느 변수의 분포가 한쪽으로 치우쳐 있는가?
weight
다. 극단치로 보이는 값이 존재하는가?
100% Bran , All-Bran with Extra Fiber
d)XLMiner를 사용하여 저온용 대 고온용 시리얼에 함유된 칼로리를
비교하는 나란히 근접한 상자그림을 그리시오. 이 그림은 어떤 정보를
보여주는가?
칼로리가 고온일때에는 항상 100을 유지하고 저온일때에는 칼로리는
상대적으로 100보다 크다
Box Plot
Y Values
200
calories
Series2
150
Series3
100
Series4
Series5
50
Series6
0
C
type
H
Series7
연습문제
e) XLMiner를 사용하여 진열대 높이의 함수로서 고객등급에 대해
나란히 근접한 상자그림을 그리시오. 진열대의 높이로부터 고객등
급을 예측한다면 , 선반 높이의 3가지 범주 모두를 유지해야 한다.
Box Plot
100
rating
80
Y Values
Series2
Series3
60
Series4
40
Series5
Series6
20
Series7
0
1
shelf2
3
Series8
f)정량적 변수에 대한 상관관계 테이블을 작성하시오(엑셀의 도구> 데이터 분석->상관관계 분석 메뉴). 추가로 XLMiner를 사용하여
이들 변수들에 대한 행렬 산점도를 작성하시오.
가. 어떤 변수의 쌍에서 가장 강한 상관관계가 존재하는가?
Sodium과 fiber , calories 와 fiber , calories와 sodium
나. 이러한 상관관계 결과에 기초하여 어떻게 변수들의 수를 줄일 수 있는
가?
서로 강한 상관 관계를 가지고 있는 변수들을 하나로 묶어준다.
다. 데이터를 먼저 정규화시킨다면 상관관계 결과는 어떻게 변할 것인가?
g)<그림 3.10>의 맨 왼쪽의 첫 번째 열을 살펴본 후, 이 열이 무엇을
나타내고 있는지를 간략히 설명하시오.
주성분과 주성분 점수를 나타내고 있는 그림이다. 이 그림에서는 나트륨과
칼륨이 그림 3.10에서 강한 상관관계를 가지고 있는다. 즉 나트륨과 칼륨이
아침식사용 시리얼 데이터에 가장 큰 영향을 가져다 준다.
연습문제
포도주의 화학적 특성 사례
<표 3.5>는 정규화되지 않은 데이터의 주성분 분석결과를 보여준다.
이 결과에서 각 변수들은 포도주의 화확적 특징들을 나타내고 각각의
사례는 다른 포도주들로 구성된다.
a)데이터는Wine.xls 파일에 잇다. ‘분산’이라고 쓰여진 맨 끝행쪽을 보
시오. 왜 1열의 분산이 다른 열의 분산보다 훨씬 더 큰지를 설명하시
오.
기존 데이터에 결측치를 가지고 있는데 표 3.5에서는 데이터 정규
화를 진행하지 않았다.
b)a)부분에서 정규화의 사용에 대해 의견을 제시하시요.
결측치를 가지고 있는 변수는 제거해야 한다.
연습문제
대학 순위 사례
미국의 전문대학과 종합대학교의 순위에 대한 데이터 집합
(www.dataminigbook.com에서 참조)은 학부교육 프로그램을
제공하는 1.302개의 미국 전문대학 및 종합대학교의 정보를 담
고 있다. 각 대학교에 대해서는 연속형 측정치와 범주형 측정치
들을 포함하여 총 17개의 측정항목들을 포함하고 있다.
a)모든 범주형 변수들을 제거하시오. 그 다음에 데이터 집합에
서 수치형 측정치에서 결측치를 포함하고 있는 모든 레코드들
을 제거하시오.
b)정제된 데이터를 대상으로 주성분 분석을 실시하고 그 결과를
분석하시오. 이때 데이터는 정규화시켜야 하는가? 이 분석에서 중
요하게 고려해야 할 주성분은 무엇인가?
정규화시키지 않아도 된다.- 주성분 분석을 통하여 서로 강한 상관
관계를 가지는 변수가 없다.
고려해야 할 주성분은 7번째 주성분이다.
연습문제
도요타 코롤라 자도차 판매 사례
TototaCorolla.xls 파일에는 네델란드에서 2004년 늦여름 동안에 판
매된 도요타 코롤라 중고차에 대한 데이터가 수록되어 있다. 이 파
일은 ‘가격’,’사용시간’,’주행거리’,’마력’,그리고 다른 사양정보들을 포
함한 총 38개 속성들을 상세한 정보를 담고 있으며 , 총 1,436개의
레코드들로 구성된다. 이 사례의 목적은 상세한 속성정보들을 토대
로 도요타 코롤라 중고차의 가격을 예측하는 것이다.
a) 범주형 변수들을 구별해 내시오
Us,source, web_order, Gender=Mfr_Guarantee , BOVAG_Guar
antee ,ABS ,Airbag_1, Airbag_2, Airco, Automatic_airco, Boar
dcomputer ,CD_Player ,Central_Lock ,Powered_Windows ,Po
wer_Steering ,Radio, Mistlamps ,Sport_,Model, Backseat_,Di
vider, Metallic_,Rim Radio_cassette ,Tow_Bar
b) 범주형 변수와 그 변수로부터 파생된 이진 더미변
수 간의 관계를 설명 하시오.
c)N개의 범주를 가진 범주형 변수들의 정보를 포함
시키기 위해서는 얼마나 많은 더미변수들이 필요한
가?
N-1개의 더미변수가 필요하다.
연습문제
d)XLMiner의 데이터 처리기능을 이용하여 데이터 집합의 범
주형 변수들을 이진 더미변수들로 변환시킨 후 , 하나의 레
코드에 대해서 이진 더미변수들의 값들을 간략히 설명하시
오
자동차의 색상을 표시하는 변수에서 자동차 색상이 화이트
이면 1 화이트가 아니면 0으로 표시한다.
e)엑셀의 상관관계 분석 명령(도구->데이터 분석->상관관계
분석 메뉴)을 이용하여 상관관계 행혈표를 작성하고,
XLMiner의 행렬 산점도를 이용하여 전체 산점도에 대한 행
렬표를 생성시키시오. 그리고 이 표를 이용하여 변수들 간의
관계를 설명하시오.