예제 2 : 아침 식사용 시리얼 (계속)

Download Report

Transcript 예제 2 : 아침 식사용 시리얼 (계속)

조 오훈
석사 2학기
1.
개 요
2.
예제를 통한 고찰
3.
데이터의 요약
4.
데이터의 시각화
5.
상관관계 분석
6.
범주형 변수의 범주 개수 축소
7.
주성분 분석
2
1. 개 요
모형의 차원(dimensionality) = 독립변수(입력변수)의 수
모형의 차원(dimensionality)은 모형에 사용된 독립변수(입력변수)의 수를 가리킨다.
데이터행렬에서 열을 의미
과적합화(Overfitting)의 원인
서로 상관관계가 높은 입력변수들 : 월소득(X1), 세금(X2)
출력변수와 관계가 없는 입력변수들: 월소득(X1) ⇒ 키(Y)
과적합화(overfitting) 현상
불필요한 변수의 사용은 모형의 과적합화(overfitting) 현상을 일으켜 모형의 정확도와 신뢰도를 떨어뜨릴 수 있다.
차원축소 = 불필요한 변수 제거 과적합화 현상 방지
주요 과정 : 정확도를 유지하며 차원을 축소하는 방법을 찾는 것.
3
2. 예제를 통한 고찰
예 : 보스톤 지역의 주택가격
변수명
보스톤의 인근 지역별로 14개의
CRIM
많은 변수들을 수록.
변수 : 범죄율, 학생/교사비율,
인
근지역의 주택가격(중앙값) 등
데이터탐색 : 전문가의 지식
변수 내역
자치시(town)별 일인당 범죄율
ZN
25,000 평방피트를 초과하는 거주지역의 비율
INDUS
비소매 상업지역이 점유하고 있는 토지의 비율
CHAS
찰스강 더미변수 (강의 경계에 위치한 경우는 1, 아니면 0)
NOX
질소산화물(PPM: 1,000만분의 1)
RM
1가구 주택당 평균 방의 개수
AGE
1940년이전에 건축된 소유주택의 비율
미래에 측정 가능한 변수인가?
DIS
5개의 보스톤 직업 센터까지의 가중평균거리
비용 측면에서 타당한가?
RAD
방사형의 도로까지의 접근성 지수
TAX
10,000달러당 재산세율
출력변수에 직접적으로 영향을
미칠 것 같은 변수는?
예) 경매종가(Y)의 예측을 위해서
경매종료 때까지는 입찰 횟수(X)
를 독립변수로 사용불가.
PTRATIO
B
자치시(town)별 학생/교사 비율
1000(Bk-0.63)2, Bk는 자치시별 흑인의 비율을 말한다.
LSTAT
모집단의 하위계층의 비율(%)
MEDV
본인소유 주택가격(중앙값) (단위: 천달러)
4
3. 데이터의 요약
1 단계 : 데이터 탐색
데이터를 이해하고 요약표와 그래프를 통해 그 특성을 파악하는 것.
데이터 분석에서 매우 중요하며, 데이터에 대한 이해가 높을수록, 모형구축의 결과는 더 나아진다.
• 엑셀에서 제공하는 데이터 요약 함수 : average, stdev, min, max, median, count
• 이 함수들은 변수가 지닌 척도와 값의 유형에 대한 정보를 제공한다
• min, max 함수: 오차일 가능성이 있는 극단치(outlier)를 찾아내는데 사용.
• average(평균값)와 median(중앙값) 함수 : 각 변수의 대표값을 알 수 있음.
- average와 median 값의 편차가 크다는 사실은 이 변수의 분포가 비대칭,
(한쪽으로 경사진 왜도(skewness)가 존재함을 알려줌)
• stdev(표준편차함수) : 데이터의 분산정도를 알려줌.
• countblank : 빈칸의 개수를 알려주는 함수.
- 결측치(missing value)에 대한 정보를 알려줌.
• 엑셀 : 도구 ⇒ 데이터분석 ⇒ 기술통계량 에서 13가지 요약 통계량 생성.
5
3. 데이터의 요약 (계속)
1 단계 : 데이터 탐색
데이터를 이해하고 요약표와 그래프를 통해 그 특성을 파악하는 것.
데이터 분석에서 매우 중요하며, 데이터에 대한 이해가 높을수록, 모형구축의 결과는 더 나아진다.
6
3. 데이터의 요약 (계속)
2 단계 : 두개 이상의 변수들간의 관계를 요약
수치형 변수에 대해서는 두 변수간의 상관관계를 계산.
▪ (엑셀함수로는 correl을 사용한다)
▪ 엑셀의 도구 ⇒ 데이터분석 메뉴에서 상관관계분석 기능을 이용하여 데이터의 각 변수쌍에 대한 전체 상관관계분석 행렬표를
얻을 수 있다.
7
3. 데이터의 요약 (계속)
2 단계 : 두개 이상의 변수들간의 관계를 요약
변수들간의 관계를 분석하는데 매우 유용한 또 다른 도구로는 엑셀의 피봇 테이블(데이터 메뉴에 있음)이 있다.
▪ 피봇 테이블 : [데이터] 메뉴(2003버젼), [삽입] 메뉴(2007, 2010버젼)에 있음.
8
4. 데이터의 시각화
또 다른 효과적인 탐색적 분석 : 그래프와 도표를 이용한 분석
예) - 단일 수치형 변수의 분포 분석 : 히스토그램과 상자그림 등이 사용.
- 범주형 변수의 분석 : 막대도표 또는 원그림이 사용.
9
4. 데이터의 시각화 (계속)
또 다른 효과적인 탐색적 분석 : 그래프와 도표를 이용한 분석
예) - 단일 수치형 변수의 분포 분석 : 히스토그램과 상자그림 등이 사용.
- 범주형 변수의 분석 : 막대도표 또는 원그림이 사용.
• (a) 그림 : MEDV(주택가격 히스토그램.
- 20~25의 값을 갖는 MEDV의 중심 영역을 이용해
MEDV의 왜도(분포의 비대칭성) 보임.
• (b) 그림 : 강 유역 또는 강 유역 이외의 지역을
구분하여 CHAS(찰스강 더미변수)의
상자그림.
- 강유역 인근지역은 주택가격이 조금 비산 지역
10
4. 데이터의 시각화 (계속)
산점도 : 수치형 변수들간의 관계를 보여주는데 매우 유용.
데이터의패턴과 극단치를 발견하는데도 유용.
- 행렬 산점도 : 한번에 변수군 사이의 모든 가능한 산점도를 한 페이지에 조합함으로써 다수의 산점도를 조사한다.
: 많은 변수들 사이의 관계를 신속하게 그래프로 보여준다.
• 그림3.5 : 보스톤 주택 데이터의 4개 변수에 대한
행렬 산점도
- 좌측 하단 : CRIM(범죄율)은 주로 x축에 분포
MEDV(주택가격은 주로 y축에 분포
- 우측 상단 : CRIM(범죄율)은 주로 y축에 분포
MEDV(주택가격은 주로 x축에 분포
- 우측 하단 : 하위계층이 많을수록 주택가격(중앙
값)이 낮다.
- 우측 상단, 좌측 하단 : 범죄율이 높을수록 주택
가격(중앙값)이 낮다.
11
5. 상관관계 분석
상관관계 행렬을 조사 : 중복성을 찾는 간단한 방법
많은 후보 예측 변수들을 포함하고 있는 데이터 집합에서는 변수군이 갖고 있는 정보가 상당히 중첩.
이 행렬은 변수간의 모든 이원 상관관계를 보여줌
변수의 제거 : 한 쌍의 상관관계를 갖는 변수의 제거
매우 강한 양(+) 또는 음(-)의 상관관계를 갖는 한 쌍의 변수들은 서로 정보의 중복성이 크게 나타나기 때문에 이 중 한 변수
를
제거하는 것이 필요(이러한 과정은 데이터 축소를 위한 좋은 방안이 됨).
다중공선성(multicollinearity) : 독립변수들 간에 강한 상관관계가 나타나는 문제
다른 변수들과 강한 상관관계를 변수들을 제거 = 다중공선성(multicollinearity) 문제를 피하는데 유용.
- 다중공선성(multicollinearity) : 2개 이상의 예측변수들이 출력변수와 동일한 선형관계를 공유하는 것.
12
6. 범주형 변수의 범주 개수 축소
범주형 변수가 많은 범주를 갖고 있고 이 변수가 예측변수로 선정될 경우
변수가 많은 더미변수로 바뀌어진다.
m개의 범주를 갖는 변수를, 분석에 사용할 경우 m-1개의 더미변수로 변환된다.
= 비록 원래에는 매우 적은 수의 범주형 변수를 갖는다할지라도 데이터 집합의 차원이 매우 커질 수 있다.
범주형 변수를 처리하는 한가지 방법
가까운 범주들을 하나로 합침 = 범주의 수를 줄이는 것.
이 방법 적용할 경우 : 전문가의 지식과 일반적인 상식을 함께 고려 해야한다.
= 피벗 테이블을 이용
피벗 테이블의 장점
다양한 범주의 크기를 파악.
반응변수가 각각의 범주에 대해 어떻게 반응하는지를 파악.
- 크기가 매우 작은 관찰치를 포함하는 범주들은 다른 범주와 통합될 수 있는 유력한 후보군이다.
- 분석에 가장 관련성이 있는 범주들만 사용하고, 나머지는 ‘기타 범주’로 범주이름을 부여할 수 있다.
13
7. 주성분 분석(PCA)
주성분 분석(principal component analysis: PCA)
입력변수를 분석함으로써 모형의 예측변수의 수를 줄이기 위한 유용한 기법.
계량변수에 대해 사용되는 분석기법이다.
동일한 척도로 측정되고 서로 상관관계가 높은 항목들로 구성된 부분집합을 가질 경우에 특히 유용.
원시 변수들을 가중치로 적용하여 선형 조합한 소수의 변수들을 생성시킨다.
다변량 데이터(multivariate data)를 저차원의 데이터로 재표현(re-express)하는 방법.
원시 데이터의 정보(분산)를 최대한 설명하는 형태로 데이터를 재조합.
범주형 변수의 경우 : 대응분석(correspondence analysis)과 같은 다른 기법들이 더 적합하다.
14
◈
예제 2 : 아침 식사용 시리얼
◈
주성분
◈
데이터 정규화
◈
주성분 분석을 이용한 분류와 예측
15
☞ 예제 2 : 아침 식사용 시리얼 (파일명 : Cereals.xls)
77가지 아침식사용 시리얼 제품의 영양정보와 고객 평가자료
13개의 수치형 변수들로 구성.
변수들의 차원을 줄이는데 목적.
시리얼에 대한 정보는 섭취량(serving size)보다는 용기 단위의 시리얼을 기초로 수집.
=> 대부분의 사람들은 단순히 무게가 아닌 일정한 용량을 나타내는 시리얼 용기를 사용하기 때문
<표3.6> 아침 식사용 시리얼 데이터 집합의 표본 데이터
16
☞ 예제 2 : 아침 식사용 시리얼 (계속)
77가지 아침식사용 시리얼 제품의 영양정보와 고객 평가자료
13개의 수치형 변수들로 구성.
변수들의 차원을 줄이는데 목적.
시리얼에 대한 정보는 섭취량(serving size)보다는 용기 단위의 시리얼을 기초로 수집.
=> 대부분의 사람들은 단순히 무게가 아닌 일정한 용량을 나타내는 시리얼 용기를 사용하기 때문
변수명
mfr
type
calories
protein
fat
sodium
fiber
carbo
sugars
potass
vitamins
shelf
weight
cups
rating
변수 내역
시리얼의 제조업체명(American Home Food Products, General Mills, Kellogg 등)
저온용(차가운 우유용) 또는 고온용(따뜻한 우유용)
한 끼분의 함유된 칼로리
단백질(그램)
지방(그램)
나트륨(밀리그램)
식이섬유(그램)
복합 탄수화물(그램)
설탕(그램)
칼륨(밀리그램)
비타민과 무기질: 0, 25, 또는 100 등으로 FDA에서 권장하는 일반적인 비율을 가리킨다.
전시되는 진열대(바닥으로부터 1, 2, 3 번호가 부여됨)
한 끼분의 시리얼의 무게(온스)
한 끼분의 시리얼의 용량(컵의 수)
고객보고서(Customer Report)에 의해 산출된 시리얼 등급
<표3.3> 아침식사용시리얼데이터집합의변수내역
17
☞ 예제 2 : 아침 식사용 시리얼 (계속)
공분산 행렬
2개의 변수 : 칼로리(calories)와 고객등급(consumer rating) 변수에 초점.
공분산 행렬 구하는 식 예제
라고 할때, 일단 평균을 구한다.
공분산 매트릭스를 구하는 식은 아래와 같다.
18
☞ 예제 2 : 아침 식사용 시리얼 (계속)
공분산 행렬
2개의 변수 : 칼로리(calories)와 고객등급(consumer rating) 변수에 초점.
공분산 행렬 구하는 식 예제
즉, 공분산 매트릭스
이다.
- 공분산 행렬의 (0,0) (1,1) 은 각 데이터간 분산 : 각 데이터의 퍼진 정도의 의미.
- 대칭되는 두개는 데이타가 위치한 패턴을 의미.
19
☞ 예제 2 : 아침 식사용 시리얼 (계속)
77가지 아침식사용 시리얼 제품의 영양정보와 고객 평가자료
13개의 수치형 변수들로 구성.
변수들의 차원을 줄이는데 목적.
시리얼에 대한 정보는 섭취량(serving size)보다는 용기 단위의 시리얼을 기초로 수집.
=> 대부분의 사람들은 단순히 무게가 아닌 일정한 용량을 나타내는 시리얼 용기를 사용하기 때문
20
☞ 예제 2 : 아침 식사용 시리얼 (계속)
2개 주성분의 방향을 이용한 등급대 칼로리에 대한 산점도
1차 주성분 : 데이터 집합에 있는 점들을 직각으로 교차하여 투영할 때 Z₁값의 변동성이 최대가 되는 직선.
직선과 점들 간의 수직거리를 제곱한 합계값을 최소화하는 선.
2차 주성분 : 두번째로 큰 변동성을 갖지만 Z₁과 상관관계가 없는 정보를 갖는다.
Z₂축이 Z₁축과 직각으로 교차하는 선.
<표3.7> 2개 주성분의 방향을 이용한 등급대 칼로리에 대한 산점도
21
☞주성분
가중 평균값
p>2인 변수까지 쉽게 일반화 되도록 주성분(Principal Components) 분석의 절차 공식.
- p개의 원시 변수들을 X1, X2,…,XP로 표기한다.
- 주성분 분석에서 새로운 변수의 집합으로서 원시 변수에서 이 변수의 평균값을 차감한 값들의 가중평균값 Z1,Z2,…,ZP을
찾는다.
22
☞ 데이터의 정규화
데이터의 정규화(Standardization)
주성분 분석을 좀 더 활용하면 데이터의 구조를 쉽게 이해 가능.
- 원시 데이터가 서로 다른 주성분들에 어떻게 공헌하는지를 살펴보기 위해 가중치를 조사함으로써 이루어진다.
측정항목간의 측정척도가 다를 경우 :
- 주성분의 실제적인 공헌도와는 상관없이 그 값이 큰 측정항목을 중심으로 주성분이 분석되는 문제 발생 위험성이 존재.
해결 방안 :
- 주성분 분석을 수행하기 전에 데이터를 정규화시킨다.
- 각각의 변수를 표준편차로 나눔으로써 쉽게 이루어진다.
- 정규화 또는 표준화 = 각각의 원시 변수를 분산이 1인 표준화된 변수로 변환시키는 것을 의미
- 정규화(표준화)의 효과 = 모든 변수들이 변동성 관점에서 동등하게 중요한 것으로 간주하는 것
23
☞ 주성분 분석을 이용한 분류와 예측
데이터 축소의 목적
예측변수의 수를 줄여서 좀 더 작은 집합으로 만드는 것.
- 학습용 데이터에 주성분 분석 적용 가능.
보유해야 할 주성분의 수를 결정하기 위해
- 주성분 분석의 결과를 사용한다.
- 모형의 예측변수들은 주성분 점수를 포함한 열을 예측변수로 사용한다.
24
◈
문제풀이
1. 범죄율과 주택가격 간의 좌표 및 해석
2. 아침식사용 시리얼 사례
3. 포도주의 화학적 특성 사례
4. 대학순위 사례
5. 도요타 코롤라 자동차 판매 사례
25
☞ 맺 음 말 : 수업 자료실 안내
3장 발표 참고 자료
http://www.worldnet.me
2, 3장 연습문제 풀이 + XL Miner 도구
인증번호
(3가지)
XL-Miner
XL-Miner
(엑셀 2010 – x86용)
(엑셀 2010 – x64용)
XL-Miner
(엑셀 2007용)
26
☞Q&A
조 오훈
석사 2학기
27