PCA(주성분분석)

Download Report

Transcript PCA(주성분분석)

PCA(주성분분석)
4과목 데이터분석
2장 통계분석
제5장
정훈기
High dimension의 문제
• Feature(차원)들이 많아지면 전통적인 유
사도 거리계산방법들(유클리디안, 맨하튼
등등)이 쓸모가 없어짐
• 많은 파라미터는 많은 데이터와 계산 그리
고 저장공간이 필요해짐
• 시각화하기 어려움
Dimension Reduction의 종류
•
Feature selection
–
•
L<D 중요한 피쳐들만 고르고 D-L개의 피쳐들은 버림
Feature extraction
–
–
–
–
Original 데이터에서 모든 D개의 피쳐를 모두 사용하여
가장 잘 표현하는 L개의 피쳐로 나타내는 방법
PCA
LDA
등등
주성분분석이란 무엇인가?
• PCA(Principal Component Analysis)는 분포된 데이터들을 같
거나 혹은 더 작은 차원으로 축소하여 데이터의 공분산(표본
의 차이)이 가장 큰 벡터를 찾는 분석 방법이다.
• 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관
성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직
교 변환을 사용한다.
• 이 변환은 첫째 주성분이 가장 큰 분산을 가지고, 이후의 주성
분들은 이전의 주성분들과 직교한다는 제약 아래에 가장 큰
분산을 갖고 있다는 식으로 정의되어있다. 중요한 성분들
은 공분산 행렬(orthogonal matrix임, 고유값분해를 위해 반드
시 이래야 함)의 고유 벡터이기 때문에 직교(서로 독립)하게
된다.
2D에서의 PCA 예
PCA의 예제
PCA의 원리
• Xi와 zi의 차이 W를 통해( 최소화, 즉 작은 차원으로 맵핑을 시
킬때 정보손실을 최소화해야함. (reconstruction error 최소화)
• Reconstruction error를 최소화 한다는 말은 z의 분산을 최대
화 한다는 말, 주성분을 알아내기 위해서 기존차원을 더 잘 표
현하는 다른 차원으로 보내므로 그에 따른 정보 손실을 줄여
야 하는데 이 정보손실을 줄이기 위해서는 새로운 차원에서
기존 차원의 정보를 잘 표현해야하고 이를 분산이 크다는 것
은 데이터의 차이가 크다 즉 구별이 잘된다는 말임.
• 이를 위해서는 공분산 행렬을 구해 고유값분해를 해야함
PCA 원리
• .
PCA의 원리
공분산이란?
• 단, mx는 x의 평균, my는 y의 평균, E[]는 기
대값(평균)
• x의 분산은 x들이 평균을 중심으로 얼마나 흩
어져 있는지를 나타내고, x와 y의 공분산은 x,
y의 흩어진 정도가 얼마나 서로 상관관계를
가지고 흩어졌는지를 나타냄
공분산 행렬
• 데이터의 좌표 성분들 사이의 공분산 값을
원소로 하는 행렬로서 데이터의 i번째 좌
표 성분과 j번째 좌표 성분의 공분산 값을
행렬의 i행 j열 원소값으로 하는 행렬이다.
공분산 행렬
공분산 행렬
주성분 분석의 해석
• Loadings는 각 주성분에서 해당 feature
영향도로 보면 됨.