Transcript PCA(주성분분석)
PCA(주성분분석) 4과목 데이터분석 2장 통계분석 제5장 정훈기 High dimension의 문제 • Feature(차원)들이 많아지면 전통적인 유 사도 거리계산방법들(유클리디안, 맨하튼 등등)이 쓸모가 없어짐 • 많은 파라미터는 많은 데이터와 계산 그리 고 저장공간이 필요해짐 • 시각화하기 어려움 Dimension Reduction의 종류 • Feature selection – • L<D 중요한 피쳐들만 고르고 D-L개의 피쳐들은 버림 Feature extraction – – – – Original 데이터에서 모든 D개의 피쳐를 모두 사용하여 가장 잘 표현하는 L개의 피쳐로 나타내는 방법 PCA LDA 등등 주성분분석이란 무엇인가? • PCA(Principal Component Analysis)는 분포된 데이터들을 같 거나 혹은 더 작은 차원으로 축소하여 데이터의 공분산(표본 의 차이)이 가장 큰 벡터를 찾는 분석 방법이다. • 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관 성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직 교 변환을 사용한다. • 이 변환은 첫째 주성분이 가장 큰 분산을 가지고, 이후의 주성 분들은 이전의 주성분들과 직교한다는 제약 아래에 가장 큰 분산을 갖고 있다는 식으로 정의되어있다. 중요한 성분들 은 공분산 행렬(orthogonal matrix임, 고유값분해를 위해 반드 시 이래야 함)의 고유 벡터이기 때문에 직교(서로 독립)하게 된다. 2D에서의 PCA 예 PCA의 예제 PCA의 원리 • Xi와 zi의 차이 W를 통해( 최소화, 즉 작은 차원으로 맵핑을 시 킬때 정보손실을 최소화해야함. (reconstruction error 최소화) • Reconstruction error를 최소화 한다는 말은 z의 분산을 최대 화 한다는 말, 주성분을 알아내기 위해서 기존차원을 더 잘 표 현하는 다른 차원으로 보내므로 그에 따른 정보 손실을 줄여 야 하는데 이 정보손실을 줄이기 위해서는 새로운 차원에서 기존 차원의 정보를 잘 표현해야하고 이를 분산이 크다는 것 은 데이터의 차이가 크다 즉 구별이 잘된다는 말임. • 이를 위해서는 공분산 행렬을 구해 고유값분해를 해야함 PCA 원리 • . PCA의 원리 공분산이란? • 단, mx는 x의 평균, my는 y의 평균, E[]는 기 대값(평균) • x의 분산은 x들이 평균을 중심으로 얼마나 흩 어져 있는지를 나타내고, x와 y의 공분산은 x, y의 흩어진 정도가 얼마나 서로 상관관계를 가지고 흩어졌는지를 나타냄 공분산 행렬 • 데이터의 좌표 성분들 사이의 공분산 값을 원소로 하는 행렬로서 데이터의 i번째 좌 표 성분과 j번째 좌표 성분의 공분산 값을 행렬의 i행 j열 원소값으로 하는 행렬이다. 공분산 행렬 공분산 행렬 주성분 분석의 해석 • Loadings는 각 주성분에서 해당 feature 영향도로 보면 됨.