[Week 3 - Day 3] Dimension Reduction
이제 슬슬 머리가 매우 아파져온다.
이번에는 차원축소를 하는 방법에 대해 배운다.
0. 차원축소의 필요성
차원은 데이터의 변수를 의미한다.
사람을 설명하기 위해 나이, 키, IQ를 활용한다면 데이터는 3차원이 된다.
물론 3차원 정도에서는 데이터를 분석하는 것에 큰 문제가 되지 않는다.
데이터를 시각화하기도 어렵지 않고 직관적으로 이해할 수 있기 때문이다.
하지만 데이터가 4차원만 되더라도 이해하기가 매우 어려워진다.
변수가 100개라면 상상하다가 미칠지도 모른다.
이런 문제를 해결하기 위해 차원축소가 필요한 것이다.
1. 차원축소 방법
대표적인 차원축소 방법은 Principal Component Analysis(PCA)가 있다.
한국어로는 주성분분석이다.
PCA의 핵심은 분산이 가장 큰 분산을 고르는 것이다.
예를 들어 원숭이와 사람을 구별하기 위해 PCA를 활용한다고 해보자.
눈의 개수나 이족보행 여부라는 변수에서 원숭이와 사람은 큰 차이가 없다.
즉 분산이 작게 나타난다.
반면에 꼬리의 유무나 털이 덮인 면적과 같은 변수에서 차이가 크게 나타난다.
즉 분산이 크게 나타난다.
PCA를 하면 분산이 큰 꼬리의 유무와 털이 덮인 면적 변수를 추출할 수 있다.
이를 통해 가장 효과적으로 원숭이와 사람을 구분할 수 있게 된다.
2. Warm-UP 영상 링크
i) Eignevalues and Eignevectors
ii) Principal Component Analysis
iii) Linear Transformations and Matrices
iv) if(kakao)2020 - 추천시스템, 써보지 않겠는가? (Matrix Factorization)
https://tv.kakao.com/v/414129446
모두 행복하길
-끝-