[ML/DL 스터디] <Dim. Reduction> Principal Component Analysis (PCA)

Reference

https://iai.postech.ac.kr/teaching/machine-learning
https://iai.postech.ac.kr/teaching/deep-learning
위 링크의 강의 내용에 기반하여 중요하거나 이해가 어려웠던 부분들을 정리하여 작성하였고,
모든 강의 슬라이드의 인용은 저작권자의 허가를 받았습니다.

또한, 모든 내용은 아래 Notion에서 더 편하게 확인하실 수 있습니다.
>>노션 링크<<

Keywords

covariance, correlation coefficient
Dimension Reduction
PCA algorithm
covariance matrix, eigenvalue, eigenvector

Sample Covariance: (*여기서는 2차원) 두 개의 변수에 대한 공분산.
⇒ 사실 $S_{x}$ 도 covariance의 시점에서, $S_{x x}$ 로 바라볼 수 있는 것.
그렇게 되면, $S_{x x} = \frac{1}{m - 1} \sum (x^{i} - \bar{x}) (x^{i} - \bar{x})$ 임. (Sample Variance의 식과 동일)

Sample Covariance Matrix: (위의 Sample Covariance를 참고하여-)
$S = [\begin{matrix} S_{x x} & S_{x y} S_{y x} & S_{y y} \end{matrix}]$ 와 같음.

Sample Corellation coefficient: 상관계수. 공분산을 각 변수의 표준편차의 곱으로 나눈 것.
Covariance를 normalizing하는 느낌으로 받아들이면 될 듯.

*두 변수 사이의 Strength of linear relationship 이다.
(변수 간의 선형 관계의 강도와 방향을 의미, -1 ~ 1 사이의 값을 가지며, 1에 가까울 수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0에 가까울수록 선형 상관관계가 존재하지 않음을 의미.)

Dimension Reduction

Dimension Reduction

고차원의 data를 저차원으로 표현
information의 손실을 최소화하며, useful한 representation을 얻을 수 있도록

이의 장점?

저차원에서 바라봄으로써, 시각적으로 data의 구조, 특성을 파악 가능
overfitting의 가능성을 낮춤. (dimension 낮춤)
training 속도 상승 / 저장공간 적게 사용
Dim. Reduction ≠ feature selection
- Dim. Reduction ⇒ 모든 feature를 버리지 않고 새로운 dimension으로 표현.
- feature selection ⇒ 큰 영향이 없는 feature를 drop
- $∴$ Dim. Reduction → feature drop이 아닌, extract의 관점.

high redundancy → Dim. Reduction의 가능성이 큼.

( $x_{1}$ 을 알면 어느정도 correlation이 있기 때문에 (선형적인 연관이 존재) $x_{2}$ 를 predict 가능한.)

PCA: Introduction

왼쪽과 같은 2D dataset에서 $x_{2}$ 축에 대한 정보를 무시하고, $x_{1}$ 만 남긴다고 해도( $x_{1}$ 축으로 projection), 정보의 손실이 크지 않음.

대부분의 data가 $x_{1}$ 축에 대해 분포되어 있음.

→ 이러한 아이디어를 이용한다!

오른쪽과 같은 2D dataset에서는 $x_{2}$ 축에 대한 정보를 무시하면 정보의 손실이 큼.

따라서, 이와 같이 새로운 두 축 $u_{1}, u_{2}$ 로 바라본다는 아이디어.

가장 variance가 높은 축을 기준으로 orthogonal한 $u_{2}$ 축 같이 정의.
→ $u_{2}$ 를 제거하여 dim. Reduction.

PCA에서 PC(Principal Component, 주성분): data에서 max variability를 갖는 방향 ( $u_{1}$ )

또는, Sum of Square (lost information)을 minimize하는 방식으로 Reduction.

PCA: algorithm

PCA를 수행하기 이전 Preprocessing 과정

Shift to zero mean: 모든 data에서 평균을 빼서, 평균이 0이 되도록 변경.
Rescaling (unit variance): 분산을 구해 표준편차로 모든 data를 나누어 rescaling.
→ 이렇게 하면 분산이 1이 됨. (unit variance)

전처리 이후, Variance를 maximize하는 과정.

projection을 수행했을 때 variance를 maximize할 수 있는 unit vector $u$ 를 찾기.

(첫번째 줄)

u 방향으로 x를 projection한 결과는
$x \cdot u = | x | | u | c o s θ = | x | c o s θ$ 임. ( $| u | = 1.$ unit vector이므로)

$u \cdot x$ 를 대수적으로 표현하면, $u^{T} x = x^{T} u$ 이므로, 모두 동치.

(여기서 $u^{T} x = x^{T} u$ 가 성립하는 것은 각각 1 x n과 n x 1 벡터이기 때문에, 내적이고, 결과가 스칼라값이기 때문. 일반적으로는 특별한 경우 외에 성립하지 않음.)

(두번째 줄)

$X^{2} = X^{T} X$ , $(x^{T} u)^{T} = u^{T} x$ 임을 이용.

(세번째 줄)

\sum_{i = 1}^{m} x^{(i)} (x^{(i)})^{T} = S

**(sample covariance matrix) 인 이유에 대하여**

우선, 위에서 계산했던 Sample Covariance는

$S_{x y} = \frac{1}{m - 1} \sum_{i = 1}^{m} (x^{i} - \bar{x}) (y^{i} - \bar{y})$ .

그리고 Sample Covariance matrix는

$S = [\begin{matrix} S_{x x} & S_{x y} \\ S_{y x} & S_{y y} \end{matrix}]$ 이다.

PCA 이전 Preprocessing으로 Standardization을 수행했던 것을 기억하자.

이미 모든 Sample data에 대한 mean = 0, variance = 1 이다.

$x^{(i)} (x^{(i)})^{T} = [\begin{matrix} x_{1}^{(i)} \\ x_{2}^{(i)} \\ ⋮ \\ x_{n}^{(i)} \end{matrix}] [\begin{matrix} x_{1}^{(i)} & x_{2}^{(i)} & \dots & x_{n}^{(i)} \end{matrix}] = [\begin{matrix} x_{1}^{(i)} x_{1}^{(i)} & x_{1}^{(i)} x_{2}^{(i)} & \dots & x_{1}^{(i)} x_{n}^{(i)} \\ x_{2}^{(i)} x_{1}^{(i)} & x_{2}^{(i)} x_{2}^{(i)} & \dots & x_{2}^{(i)} x_{n}^{(i)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{n}^{(i)} x_{1}^{(i)} & x_{n}^{(i)} x_{2}^{(i)} & \dots & x_{n}^{(i)} x_{n}^{(i)} \end{matrix}]$

실제 Summation 안의 식을 행렬로 표현하면 위와 같다.

충분히 큰 Sample에서 $m \approx m - 1$ 이고, mean = 0이므로,

$S_{x_{1} x_{2}} = \frac{1}{m} \sum_{i = 1}^{m} x_{1}^{(i)} x_{2}^{(i)}$ 이다.

따라서, 아래와 같음을 알 수 있다.

$S = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} (x^{(i)})^{T} = \frac{1}{m} [\begin{matrix} \sum_{i = 1}^{m} x_{1}^{(i)} x_{1}^{(i)} & \sum_{i = 1}^{m} x_{1}^{(i)} x_{2}^{(i)} & \dots & \sum_{i = 1}^{m} x_{1}^{(i)} x_{n}^{(i)} \\ \sum_{i = 1}^{m} x_{2}^{(i)} x_{1}^{(i)} & \sum_{i = 1}^{m} x_{2}^{(i)} x_{2}^{(i)} & \dots & \sum_{i = 1}^{m} x_{2}^{(i)} x_{n}^{(i)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \sum_{i = 1}^{m} x_{n}^{(i)} x_{1}^{(i)} & \sum_{i = 1}^{m} x_{n}^{(i)} x_{2}^{(i)} & \dots & \sum_{i = 1}^{m} x_{n}^{(i)} x_{n}^{(i)} \end{matrix}]$

$= \frac{1}{m} [\begin{matrix} S_{x_{1} x_{1}} & S_{x_{1} x_{2}} & \dots & S_{x_{1} x_{n}} \\ S_{x_{2} x_{1}} & S_{x_{2} x_{2}} & \dots & S_{x_{2} x_{n}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ S_{x_{n} x_{1}} & S_{x_{n} x_{2}} & \dots & S_{x_{n} x_{n}} \end{matrix}]$

Reference
Keywords
Multivariate Statistics
Dimension Reduction
PCA: Introduction
PCA: algorithm

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[ML/DL 스터디] <Dim. Reduction> Principal Component Analysis (PCA)

Reference

Keywords

Multivariate Statistics

Dimension Reduction

PCA: Introduction

PCA: algorithm

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역