[ML/DL 스터디] <Classification - 3> Logisitic Regression, Kernel

Reference

https://iai.postech.ac.kr/teaching/machine-learning
https://iai.postech.ac.kr/teaching/deep-learning
위 링크의 강의 내용에 기반하여 중요하거나 이해가 어려웠던 부분들을 정리하여 작성하였고,
모든 강의 슬라이드의 인용은 저작권자의 허가를 받았습니다.

또한, 모든 내용은 아래 Notion에서 더 편하게 확인하실 수 있습니다.
>>노션 링크<<

Keywords

Logistic Regression
sigmoid, softmax
log likelihood
Kernel trick

Logistic Regression - Motivation

Perceptron → data들의 부호 ( $g (x) = 0$ 을 기준으로 어느 쪽에 위치해있는지) 에 따라,

SVM → data와 separator의 minimum distance(margin)에 따라 결정.
(각 class에서 separator와 가장 가까운 하나의 data point에 좌우됨.
minimum distance를 maximize하는 과정!)

모든 data point에 대한 거리 정보를 이용하여 Optimization을 하고 싶음
→ Logisitic Regression을 이용!

거리를 이용해 separator를 가운데로 놓도록.

만약 거리의 합을 이용하면? → 좌, 우 경우가 같은 결과를 가짐.

거리의 곱을 이용하면? → 왼쪽이 더 큼.

(아래의 산술기하평균부등식을 이용. 저 부등식이 같아지는 경우는 $h_{1} = h_{2}$ 일 때. 따라서, maximize하는 Optimization 문제를 구성하면 → 같아질 때가 최대이므로, 딱 중간에 오도록 할 수 있음.)

두 개의 data point에서 확장하면 위와 같다.

동일하게 산술, 기하평균을 이용하여 계산.

$Π_{i} | h_{i} |$ 를 maximize하는 $g (x) = 0$ ( $ω$ )를 찾는 Optimization 문제가 된다.

(엄밀하게는 여러 변수에 대한 산술기하평균부등식의 maximization은 모든 거리가 같아야 하지만, 일단은 rough하게 이해하고 지나가면 될 듯.)

결국 두 class의 중간 지점을 찾는 문제!

Logistic Regression - Training

Sigmoid Function(Logistic Function)을 이용하게 된다. 이를 사용할 때의 장점은

Monotic하여 Optimization 문제를 바꾸지 않으며
연속적이고, 미분가능하여 GD에 사용하기 좋음.
확률로써 바라볼 수 있음.

마지막이 중요한데, 모든 값을 0~1 사이의 값으로 mapping하므로, 확률로써 바라볼 수 있다는 것이 장점.

예를 들어, 특정 input x에 대해 class 0일 확률이 $P (y = 0 | x; ω)$ 인 것.

(sigmoid를 적용하였을 때, 그 값이 0-1 사이 이므로...)

그러한 Sigmoid Function을 이용하여 parameter $ω$ 를 fit(train)하는 식을 표현할 수 있다.

PDF의 첫 번째 식처럼 sigmoid를 $h_{ω} (x)$ 로 표현하면 저렇게 나타낼 수 있다.

그 이후, 첫 번째 식의 두 줄을 아래의 두 번째 식처럼 간단히 나타낼 수 있는데, 저렇게 compactly describe할 수 있는 이유는 data point들에 대해 y값이 항상 0 or 1이기 때문이다.
(따라서, y=0이면 $(h_{ω} (x))^{y} = 1$ 이 되어 앞의 항의 없어지고 뒤의 항만 남으며, 반대의 경우도 마찬가지.)