220v
젝무의 개발새발
220v
전체 방문자
오늘
어제
  • 분류 전체보기 (255)
    • AI (35)
      • ML, DL 학습 (30)
      • 논문 리뷰 (4)
      • 실습 및 프로젝트 (1)
    • Algorithm (145)
      • LeetCode (13)
      • 프로그래머스 (35)
      • 백준 (96)
      • 알고리즘, 문법 정리 (1)
    • Mobile, Application (17)
      • Flutter (10)
      • iOS, MacOS (7)
    • BackEnd (7)
      • Flask (1)
      • Node.js (5)
      • Spring, JSP..etc (1)
    • Web - FrontEnd (18)
      • JavaScript, JQuery, HTML, C.. (12)
      • React (6)
    • DataBase (1)
      • MySQL (1)
      • Firebase Firestore (0)
      • Supabase (0)
    • Git (1)
    • 기타 툴 및 오류 해결 (3)
    • 강의 (5)
      • Database (3)
      • 암호학 (2)
      • 알고리즘 (0)
    • 후기와 회고 (2)
    • 블로그 꾸미기 (1)
    • 일상과 이것저것 (20)
      • 맛집 (12)
      • 세상사는일 (4)
      • 도서리뷰 (1)
      • 이런저런 생각들 (잡글) (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Lis
  • binary search
  • BFS
  • brute-Force
  • implementation
  • dp
  • Dynamic Programming
  • Greedy
  • 백준
  • two pointer
  • top-down
  • Backtracking
  • 프로그래머스
  • 구현
  • 위상 정렬
  • topological sort
  • bitmasking
  • IMPLEMENT
  • disjoint set
  • Mathematics
  • Priority Queue
  • Prefix Sum
  • 다익스트라
  • dfs
  • simulation
  • union-find
  • REACT
  • Minimum Spanning Tree
  • 오블완
  • 티스토리챌린지

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
220v

젝무의 개발새발

AI/ML, DL 학습

[ML/DL 스터디] <Optimization - 3> Gradient Descent

2024. 8. 30. 02:57

Reference

https://iai.postech.ac.kr/teaching/machine-learning
https://iai.postech.ac.kr/teaching/deep-learning
위 링크의 강의 내용에 기반하여 중요하거나 이해가 어려웠던 부분들을 정리하여 작성하였고,
모든 강의 슬라이드의 인용은 저작권자의 허가를 받았습니다.

또한, 모든 내용은 아래 Notion에서 더 편하게 확인하실 수 있습니다.
>>노션 링크<<

 

Gradient Descent

그러나 매번 편미분을 통해 gradient = 0인 지점을 찾는 것은 매번 analytical solution이 존재하는 것은 아니므로, iterative한 방식을 사용한다.

⇒ gradient descent

 

1-dimension의 예시에서 볼 때, gradient>0이면 왼쪽으로, gradient<0이면 오른쪽으로 이동하며 min값을 찾는 것을 확인할 수 있음.

이러한 방식으로, 특정한 learning rate $\alpha$를 지정하고, 특정 지점의 gradient에 따라 갱신해 나가며 minimum point를 탐색.

 

이 때, learning rate $\alpha$가 너무 작다면, converge하기까지 너무 오래 걸리며,

너무 크다면, overshooting이 일어날 수 있다. 적당한 값을 설정해야 함.

 

이 때, Gradient Descent를 통해 Convex function에 대해서는 local min = global min이므로, optimal solution을 항상 찾을 수 있지만,

Non-convex function에서는 여러 local min이 존재하여 한 번의 시도로 optimal solution이 찾아지지 않음.

⇒ random한 init값을 설정하여 여러 번 시도함으로써 해결할 수 있다.

 

고차원에서도 동일함.

이 때는 1차원에서와 달리 기울기가 아닌, Gradient 개념이 활용되면 된다.

이러한 Gradient = 해당 point에서 기울기가 가장 가파른 방향 을 뜻하기 때문에, 그렇게 진행할 수 있음.

    'AI/ML, DL 학습' 카테고리의 다른 글
    • [ML/DL 스터디] <Regression - 2> Nonlinear Regression, Functional Approximation
    • [ML/DL 스터디] <Regression - 1> Linear Regression
    • [ML/DL 스터디] <Optimization - 2> Solving Optimization Problem
    • [ML/DL 스터디] <Optimization - 1> Optimization, Convex Optimization
    220v
    220v
    DGU CSE 20 / Apple Developer Academy @ POSTECH 2nd Jr.Learner.

    티스토리툴바