220v
젝무의 개발새발
220v
전체 방문자
오늘
어제
  • 분류 전체보기 (255)
    • AI (35)
      • ML, DL 학습 (30)
      • 논문 리뷰 (4)
      • 실습 및 프로젝트 (1)
    • Algorithm (145)
      • LeetCode (13)
      • 프로그래머스 (35)
      • 백준 (96)
      • 알고리즘, 문법 정리 (1)
    • Mobile, Application (17)
      • Flutter (10)
      • iOS, MacOS (7)
    • BackEnd (7)
      • Flask (1)
      • Node.js (5)
      • Spring, JSP..etc (1)
    • Web - FrontEnd (18)
      • JavaScript, JQuery, HTML, C.. (12)
      • React (6)
    • DataBase (1)
      • MySQL (1)
      • Firebase Firestore (0)
      • Supabase (0)
    • Git (1)
    • 기타 툴 및 오류 해결 (3)
    • 강의 (5)
      • Database (3)
      • 암호학 (2)
      • 알고리즘 (0)
    • 후기와 회고 (2)
    • 블로그 꾸미기 (1)
    • 일상과 이것저것 (20)
      • 맛집 (12)
      • 세상사는일 (4)
      • 도서리뷰 (1)
      • 이런저런 생각들 (잡글) (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Mathematics
  • 티스토리챌린지
  • Backtracking
  • topological sort
  • 구현
  • binary search
  • disjoint set
  • 프로그래머스
  • REACT
  • brute-Force
  • 백준
  • BFS
  • top-down
  • union-find
  • Priority Queue
  • Minimum Spanning Tree
  • Prefix Sum
  • bitmasking
  • 다익스트라
  • 오블완
  • IMPLEMENT
  • dfs
  • 위상 정렬
  • Greedy
  • implementation
  • Lis
  • simulation
  • two pointer
  • Dynamic Programming
  • dp

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
220v

젝무의 개발새발

AI/ML, DL 학습

MSE(Mean Squared Error)를 왜 2로 나눌까

2024. 3. 21. 18:03

머신러닝을 공부하며 든 궁금증.

cost function (loss function)으로 이용하는 MSE라는 것을 보자마자 궁금해졌다.
분명 평균 제곱 오차 (Mean Squared Error) 라고 했는데, 왜 데이터의 개수(n) 이 아니라, 2n으로 나누는 건가?

읽던 책에도 그 이유가 나와 있지 않았고, 강의 교안에도 딱히 그에 대한 언급은 없었다.

 

결론은 Gradient Descent (경사하강법)을 적용하는 과정에서 미분값을 구하게 되는데,
제곱을 미분하면 2가 생기니까 식이 깔끔해지도록 이를 상쇄시켜 주기 위함이라는 것.

어짜피 cost function을 최소화하는 것에 관심이 있는 것이지, cost function의 값이 정확히 무엇인지는 크게 상관 없기 때문에, 미분식을 더 깔끔하게 만드는 것이 이득이라는 것이다.


+ 그렇다면 어짜피 데이터의 개수 n으로 나누지 않아도 되는 것 아닌가?
cost function의 값을 최소화하는 것이 목표라면, n으로 나누든 나누지 않든 똑같을 것 같은데?

라는 의문이 또 들었고.. 이건 chatGPT한테 물어봤다.

 

3번은 어짜피 미분해도 1/n이 남아 있어서 동의할 수 없지만.. 뭐 그렇다고 한다.

    'AI/ML, DL 학습' 카테고리의 다른 글
    • [ML/DL 스터디] <Optimization - 2> Solving Optimization Problem
    • [ML/DL 스터디] <Optimization - 1> Optimization, Convex Optimization
    • [ML/DL 스터디] <Linear Algebra - 2> Least Square Solution, Orthogonal Projection
    • [ML/DL 스터디] <Linear Algebra - 1> EigenVector(고유벡터), EigenValue(고윳값)의 의미
    220v
    220v
    DGU CSE 20 / Apple Developer Academy @ POSTECH 2nd Jr.Learner.

    티스토리툴바