ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION
2024. 10. 16. 19:04
이 논문은 2015년 ICLR에 발표된 연구이다. 딥러닝 Loss function 최적화 알고리즘의 정석으로 자리잡은 Adam 옵티마이저에 대한 논문이다.Adam 알고리즘은 lower-order 모멘텀 바탕의 adaptive 측정을 기본으로한 일계도함수(first-order gradient-based optimization)를 활용한 확률적 목적함수 최적화이다. 기울기의 diagonal rescaling에 불변하고 데이터나 파라미터가 커도 잘 적용된다. 논문을 이미 한번 읽은 상황이긴해도 diagonal rescaling에 불변하다는 것이 무슨 의미인지 이해가 잘 안가 chatgpt에게 물어봤다. 결과적으로는 서로 다른 가중치를 알고리즘이 보정한다는 것이다. 그리고 Adam은 온라인 학습같이 시간에 따라..