Layer normalization
2024. 9. 17. 23:01
Layer normalization (레이어놈)은 Batch normailzation (배치놈)의 단점을 극복하기 위해 고안된 방법이다. 2016년 발표된 논문으로 12000회 이상 인용되었고 Transformer 구조에도 포함된 정규화 방법이다. 매우 유명한 방법이라는 이야기이다.배치놈은 Internal Covariate Shift 문제를 해결하기 위한 배치 단위의 정규화 방법이다. 모델을 학습할 때 입력 값은 가중치가 곱해지고 bias 더해진 뒤 활성화 함수를 거쳐 출력이 된다. 다음 층에서는 이전 층의 출력으로 다시 학습해야 하는데, 값이 계산되는 과정(입력->출력)을 거치면서 값들의 분포가 조금씩 달라지게 된다. 이러한 변화는 일종의 snowball로서 층이 깊다면 처음 입력에 비해 값들의 분포..