Attention is all you need - 2 (모델 아키텍쳐1)
2022. 9. 21. 00:16
이번 글에서는 Transformer 구조에 대해 알아보자. Model Architecture 신경망 시퀀스 생성 모델은 인코더-디코더 구조가 대세였다. 인코더는 입력 시퀀스를 continuous representations(z)으로 매핑한다. z가 주어지면 디코더는 한번에 하나의 출력 시퀀스를 생성한다. 각 시점 별로 모델은 자동 회귀적인(auto-regressive) 성질이 있는데, 이전 시점에 생성한 symbol(representation)을 추가적인 입력으로 포함시킨다. Transformer는 인코더와 디코더에서 self-attention, point-wise fully connected layer를 사용한다. Encoder and Decoder Stacks Encoder 인코더는 동일한 N개의 층..