Attention is all you need - 3 (모델 아키텍쳐2)
2022. 9. 21. 23:52
이번 글에서는 지난 글에 이어Transformer 아키텍쳐를 공부하고 시퀀스 학습에 있어 왜 self-attention이 recurrent, convolution보다 나은 모델인지 알아보자. Position-wise Feed-Forward Networks Transformer의 인코더-디코더의 sub layers를 Fully connected feed-forward network가 연결된다. 두 개의 선형 변환(linear transformation, 논문에서 FFN을 LT로 지칭하는 듯하다) 사이에 ReLU를 사용한다. 입력과 출력은 512차원이고 inner-layer는 2048차원의 벡터이다. 수식은 다음과 같다. Embeddings and Softmax Transformer도 시퀀스를 생성하는 여느..