어텐션 Attention is all you need - 2 (모델 아키텍쳐1) 2022. 9. 21. 00:16 이번 글에서는 Transformer 구조에 대해 알아보자. Model Architecture 신경망 시퀀스 생성 모델은 인코더-디코더 구조가 대세였다. 인코더는 입력 시퀀스를 continuous representations(z)으로 매핑한다. z가 주어지면 디코더는 한번에 하나의 출력 시퀀스를 생성한다. 각 시점 별로 모델은 자동 회귀적인(auto-regressive) 성질이 있는데, 이전 시점에 생성한 symbol(representation)을 추가적인 입력으로 포함시킨다. Transformer는 인코더와 디코더에서 self-attention, point-wise fully connected layer를 사용한다. Encoder and Decoder Stacks Encoder 인코더는 동일한 N개의 층.. Neural Machine Translation by jointly learning to align and translate 2022. 7. 24. 21:15 Attention mechanism에 대해 이해를 더하고자 찾아 본 논문이다. 조경현 교수님이 저자로 포함되어 있고 2015년 ICLR에 발표되었다. 기계번역(NMT)에서는 하나의 신경망 학습을 고도화 하는 방식으로 발전했다. 입력 문장을 고정된 길이의 벡터로 인코딩하고 번역문을 디코드하는 인코더-디코더를 활용하고 있다. 이 논문에서는 고정된 길이의 벡터(fixed-length vector)가 기본적인 인코더-디코더의 성능 향상을 가로막고 있다고 추측한다. 고정된 길이의 벡터로 입력 문장을 압축하는 방법은 문장의 길이가 길어질 경우 성능 저하가 크기 때문이다. 이를 해결하기 위한 방법으로 입력 문장(source sentence)에서 예측을 위한 타겟 단어(target word)와 관련성이 높은 부분을 자.. 이전 1 다음