attention Effective Approaches to Attention-based Neural Machine Translation 2024. 7. 28. 21:38 논문을 읽은 지는 몇달 되었는데, 오랜 기간후에 정리를 한다.연구 당시에는 신경망 기계번역(Neural Machine Translation)방법론에서는 원천 문장에서 선택적으로 집중하는 방식으로 모델의 성능을 개선하고 있었다. 이에 더해 attention 방법을 바탕으로 한 구조에 대해 연구가 진행되고 있는데, 본 논문에서는 모든 원천 단어를 기준으로하는 global 접근과 전체 단어중 일부를 살펴보는 local 접근 방식의 attentional 메카니즘에 대해 연구했다. 영-독 번역 테스크에서는 local 방식으로 기존방식에 비해 5.0 BLEU 테스크를 초과하여 얻었다.기존의 NMT는 모든 단어를 읽은 뒤 문장의 끝을 나타내는 토큰을 만난 뒤로 번역된 단어를 생성하는 방식이다. NMT는 정교한 디코.. Attention is all you need - 2 (모델 아키텍쳐1) 2022. 9. 21. 00:16 이번 글에서는 Transformer 구조에 대해 알아보자. Model Architecture 신경망 시퀀스 생성 모델은 인코더-디코더 구조가 대세였다. 인코더는 입력 시퀀스를 continuous representations(z)으로 매핑한다. z가 주어지면 디코더는 한번에 하나의 출력 시퀀스를 생성한다. 각 시점 별로 모델은 자동 회귀적인(auto-regressive) 성질이 있는데, 이전 시점에 생성한 symbol(representation)을 추가적인 입력으로 포함시킨다. Transformer는 인코더와 디코더에서 self-attention, point-wise fully connected layer를 사용한다. Encoder and Decoder Stacks Encoder 인코더는 동일한 N개의 층.. Neural Machine Translation by jointly learning to align and translate 2022. 7. 24. 21:15 Attention mechanism에 대해 이해를 더하고자 찾아 본 논문이다. 조경현 교수님이 저자로 포함되어 있고 2015년 ICLR에 발표되었다. 기계번역(NMT)에서는 하나의 신경망 학습을 고도화 하는 방식으로 발전했다. 입력 문장을 고정된 길이의 벡터로 인코딩하고 번역문을 디코드하는 인코더-디코더를 활용하고 있다. 이 논문에서는 고정된 길이의 벡터(fixed-length vector)가 기본적인 인코더-디코더의 성능 향상을 가로막고 있다고 추측한다. 고정된 길이의 벡터로 입력 문장을 압축하는 방법은 문장의 길이가 길어질 경우 성능 저하가 크기 때문이다. 이를 해결하기 위한 방법으로 입력 문장(source sentence)에서 예측을 위한 타겟 단어(target word)와 관련성이 높은 부분을 자.. 이전 1 다음