본문 바로가기

papers

Attention is all you need - 4 (모델 학습, 결론)

Training

Training Data and Batching

WMT 2014 4.5백만개의 영어-독일어 문장 쌍으로 데이터 셋을 학습하였다. 문장을 기존에 있는 단어를 분리하는 방법인 byte-pair 인코딩을 이용해 37,000토큰으로 구분하였다. 영어-프랑스어 학습에는 36백만 문장으로 구성된 대규모 WMT 2014 영어-독일어 데이터셋을 사용해 32,000 word-piece 단어로 나누었다. 문장 쌍은 시퀀스 길이를 조절하여 함께 배치처리 하였다. 각 배치는 대략적으로 25,000개의 source 토큰과 25,000개이 target 토큰으로 구성했다.

Hardware and schedule

실험을 위해 NVIDIA P100 8개로 구성된 하나의 머신을 사용했다. 한번의 step은 대략 0.4초에 학습하였고 base model은 12시간 동안 100,000 step 학습했다. 큰 모델은 한번의 스텝 학습에 1초가 걸리고 300,000 step을 3.5일간 학습하였다.

Optimizer, Regulation

Adam optimizer를 사용하였고 정규화를 위해 세가지 기법을 적용했다.
Residual Dropout으로 각 하부계층(sub layer)에 dropout을 적용하고 인코더 디코더 스택의 positional encoding과 임베딩의 합산시에 드랍아웃을 적용했다. Label Smmothing으로 모델 학습에 불분명하게 하여 정확도와 BLUE score를 개선했다.

Results

Machine Translation

Transformer 실험 결과

Model Variations

WMT 2014 영어-독일어 번역 태스크에서 big transformer 모델은 기존 연구의 성능을 2.0 BLUE개선해 28.4 BLUE로 SOTA를 달성했다. Base model 역시 앙상블 모델을 포함한 기존 연구보다 학습 시간이 단축되었음에도 성능이 좋았다.

WMT 2014 영어-프랑스어 번역 태스크에서는 41.0 BLUE를 1/4 학습 비용으로 달성했다. Beam search, 모델 학습을 위한 checkpoint 설정은 논문에서 확인할 수 있고 논문으로 발표한 하이퍼파라미터는 여러 실험결과로 결론지었다. 출력의 최대길이를 50 이상 늘려도 학습이 일찍 종료되었다. 학습 결과는 위의 표에서 확인가능하다.

Conclusion

저자들은 논문을 통해 시퀀스 생성 모델에서 rnn이 아닌 오로지 attention 매커니즘(multi-head attention)에 기반한 Transformer 구조를 제시했다. WMT 2014 영어-독일어, WMT 2014 영어-프랑스어 번역 태스크에서 SOTA 성능을 달성했다.

Transformer는 BERT, GPT 등 인코더-디코더를 각각 사용하기도 하고 다양하게 변형되어 비전, 추천, 언어처리 등 태스크를 가리지 않고 대세모델이 되었다. 다음 글에서는 huggingface의 transformers 모듈을 사용하여 attention 기반 모델을 실습해보자.

Reference
https://wikidocs.net/22592