본문 바로가기

축구왕농구킹

SNS

Category

분류 전체보기 (96)

Notice

Recent Posts

Recent Comments

Link

Tags

더보기

Archives

Visits

Total

Today

Yesterday

transformer

Attention is all you need - 4 (모델 학습, 결론) 2022. 9. 27. 22:42 Training Training Data and Batching WMT 2014 4.5백만개의 영어-독일어 문장 쌍으로 데이터 셋을 학습하였다. 문장을 기존에 있는 단어를 분리하는 방법인 byte-pair 인코딩을 이용해 37,000토큰으로 구분하였다. 영어-프랑스어 학습에는 36백만 문장으로 구성된 대규모 WMT 2014 영어-독일어 데이터셋을 사용해 32,000 word-piece 단어로 나누었다. 문장 쌍은 시퀀스 길이를 조절하여 함께 배치처리 하였다. 각 배치는 대략적으로 25,000개의 source 토큰과 25,000개이 target 토큰으로 구성했다. Hardware and schedule 실험을 위해 NVIDIA P100 8개로 구성된 하나의 머신을 사용했다. 한번의 step은 대략 0.4초..

Attention is all you need - 3 (모델 아키텍쳐2) 2022. 9. 21. 23:52 이번 글에서는 지난 글에 이어Transformer 아키텍쳐를 공부하고 시퀀스 학습에 있어 왜 self-attention이 recurrent, convolution보다 나은 모델인지 알아보자. Position-wise Feed-Forward Networks Transformer의 인코더-디코더의 sub layers를 Fully connected feed-forward network가 연결된다. 두 개의 선형 변환(linear transformation, 논문에서 FFN을 LT로 지칭하는 듯하다) 사이에 ReLU를 사용한다. 입력과 출력은 512차원이고 inner-layer는 2048차원의 벡터이다. 수식은 다음과 같다. Embeddings and Softmax Transformer도 시퀀스를 생성하는 여느..

Attention is all you need - 2 (모델 아키텍쳐1) 2022. 9. 21. 00:16 이번 글에서는 Transformer 구조에 대해 알아보자. Model Architecture 신경망 시퀀스 생성 모델은 인코더-디코더 구조가 대세였다. 인코더는 입력 시퀀스를 continuous representations(z)으로 매핑한다. z가 주어지면 디코더는 한번에 하나의 출력 시퀀스를 생성한다. 각 시점 별로 모델은 자동 회귀적인(auto-regressive) 성질이 있는데, 이전 시점에 생성한 symbol(representation)을 추가적인 입력으로 포함시킨다. Transformer는 인코더와 디코더에서 self-attention, point-wise fully connected layer를 사용한다. Encoder and Decoder Stacks Encoder 인코더는 동일한 N개의 층..

이전 1 다음

티스토리툴바