딥러닝 Fast R-CNN 2023. 10. 15. 12:39 이 논문은 RCNN(Region-based CNN) -> Fast R-CNN -> Faster R-CNN으로 이어지는 객체 검출(object detection)에 관한 연구를 다뤘다. 2015년 경에 연달아 해당 논문들을 게제하며 이전 논문들에서 갖고 있는 문제들을 해결했다. Fast R-CNN에서는 RCNN방법에 비해 더 나은 성능(mAP)를 보이면서 VGG16 모델을 9배 빠르게 학습하고 213배 빠르게 테스트할 수 있다. SPPnet에 비해서도 속도가 빠르고 성능이 좋다. 이 연구의 기여는 다음 그림 네가지이다. 이전 연구에서는 CNN으로 학습한 피쳐에 SVM을 분류기로 사용하여 모델의 처음부터 끝까지 학습이 되지 않는 2stage 문제가 있었고, 클래스 분류와 객체의 영역(bounding box).. OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks 2023. 4. 6. 00:00 딥러닝 비전 태스크에서 1-stage 학습 모델의 시초격인 모델인 OverFeat을 제시한 논문을 공부한 글이다. 논문의 원문을 번역하고 간단한 설명을 덧붙였다. Abstract 저자들은 classification, localization, detection을 통합적으로 하는 CNN기반의 프레임워크를 제시한다. 다차원 슬라이딩 윈도우(multiscale) 접근법을 통해 ConvNet을 효율적으로 구현한다. 객체의 경계(object boundary)를 예측함으로써 localization 태스크를 한다. Detection 태스크의 성능(confidence)를 향상하기 위해 Bounding boxes를 누적하는 방법을 쓴다. 세가지 태스크를 단일한 네트워크(single shared network)를 통해 학습.. Attention is all you need - 2 (모델 아키텍쳐1) 2022. 9. 21. 00:16 이번 글에서는 Transformer 구조에 대해 알아보자. Model Architecture 신경망 시퀀스 생성 모델은 인코더-디코더 구조가 대세였다. 인코더는 입력 시퀀스를 continuous representations(z)으로 매핑한다. z가 주어지면 디코더는 한번에 하나의 출력 시퀀스를 생성한다. 각 시점 별로 모델은 자동 회귀적인(auto-regressive) 성질이 있는데, 이전 시점에 생성한 symbol(representation)을 추가적인 입력으로 포함시킨다. Transformer는 인코더와 디코더에서 self-attention, point-wise fully connected layer를 사용한다. Encoder and Decoder Stacks Encoder 인코더는 동일한 N개의 층.. Neural Machine Translation by jointly learning to align and translate 2022. 7. 24. 21:15 Attention mechanism에 대해 이해를 더하고자 찾아 본 논문이다. 조경현 교수님이 저자로 포함되어 있고 2015년 ICLR에 발표되었다. 기계번역(NMT)에서는 하나의 신경망 학습을 고도화 하는 방식으로 발전했다. 입력 문장을 고정된 길이의 벡터로 인코딩하고 번역문을 디코드하는 인코더-디코더를 활용하고 있다. 이 논문에서는 고정된 길이의 벡터(fixed-length vector)가 기본적인 인코더-디코더의 성능 향상을 가로막고 있다고 추측한다. 고정된 길이의 벡터로 입력 문장을 압축하는 방법은 문장의 길이가 길어질 경우 성능 저하가 크기 때문이다. 이를 해결하기 위한 방법으로 입력 문장(source sentence)에서 예측을 위한 타겟 단어(target word)와 관련성이 높은 부분을 자.. 이전 1 다음