Unsupervised Visual Representation Learning by Context Prediction
2025. 3. 7. 14:01
이 논문은 공간적인 맥락(spatial context)을 이용해 시각 표현(visual representation)을 학습했다. 레이블이 없는 대규모 이미지 집합에서 랜덤한 쌍의 패치를 각 이미지에서 추출해 콘볼루션 네트워크를 학습하여 첫번째 패치에 대한 두번째 패치의 위치를 예측하였다. 이 태스크를 잘하기 위해서는 객체와 세부 사항을 학습시켜야 했다. 저자들은 이미지 내의 맥락을 이용한 특징 표현이 이미지 전체의 시각적인 유사성을 파악할 것이라는 가설을 증명한다. 예를들어 Pascal VOC 2011 탐지 데이터셋에서 고양이, 사람, 새 같은 객체를 비지도로 검출하는 작업을 했다. 더욱이 저자들의 모델은 RCNN 프레임워크에서도 사용 가능해 랜덤하게 초기화된 콘볼루션보다 성능 이점이 있다. 연구 ..