Rich feature hierarchies for accurate object detection and semantic segmentation
이 글은 2013년 11월에 게시된 RCNN 모델을 통한 객체검출(object detection) 연구에 대한 정리 블로그이다.
2014년 CVPR 에서 발표했다고 한다.
논문의 전문은 레퍼런스로 달아놓은 아카이브에서 확인할 수 있다.
이전 논문 리뷰글도 글을 읽고 이해하는게 쉽지 않았는데, 이 논문 역시 어려웠다.
비전(vision) 태스크를 잘 모르고 10년전에 사용한 데이터 셋과 모델들, 익숙하지 않은 논문의 메뉴 구조등에 기인한 것 같다.
총 21장의 길이를 자랑하지만 11쪽에서 결론짓고 나머지 열장은 실험에 대한 appendix를 추가하였다.
그렇지만 역시 많은 블로그들이 연구에 대한 정리를 잘 했고 많이 도움 받은 블로그를 레퍼런스에 적었다.
저자들은 결론 부분에서 논문의 두가지 핵심 인사이트로 정리한다.
이 연구를 통해 객체 검출에서 이전 최고 성능모델을 30% 개선하였는데,
첫째로 region proposal 기반의 방법(selective search)으로 물체의 위치를 포착한것과(localize)
CNN 전이학습(supervised pre-training/domain-specific fine-tuning)을 통해 데이터가 부족한 새로운 도메인의 태스크(detection)에 사용한 것이 성능개선에 효과적이었다고 한다.
RCNN의 객체 검출은 두 단계(2 stage)로 이뤄져 한 단계로 이뤄지는(YOLO)와 구분된다.
이미지에서 객체를 추출해 특정 사이즈로 변환하고(warp) CNN으로 객체에 대한 고정 길이의 피쳐를 추출한 뒤 SVM으로 각 객체를 분류한다.
모델이 한번에 학습되어 결과까지 반환하는 end-to-end 모델이 아닌 것이다.
PASCAL VOC 2010 데이터셋에서 다른 region proposal 기반 모델들보다 나은 성능을 보이고
ILSVRC 2013 데이터셋에서 OverFeat보다 나은 성능을 발휘했다.
논문의 Table1, 2에서는 VOC 2010, 2007 테스트 셋에서 실험 결과를 보여주는데, RCNN 모델이 다른 모델들 보다 10% 이상 낫고
RCNN 모델도 Bounding-box regression(BB)으로 localization 성능을 개선한 실험의 성능이 더 좋게 나왔다.
Reference
https://arxiv.org/abs/1311.2524
https://bigdata-analyst.tistory.com/269