본문 바로가기

papers

Zero-Shot Learning Through Cross-Modal Transfer -1 (초록, 도입)

Zero-Shot Learning Through Cross-Modal Transfer 논문은 단어의 분산표현에 이미지를 매핑시키는 zero-shot 모델 학습을 통해 seen, unseen 클래스를 구분하고 이미지를 추론하는 논문이다.

초록 (Abstract)

논문에서는 이미지를 학습하지 않고도 객체를 인식하는 모델을 소개한다. Unseen 분류를 위해 대규모의 비지도(unsupervised) 텍스트 코퍼스가 필요하한데, Unseen 이미지를 분류하고 추론하는 논문의 zero-shot framework은 객체의 특징을 이해하기 위한 언어의 분산된 정보(distributional information)의 의미론적인 기반에 걸쳐 있는 것으로 본다. 이전의 zero-shot 학습 모델은 보지 않은 클래스(unseen classess)만 구분할 수 있었다. 저자의 모델은 학습된 이미지에서 SOTA의 성능을 발휘하면서도 unseen 클래스에서도 꽤나 괜찮은 성능을 보인다. 이 연구의 주된 아이디어인 의미 공간에서 이상치 탐지(outlier detection)와 두가지 인지(recognition) 모델을 집중해서 살펴보자.

1. 도입(Introduction)

zero-shot learning은 학습하지 않은 클래스의 객체를 분류하는 목적이 있다. 저자들은 논문을 통해 자연어(natural language)와 시각적인 객체 정보를 연관시켜 unseen 객체를 분류한다. 분류기 모델을 통해 사람이 정보를 읽은 적 있지만 본적 없는 물체를 구분하는 능력을 모델링하려 했다. 예를 들어, 세그웨이에 대한 설명만 읽은 후에 실물을 보면 약간 당황스러우면서 객체를 구분해 내는 것과 같다.

이 연구는 seen, unseen 클래스를 동시에 예측하는 zero-shot 모델을 학습한다. 고양이 사진을 본적 없어도 개와 말을 학습하여 고양이를 판별하는 것과 같다.

저자는 두 가지 아이디어를 제시하였다. 첫째는 이미지들을 신경망을 통해 단어들의 의미 공간(semantic spaces)으로 매핑하는 것이다. 단어 벡터들은 대규모의 비지도 텍스트 코퍼스에서 분산된 유사성을 포착한다. 이미지를 언어 공간으로 매핑하여 시각적인 양상(visual modality)이 단어 벡터들 주변으로 모이도록 하였다. 둘째로 분류기는 이미 학습한 클래스로 할당하는 것을 선호하기 때문에 새 이미지가 이미 알고 있는 카테고리에 속하는지 확인하는 이상치 탐지(outlier detection) 확률을 포함시킨다. Seen 클래스는 보통의 분류기로 분류가 가능 하고 unseen 클래스는 unseen 분류의 likelihood에 기반해 클래스를 분류한다. 이미지가 outlier 인지, 알고 있는 분류인지는 확률모델에 통합되었다.

이 모델은 해당 시점에 이미 학습한 클래스를 분류하는 성능에서 SOTA를 달성하고 학습하지 않은 클래스의 추론 결과도 꽤 합리적이었다. 다른 knowledge transfer 연구 결과와 비교하면 zero-shot 클래스에 대해 의미적이거나 시각적인 특징을 요구하지 않는다. 언어적인 특징 표현은 할당되지 않은 비지도(unaligned and unsupervised) 코퍼스를 통해 학습된다.

multi-modal zero-shot model

다음 글에서는 관련 연구와 이미지를 단어 공간으로 사영하는 것을 살펴보자.