본문 바로가기

papers

Zero-Shot Learning Through Cross-Modal Transfer -2 (관련 연구, 워드 표현, 제로 샷 모델)

이번 글에서는 관련연구와 연구의 메인아이디어에 해당하는 부분을 정리한다.

Related Work

Zero-Shot Learning
fMRI 스캔을 매핑하여 특징을 구분한 연구가 있다. MRI 스캔하지 않은 단어들의 의미적인 특징을 예측하고 제로 샷 클래스를 구분하였다. 테스트 환경에서 seen, unseen 클래스들을 구분하지는 않았는데, 본 논문의 저자는 이 부분을 확장해 연구에 적용하였다.

One-Shot Learning
원샷 러닝은 클래스별 객체를 매우 적은 수로 학습하는 것이다. 이 방법은 특징 표현(feature representations)이나 모델의 파라미터, 혹은 유사한 콘텍스트를 공유한다. 확률모델을 이용한 전이학습으로 low level 이미지 특징을 학습하려는 딥러닝 연구가 있었다. 본논문의 저자는 cross-modal 전이를 이용해 학습한 분류(seen)에는 높은 성능 내면서도 학습 없이(unseen)도 분류가 가능하게 했다.

Knowledge and Visual Attribute Transfer
Unseen 클래스의 시각 특성(visual attribute)를 이용해 분류하는 연구도 있다. 저자의 연구는 비지도로 비 병렬적인 코퍼스를 학습한 단어의 분산 특징만을 이용해 범주를 분류하였다.

Domain Adaptation
도메인 채택은 한 도메인의 학습데이터가 많고 다른 도메인의 데이터가 적을때 적합하다. 감성분석에서 영화 리뷰 분류에 책리뷰의 데이터를 사용하는 것과 같다.

Multimodal Embeddings
multi modal 임베딩은 비디오나 이미지, 텍스트 같은 다양한 종류(multiple sources)의 정보를 임베딩하는 방법이다. kernelized canonical 상관 분석을 이용해 단어와 이미지를 공통의 공간에 사영(project)하는 연구가 있다. Annotation과 segmentation에서 SOTA를 달성했다. 본 논문의 저자는 규모가 큰 텍스트를 비지도로 학습해 단어의 이미를 표현하는데, 사전연구에서는 각 클래스 별로 적은 양의 데이터를 필요로 하였다. Deep Bolazmann Machines 관련 연구도 있었다.

Word and Image Representations

단어의 의미 유사성을 파악하기 위해 단어가 사용된 문맥에서 얼마나 동시에 나타나는지가 벡터들로 표현되는 분산(distributional)적인 접근법을 사용했다. 단어를 분산표현하는 방법은 감성 분석, 유의어 추출, 인지 모델링 같은 NLP 작업에 사용된다.
저자는 50차원의 pre-train 된 단어 벡터를 사용했다. 문맥에서 단어가 얼마나 나타날 것 같은지를 예측하는 위키피디아 텍스트 학습 모델을 사용했다. 모델은 단어 주변의 window로 나타낸 지역적인 문맥(local context)와 각 단어의 global 문서 문맥을 학습하였다. 학습된 결과의 벡터는 문법적이고 의미적인 정보를 학습하였다. 이미지의 특징은 원시 픽셀에서 비지도 방법으로 추출하였다.

Projecting Images into Semantic Word Spaces

이 단락에서는 이미지를 단어 공간에 매핑해 텍스트와 이미지를 연관시키는 방법을 기술한다. 저자들은 이미지에서 의미적인 관계를 학습하기 위해 50차원의 단어 공간으로 이미지 특징을 사영(project)했다. 데이터는 seen, unseen으로 구분하여 동시에 분산적인 정보를 학습했다. Seen 클래스의 이미지는 클래스 이름의 워드 벡터에 매핑되었다. 이 매핑을 학습하기위해 다음과 같은 목적함수를 학습했다.

이미지 매핑 목적함수

W_y : Seen 단어 벡터
x(i) : Seen 이미지
Theta : 모델의 학습 파라미터
Y_s : Seen 클래스

50 차원 단어 공간을 2차원으로 압축한 T-SNE 시각화 결과는 아래와 같다. 단어 벡터의 위치는 음영 표시 되었고 클래스 별 이미지 매핑은 색갈 별로 구분되어 매핑되어 있다. Unseen 클래스인 truck, cat의 단어 벡터는 음영표시 되어있지만 주변에 이미지가 존재하지 않는다. cat 클래스가 dog와 horse 주변에 있는것으로 zero-shot 클래스의 이미지는 의미적으로 유사한 클래스 주변에 위치한 것도 알 수 있다.

단어 백터의 시각화(T-SNE)

이미지를 단어 공간에 사영함으로써 단어의 의미에 시각적인 특징을 더했다. 예를들면 단어의 시각적인 프로토 타입을 알 수도 있고 단어의 평균적인 색을 알 수도 있다.

이번 글에서는 multimodal zero-shot learning의 관련 연구와 이미지와 텍스트의 정보를 연관시키기 위한 방법을 공부했다.
다음 실험과 결론을 공부해보자.