⚔️

Image Captioners Are Scalable Vision Learners Too 논문 리뷰

Introduction

이 연구는 웹에서 수집한 대규모의 이미지-텍스트 쌍을 활용하여 비전-언어 사전 학습 모델을 효과적으로 학습시키는 전략을 찾는 것을 목표로 한다.

연구 흐름 Outline

소규모 데이터셋 (으로 학습시킨 모델 언급) ConVIRT, VirTex

CLIP

ALIGN과 같은 후속 연구들 vs Captioning만을 사용한 Image-Text 사전 학습

논문익는마을, 김보민. "CLIP 논문 리뷰" CLIP 논문의 연구 흐름을 이해하기 쉽게 설명한다.