요약
Introduction
Pretraining Strategy for Image-Text Pairs 발전
이 연구는 웹에서 수집한 대규모의 이미지-텍스트 쌍을 활용하여 비전-언어 사전 학습 모델을 효과적으로 학습시키는 전략을 찾는 것을 목표로 한다.
연구 흐름 Outline
1.
소규모 데이터셋 (으로 학습시킨 모델 언급) ConVIRT, VirTex
2.
CLIP
3.
ALIGN과 같은 후속 연구들 vs Captioning만을 사용한 Image-Text 사전 학습
Contribution
Method
Experiments
Conclusion
Limitation
참고한 자료들
1.
논문익는마을, 김보민. "CLIP 논문 리뷰" CLIP 논문의 연구 흐름을 이해하기 쉽게 설명한다.