안녕하세요. 오늘 리뷰해볼 논문은 CoCa: Contrastive Captioners are Image-TextFoundation Models라는 논문입니다. CoCa는 Google Research에서 발표한 Vision&Language 논문입니다. CoCa는 Vision&Language 계열의 논문에서 여러 task를 해결하기 위해 제안되었던 여러가지 모델 구조를 하나의 구조로 통합한 모델이라고 합니다. (https://arxiv.org/abs/2205.01917) (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 0. Abstract 해당 논문은 CLIP의 contrastive loss와 SimVLM의 generative caption loss 방식을 image-text..