Vision & Language 3

[논문 리뷰] CoCa: Contrastive Captioners are Image-TextFoundation Models

안녕하세요. 오늘 리뷰해볼 논문은 CoCa: Contrastive Captioners are Image-TextFoundation Models라는 논문입니다. CoCa는 Google Research에서 발표한 Vision&Language 논문입니다. CoCa는 Vision&Language 계열의 논문에서 여러 task를 해결하기 위해 제안되었던 여러가지 모델 구조를 하나의 구조로 통합한 모델이라고 합니다. (https://arxiv.org/abs/2205.01917) (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 0. Abstract 해당 논문은 CLIP의 contrastive loss와 SimVLM의 generative caption loss 방식을 image-text..

Vision & Language 2022.11.17

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP)

안녕하세요. 오늘 리뷰할 논문은 OpenAI에서 발표한 Learning Transferable Visual Models From Natural Language Supervision이라는 논문으로, 보통 CLIP이라고 많이 부르기도 합니다. 개인적으로 해당 논문을 기점으로 Multimodal 관련 연구가 엄청나게 활발하게 진행되었고, CLIP이 여러 task에서도 활용이 되는 모습을 보여주었습니다. CLIP은 image encoder에서 뽑아내는 embedding과 text encoder에서 뽑아내는 embedding이 같은 embedding space를 공유하도록 학습하는 것이 목적이고 가장 중요한 부분이라고 보시면 됩니다. Text encoder와 image encoder가 embedding space..

Vision & Language 2022.11.13

[논문 리뷰] Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

안녕하세요. 오늘 리뷰할 논문은 Uunified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks라는 논문입니다. 해당 논문의 저자는 NLP와 비교했을 때 computer vision 분야는 범용적인 모델을 사용하기 힘든 형태라고 합니다. 상술하자면 NLP 분야의 다양한 task들을 보면 대부분 seq2seq(token sequence를 받아서 token sequence를 반환)형태를 띄고 있습니다. 반면 computer vision 분야의 task들은 I/O(input/output)의 형태가 굉장히 상이한 편입니다. 이미지를 생성하는데 text guidance + image를 받기도 하고, segmentation을 하고 나서 segment..

Vision & Language 2022.11.06