안녕하세요. 오늘 리뷰할 논문은 Uunified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks라는 논문입니다. 해당 논문의 저자는 NLP와 비교했을 때 computer vision 분야는 범용적인 모델을 사용하기 힘든 형태라고 합니다. 상술하자면 NLP 분야의 다양한 task들을 보면 대부분 seq2seq(token sequence를 받아서 token sequence를 반환)형태를 띄고 있습니다. 반면 computer vision 분야의 task들은 I/O(input/output)의 형태가 굉장히 상이한 편입니다. 이미지를 생성하는데 text guidance + image를 받기도 하고, segmentation을 하고 나서 segment..