딥러닝 11

[논문 리뷰] Few-shot Image Generation with Mixup-based Distance Learning (MDL)

안녕하세요. 오늘 리뷰할 논문은 Few-shot Image Generation with Mixup-based Distance Learning(ECCV2022)이라는 논문입니다. GAN은 기존에 존재하지 않는 이미지를 새롭게 만들기 위해서 고안된 생성모델 중 하나입니다. 그런데 그러한 GAN을 잘 학습시키기 위해선 어느정도의 충분한 양의 데이터를 요구합니다. GAN이 사용되는 목적 중에 하나는 데이터를 생성하여 보강하기 위함입니다. 즉, 데이터를 확보하는 것이 여유치 않은 경우가 GAN이 필요한 상황 중에 하나라고 볼 수 있습니다. 하지만 잘 작동하는 GAN을 만들기 위해서는 위에서 말했던 것처럼 충분한 양의 데이터를 필요로 하기 때문에 어찌보면 모순적인 상황이 연출됩니다. GAN 분야에서 이러한 문제를 ..

Computer Vision/GAN 2022.12.05

[논문 리뷰] MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

안녕하세요. 오늘 리뷰할 논문은 MoCo라고 불리는 Momentum Contrast for Unsupervised Visual Representation Learning라는 논문입니다. Facebook에서 2020년에 발표했고, self-supervised 방식으로 visual encoder를 학습시키는 방법을 소개하고 있습니다. 비슷한 류의 논문인 MoCo v2, MoCo v3, SimCLR, BYOL 같은 논문들도 차례로 리뷰해보도록 하겠습니다. (https://arxiv.org/pdf/1911.05722.pdf) Self-supervised learning은 이미지의 라벨 없이도 이미지만 가지고 학습을 할 수 있습니다. 그렇기 때문에 대량의 이미지를 가지고도 모델 학습이 가능합니다. 대량의 이미지를..

Computer Vision 2022.11.21

[논문 리뷰] Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

안녕하세요. 오늘 리뷰해볼 논문은 Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields 입니다. Google에서 발표한 논문이며 해당 논문에 참여한 Jonathan T. Barron, Ben Mildenhall, Matthew Tancik 세 사람은 Google 혹은 UC Berkeley 소속입니다. 굵직한 NeRF 논문들을 지속적으로 내고 있으니 세 사람의 publication을 tracking하는 것도 NeRF 연구 경향을 따라가는데 도움이 될 것으로 보입니다. (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) (https://arxiv.org/abs/2103.13415) 0. Abs..

[논문 리뷰] CoCa: Contrastive Captioners are Image-TextFoundation Models

안녕하세요. 오늘 리뷰해볼 논문은 CoCa: Contrastive Captioners are Image-TextFoundation Models라는 논문입니다. CoCa는 Google Research에서 발표한 Vision&Language 논문입니다. CoCa는 Vision&Language 계열의 논문에서 여러 task를 해결하기 위해 제안되었던 여러가지 모델 구조를 하나의 구조로 통합한 모델이라고 합니다. (https://arxiv.org/abs/2205.01917) (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 0. Abstract 해당 논문은 CLIP의 contrastive loss와 SimVLM의 generative caption loss 방식을 image-text..

Vision & Language 2022.11.17

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP)

안녕하세요. 오늘 리뷰할 논문은 OpenAI에서 발표한 Learning Transferable Visual Models From Natural Language Supervision이라는 논문으로, 보통 CLIP이라고 많이 부르기도 합니다. 개인적으로 해당 논문을 기점으로 Multimodal 관련 연구가 엄청나게 활발하게 진행되었고, CLIP이 여러 task에서도 활용이 되는 모습을 보여주었습니다. CLIP은 image encoder에서 뽑아내는 embedding과 text encoder에서 뽑아내는 embedding이 같은 embedding space를 공유하도록 학습하는 것이 목적이고 가장 중요한 부분이라고 보시면 됩니다. Text encoder와 image encoder가 embedding space..

Vision & Language 2022.11.13

[논문 리뷰] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

안녕하세요. 오늘 리뷰할 논문은 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis입니다. 2020년에 발표된 논문으로 발표된지 꽤 지난 논문이지만 여전히 학계에 엄청난 영향을 주고 있는 논문입니다. 특정한 3D 장면에서 여러 각도의 사진이 제공이 되면 사진으로 제공되지 않았던 각도의 사진도 모델을 통해 유추할 수 있다는 것을 보여준 논문입니다. NeRF는 광선이 사물을 비추는 현상을 굉장히 간단한 형태의 모델로 학습시켰습니다. (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) (https://arxiv.org/abs/2003.08934) 0. Abstract 특정한 장면(Scene)에서 여러 각도로..

[논문 리뷰] BEiT: BERT Pre-Training of Image Transformers

안녕하세요. 오늘 리뷰해볼 논문은 BEiT: BERT Pre-Training of Image Transformers입니다. 과거에 BERT의 pretrain 방법 중 하나였던 masked language modeling(MLM)은 방대한 학습량을 필요로 하는 transformer 계열 모델에 효과적인 방법으로 알려져있습니다. Vision 분야에서도 추가적인 labeling 작업 없이 샘플 중간에 masking을 하고 그것을 유추하는 유사한 pre-train 방법이 시도되었습니다. BEiT도 이러한 접근법을 사용한 Vision 분야의 Transformer 계열 모델입니다. 일전에 리뷰했던 MAE 논문도 MLM에 영향을 받아서 제안된 논문인데, 두 논문이 발표된 시기를 보면 어느정도 concurrent한 연..

[논문 리뷰] Restormer: Efficient Transformer for High-Resolution Image Restoration

오늘 리뷰할 논문은 Restormer: Efficient Transformer for High-Resolution Image Restoration이라는 페이퍼입니다. 해당 논문에서는 고해상도 이미지의 품질 개선 task를 해결하기 위한 모델을 제안하였습니다. 구조만 놓고 보면 Transformer를 U-Net에 적용한 모양처럼 보입니다. 연세대학교에 계시는 Ming-Hsuan Yang 교수님이 교신저자로 참여하신 논문이라고 합니다. 일반적으로 Transformer 모델은 모델 자체가 가지고 있는 파라미터의 수와는 별개로 모델에 들어오는 token의 갯수가 늘어날 수록 연산에 드는 computational cost가 늘어나게 됩니다. 비전 분야에서는 이미지 사이즈가 커진다는 것이 곧 token 갯수의 증가..

[논문리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

오늘 리뷰할 논문은 2021년 Google에서 발표된AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE라는 논문입니다. Vision Transformer 혹은 ViT라는 모델을 제안한 페이퍼입니다. NLP 분야에서 엄청난 영향을 끼친 transformer 모델을 vision 분야에 성공적으로 적용한 페이퍼입니다. 제목에서도 볼 수 있듯이 수많은 픽셀 값으로 이루어진 이미지를 NLP에서의 token처럼 바꾸어 사용하기 위해 이미지를 16x16 patch로 쪼개서 사용하였습니다. (https://arxiv.org/abs/2010.11929) (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 0. ..

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners

오늘 리뷰할 논문은 Facebook AI Research(FAIR)에서 Kaiming He의 주도로 발표된 Masked Autoencoders Are Scaleable Vision Learners입니다. 해당 논문에서 제안한 MAE(Masked Autoencoder)는 기존의 다른 Transformer 기반의 vision encoder보다 훨씬 적은 연산으로 우수한 성능을 보이는 encoder구조를 제안하였습니다. MAE에서는 입력 값으로 들어오는 Visual token을 전부 사용하지 않고 일부만 입력 값으로 사용합니다. 아래 보이는 figure가 MAE의 구조입니다. 위에서 말한 것처럼 일부 visual token만 가지고 encoder에 태워주고 decoder에 넣어줄 때는 구멍이 뚫려있던 칸들에 ..