Machine learning 5

[논문 리뷰] Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

안녕하세요. 오늘 리뷰해볼 논문은 Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields 입니다. Google에서 발표한 논문이며 해당 논문에 참여한 Jonathan T. Barron, Ben Mildenhall, Matthew Tancik 세 사람은 Google 혹은 UC Berkeley 소속입니다. 굵직한 NeRF 논문들을 지속적으로 내고 있으니 세 사람의 publication을 tracking하는 것도 NeRF 연구 경향을 따라가는데 도움이 될 것으로 보입니다. (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) (https://arxiv.org/abs/2103.13415) 0. Abs..

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP)

안녕하세요. 오늘 리뷰할 논문은 OpenAI에서 발표한 Learning Transferable Visual Models From Natural Language Supervision이라는 논문으로, 보통 CLIP이라고 많이 부르기도 합니다. 개인적으로 해당 논문을 기점으로 Multimodal 관련 연구가 엄청나게 활발하게 진행되었고, CLIP이 여러 task에서도 활용이 되는 모습을 보여주었습니다. CLIP은 image encoder에서 뽑아내는 embedding과 text encoder에서 뽑아내는 embedding이 같은 embedding space를 공유하도록 학습하는 것이 목적이고 가장 중요한 부분이라고 보시면 됩니다. Text encoder와 image encoder가 embedding space..

Vision & Language 2022.11.13

[논문 리뷰] Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

안녕하세요. 오늘 리뷰할 논문은 Uunified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks라는 논문입니다. 해당 논문의 저자는 NLP와 비교했을 때 computer vision 분야는 범용적인 모델을 사용하기 힘든 형태라고 합니다. 상술하자면 NLP 분야의 다양한 task들을 보면 대부분 seq2seq(token sequence를 받아서 token sequence를 반환)형태를 띄고 있습니다. 반면 computer vision 분야의 task들은 I/O(input/output)의 형태가 굉장히 상이한 편입니다. 이미지를 생성하는데 text guidance + image를 받기도 하고, segmentation을 하고 나서 segment..

Vision & Language 2022.11.06

[논문 리뷰] BEiT: BERT Pre-Training of Image Transformers

안녕하세요. 오늘 리뷰해볼 논문은 BEiT: BERT Pre-Training of Image Transformers입니다. 과거에 BERT의 pretrain 방법 중 하나였던 masked language modeling(MLM)은 방대한 학습량을 필요로 하는 transformer 계열 모델에 효과적인 방법으로 알려져있습니다. Vision 분야에서도 추가적인 labeling 작업 없이 샘플 중간에 masking을 하고 그것을 유추하는 유사한 pre-train 방법이 시도되었습니다. BEiT도 이러한 접근법을 사용한 Vision 분야의 Transformer 계열 모델입니다. 일전에 리뷰했던 MAE 논문도 MLM에 영향을 받아서 제안된 논문인데, 두 논문이 발표된 시기를 보면 어느정도 concurrent한 연..

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners

오늘 리뷰할 논문은 Facebook AI Research(FAIR)에서 Kaiming He의 주도로 발표된 Masked Autoencoders Are Scaleable Vision Learners입니다. 해당 논문에서 제안한 MAE(Masked Autoencoder)는 기존의 다른 Transformer 기반의 vision encoder보다 훨씬 적은 연산으로 우수한 성능을 보이는 encoder구조를 제안하였습니다. MAE에서는 입력 값으로 들어오는 Visual token을 전부 사용하지 않고 일부만 입력 값으로 사용합니다. 아래 보이는 figure가 MAE의 구조입니다. 위에서 말한 것처럼 일부 visual token만 가지고 encoder에 태워주고 decoder에 넣어줄 때는 구멍이 뚫려있던 칸들에 ..