Computer Vision 17

[논문 리뷰] Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

안녕하세요. 오늘 리뷰해볼 논문은 Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields 입니다. Google에서 발표한 논문이며 해당 논문에 참여한 Jonathan T. Barron, Ben Mildenhall, Matthew Tancik 세 사람은 Google 혹은 UC Berkeley 소속입니다. 굵직한 NeRF 논문들을 지속적으로 내고 있으니 세 사람의 publication을 tracking하는 것도 NeRF 연구 경향을 따라가는데 도움이 될 것으로 보입니다. (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) (https://arxiv.org/abs/2103.13415) 0. Abs..

[논문 리뷰] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

안녕하세요. 오늘 리뷰할 논문은 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis입니다. 2020년에 발표된 논문으로 발표된지 꽤 지난 논문이지만 여전히 학계에 엄청난 영향을 주고 있는 논문입니다. 특정한 3D 장면에서 여러 각도의 사진이 제공이 되면 사진으로 제공되지 않았던 각도의 사진도 모델을 통해 유추할 수 있다는 것을 보여준 논문입니다. NeRF는 광선이 사물을 비추는 현상을 굉장히 간단한 형태의 모델로 학습시켰습니다. (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) (https://arxiv.org/abs/2003.08934) 0. Abstract 특정한 장면(Scene)에서 여러 각도로..

[논문 리뷰] BEiT: BERT Pre-Training of Image Transformers

안녕하세요. 오늘 리뷰해볼 논문은 BEiT: BERT Pre-Training of Image Transformers입니다. 과거에 BERT의 pretrain 방법 중 하나였던 masked language modeling(MLM)은 방대한 학습량을 필요로 하는 transformer 계열 모델에 효과적인 방법으로 알려져있습니다. Vision 분야에서도 추가적인 labeling 작업 없이 샘플 중간에 masking을 하고 그것을 유추하는 유사한 pre-train 방법이 시도되었습니다. BEiT도 이러한 접근법을 사용한 Vision 분야의 Transformer 계열 모델입니다. 일전에 리뷰했던 MAE 논문도 MLM에 영향을 받아서 제안된 논문인데, 두 논문이 발표된 시기를 보면 어느정도 concurrent한 연..

[논문 리뷰] Restormer: Efficient Transformer for High-Resolution Image Restoration

오늘 리뷰할 논문은 Restormer: Efficient Transformer for High-Resolution Image Restoration이라는 페이퍼입니다. 해당 논문에서는 고해상도 이미지의 품질 개선 task를 해결하기 위한 모델을 제안하였습니다. 구조만 놓고 보면 Transformer를 U-Net에 적용한 모양처럼 보입니다. 연세대학교에 계시는 Ming-Hsuan Yang 교수님이 교신저자로 참여하신 논문이라고 합니다. 일반적으로 Transformer 모델은 모델 자체가 가지고 있는 파라미터의 수와는 별개로 모델에 들어오는 token의 갯수가 늘어날 수록 연산에 드는 computational cost가 늘어나게 됩니다. 비전 분야에서는 이미지 사이즈가 커진다는 것이 곧 token 갯수의 증가..

[논문리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

오늘 리뷰할 논문은 2021년 Google에서 발표된AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE라는 논문입니다. Vision Transformer 혹은 ViT라는 모델을 제안한 페이퍼입니다. NLP 분야에서 엄청난 영향을 끼친 transformer 모델을 vision 분야에 성공적으로 적용한 페이퍼입니다. 제목에서도 볼 수 있듯이 수많은 픽셀 값으로 이루어진 이미지를 NLP에서의 token처럼 바꾸어 사용하기 위해 이미지를 16x16 patch로 쪼개서 사용하였습니다. (https://arxiv.org/abs/2010.11929) (해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 0. ..

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners

오늘 리뷰할 논문은 Facebook AI Research(FAIR)에서 Kaiming He의 주도로 발표된 Masked Autoencoders Are Scaleable Vision Learners입니다. 해당 논문에서 제안한 MAE(Masked Autoencoder)는 기존의 다른 Transformer 기반의 vision encoder보다 훨씬 적은 연산으로 우수한 성능을 보이는 encoder구조를 제안하였습니다. MAE에서는 입력 값으로 들어오는 Visual token을 전부 사용하지 않고 일부만 입력 값으로 사용합니다. 아래 보이는 figure가 MAE의 구조입니다. 위에서 말한 것처럼 일부 visual token만 가지고 encoder에 태워주고 decoder에 넣어줄 때는 구멍이 뚫려있던 칸들에 ..

[논문 리뷰] YOLOv4 (YOLOv4: Optimal Speed and Accuracy of Object Detection)

(해당 글은 개인적인 기록을 목적으로 잘못된 내용이 있을 수 있음을 알립니다.) 이번에 리뷰할 논문은 YOLOv4: Optimal Speed and Accuracy of Object Detection입니다. (https://arxiv.org/abs/2004.10934) 빠른 inference 속도와 비교적 높은 AP(Average Precision)을 자랑하는 YOLO계열 의 네번 째 페이퍼입니다. YOLOv5부터는 페이퍼가 따로 나오지 않은 것으로 알고 있습니다. 사실 개인적으로 해당 페이퍼는 논문이라기보다는 Technical Report에 조금 더 가깝지 않나라는 생각이 들었습니다. 0. Abstract 딥러닝 모델(CNN계열)에는 다양한 feature(트레이닝 방법, 네트워크 구조)를 가지고 있습니..

Computer Vision 2022.10.25