Computer Vision 18

[논문 리뷰] MobileNeRF: Exploiting the Polygon Rasterization Pipeline For Efficient Neural Field Rendering on Mobile Architecture

오늘 리뷰할 논문은 MobileNeRF입니다. 기존의 NeRF는 ray별로 volumetric rendering을 하기 때문에 연산 부하가 있고 GPU를 필요로 합니다. MobileNeRF에서는 기존의 NeRF 구조를 최대한 효율적으로 바꾸어서 GPU가 없는 기기에서도 interactive하게 3D novel view synthesis를 할 수 있도록 합니다. 이 과정에서 z-buffer, GLSL fragment shader 같이 컴퓨터 비전 관련 소프트웨어를 사용하여 범용성이 높아진다고 합니다. https://mobile-nerf.github.io/ MobileNeRF MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Ne..

[논문 리뷰] Segment Anything

안녕하세요. 오늘 리뷰할 논문은 Meta AI(FAIR)에서 발표한 Segment Anything이라는 논문입니다. Linked In 같은 곳에서 Segment Anything을 발표한지 몇 시간도 되지않아 굉장히 많은 추천을 받으며 화제가 되고 있습니다. Segment Anything은 대용량 데이터셋을 가지고 자연어 및 다양한 지시로 Image Segmentation task를 수행할 수 있도록 하는 프로젝트입니다. https://segment-anything.com/ Segment Anything Meta AI Computer Vision Research segment-anything.com https://github.com/facebookresearch/segment-anything GitHub ..

Computer Vision 2023.04.12

[논문 리뷰] LERF: Language Embedded Radiance Fields

안녕하세요. 오늘 리뷰해볼 논문은 LERF: Language Embedded Radiance Fields입니다. LERF는 주어진 scene에서 자연어를 통해 대상을 찾아내고 NeRF처럼 해당 객체에 대해 입체적인 모습은 추론하는 모델입니다. https://arxiv.org/abs/2303.09553 LERF: Language Embedded Radiance Fields Humans describe the physical world using natural language to refer to specific 3D locations based on a vast range of properties: visual appearance, semantics, abstract associations, or acti..

[논문 리뷰] TOKEN MERGING: YOUR VIT BUT FASTER (ToMe)

안녕하세요. 오늘 리뷰할 논문은 Meta AI에서 발표한 TOKEN MERGING: YOUR VIT BUT FASTER라는 논문입니다. ICLR Oral(noticable top 5%)로 올라간 논문입니다. 주관적인 의견이지만 Transformer 기반의 모델은 딥러닝 전반에서 좋은 모습을 보여주고 있습니다. 그와 동시에 파라미터를 많이 사용하는 딥러닝의 경향성을 가속화 시켰다고 생각합니다. 그 동안 Model pruning이나 quantization 같이 computing cost를 절약하는 류의 연구들이 동시에 진행이 되었었는 오늘 리뷰할 논문 ToMe는 이러한 연구들과 방향성이 같다고 보시면 될 것 같습니다. Transformer는 GPU 메모리를 차지할 때, 입력으로 들어오는 token의 갯수에 ..

[논문 리뷰] View Synthesis with Sculpted Neural Points (SNP)

안녕하세요. 오늘 리뷰할 논문은 ICLR 2023년에 accept된 View Synthesis with Sculpted Neural Points라는 논문입니다. NeRF가 컴퓨터비전 분야에서 선풍적인 인기를 끌기 시작하면서, NeRF와 같은 3D rendering task를 다른 방식으로 접근하여 해결하려는 접근들이 다양하게 시도되고 있습니다. 그 중 하나가 오늘 소개해드릴 논문입니다. View Synthesis with Sculpted Neural Points (SNP)에서는 Scene의 3D representation을 implicit representation으로서 MLP에 저장하는 NeRF와는 다르게 3D representation을 point cloud 형태인 explicit representa..

[논문 리뷰] End-to-End Object Detection with Transformers (DETR)

안녕하세요. 오늘 리뷰해볼 논문은 Facebook AI에서 발표했던 End-to-End Object Detection with Transformers이라는 논문이고 DETR이라고도 불립니다. 해당 논문에서 제시된 모델인 DETR은 object detection 분야에서 transformer를 backbone으로 성공적으로 적용한 모델 중에 하나이며 이후에 다른 transformer 기반 OD 모델들에게도 영향을 주고 있습니다. https://arxiv.org/pdf/2005.12872.pdf https://github.com/facebookresearch/detr GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers E..

Computer Vision 2023.02.10

[논문 리뷰] GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

오늘은 GIRAFFE를 리뷰해보겠습니다. GIRAFFE는 2021년 CVPR best paper였던 논문입니다. GIRAFFE는 이미지를 객체 단위로 피처를 생성한 뒤 이를 합친 뒤 이미지로 생성해내는 모델입니다. 이 때 이미지에 합성될 객체들의 피처를 생성해서 합치는 부분까지가 NeRF와 유사한 구조를 띄고 있습니다. 아래 그림을 참고하면 이해에 도움이 될 것 같습니다. 각 객체는 shape, appearance, pose latent code를 가지고 feature 형태로 만들어진 후 volume rendering을 통해 하나로 합쳐지게 됩니다. 이미지 대신 feature를 만드는 것이기 때문에 neural radiance field 대신 neural feature field라고 부르는 듯 합니다. ..

[논문 리뷰] NeuMAN: Neural Human Radiance Field from a Single Video

안녕하세요. 오늘 리뷰해볼 논문은 NeuMAN: Neural Human Radiance Field from a Single Video이라는 논문입니다. ECCV2022에 나온 논문입니다. 적은 시간의 비디오만 가지고 NeRF에 인간의 모습을 학습 시킨 뒤 자유롭게 렌더링하는 것을 목표로 하는 연구입니다. 저도 이 도메인의 페이퍼를 많이 읽어보진 않았기에 미숙한 부분이 있어도 양해부탁드립니다. (https://arxiv.org/abs/2203.12575) 0. Abstract 해당 논문의 저자들은 하나의 임의의 비디오를 가지고도 novel human pose와 scene을 렌더링할 수 있는 프레임워크를 제안합니다. 비디오는 움직이는 카메라로 찍은 비디오(핸드폰 같은)이며 human NeRF와 scene N..

[논문 리뷰] Few-shot Image Generation with Mixup-based Distance Learning (MDL)

안녕하세요. 오늘 리뷰할 논문은 Few-shot Image Generation with Mixup-based Distance Learning(ECCV2022)이라는 논문입니다. GAN은 기존에 존재하지 않는 이미지를 새롭게 만들기 위해서 고안된 생성모델 중 하나입니다. 그런데 그러한 GAN을 잘 학습시키기 위해선 어느정도의 충분한 양의 데이터를 요구합니다. GAN이 사용되는 목적 중에 하나는 데이터를 생성하여 보강하기 위함입니다. 즉, 데이터를 확보하는 것이 여유치 않은 경우가 GAN이 필요한 상황 중에 하나라고 볼 수 있습니다. 하지만 잘 작동하는 GAN을 만들기 위해서는 위에서 말했던 것처럼 충분한 양의 데이터를 필요로 하기 때문에 어찌보면 모순적인 상황이 연출됩니다. GAN 분야에서 이러한 문제를 ..

Computer Vision/GAN 2022.12.05

[논문 리뷰] MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

안녕하세요. 오늘 리뷰할 논문은 MoCo라고 불리는 Momentum Contrast for Unsupervised Visual Representation Learning라는 논문입니다. Facebook에서 2020년에 발표했고, self-supervised 방식으로 visual encoder를 학습시키는 방법을 소개하고 있습니다. 비슷한 류의 논문인 MoCo v2, MoCo v3, SimCLR, BYOL 같은 논문들도 차례로 리뷰해보도록 하겠습니다. (https://arxiv.org/pdf/1911.05722.pdf) Self-supervised learning은 이미지의 라벨 없이도 이미지만 가지고 학습을 할 수 있습니다. 그렇기 때문에 대량의 이미지를 가지고도 모델 학습이 가능합니다. 대량의 이미지를..

Computer Vision 2022.11.21