안녕하세요. 오늘 리뷰해볼 논문은 BEiT: BERT Pre-Training of Image Transformers입니다. 과거에 BERT의 pretrain 방법 중 하나였던 masked language modeling(MLM)은 방대한 학습량을 필요로 하는 transformer 계열 모델에 효과적인 방법으로 알려져있습니다. Vision 분야에서도 추가적인 labeling 작업 없이 샘플 중간에 masking을 하고 그것을 유추하는 유사한 pre-train 방법이 시도되었습니다. BEiT도 이러한 접근법을 사용한 Vision 분야의 Transformer 계열 모델입니다. 일전에 리뷰했던 MAE 논문도 MLM에 영향을 받아서 제안된 논문인데, 두 논문이 발표된 시기를 보면 어느정도 concurrent한 연..