[Paper] Emerging Properties in Self-Supervised Vision Transformers

5C

  1. Category : Self-distillation 기반 Self-supervised Vision Transformer 학습(DINO)과 emergent attention property 분석
  2. Context : 당시 CV에서는 CNN 기반 SSL(SimCLR, MoCo 등)이 representation learning에서 강력한 성능을 보이고 있었다. 동시에 ViT가 visual recogintion 분야에서 주목받기 시작했지만, supervised learning 환경에서는 CNN 대비 명확한 구조적 이점이 아직 불분명했다. 저자들은 NLP의 BERT/GPT 계열 self-supervised pretraining에서 영감을 받아 self-distillation 기반 SSL을 ViT에 적용하였고, 그 과정에서 ViT가 sementic object boundary를 자연스럽게 학습하는 emergent property를 보인다는 점을 발견하였다.
    1. Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving Language Understanding by Generative Pre-Training. n.d. Paper
    2. Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv:1810.04805. Preprint, arXiv, May 24, 2019. Paper.
  3. Correctness :저자들은 기존 CNN 기반 SSL의 self-distillation 전략을 ViT에 적용하였다. 특히 contrastive negative pair 없이도 안정적인 representation learning이 가능함을 보였으며, 학습 과정에서 attention map이 semantic object boundary에 자연스럽게 집중하는 현상을 실험적으로 확인하였다. 이는 supervised label 없이도 high-level visual concept가 형성될 수 있음을 보여준다.
  4. Contributions
    1. Teacher-student self-distillation 기반의 self-supervised ViT 학습 방법(DINO) 제안
    2. 학습된 ViT의 self-attention map이 별도의 supervision 없이 semantic object boundary에 집중하는 emergent property를 보인다는 점을 발견
    3. 단순 linear evaluation이나 k-nn classification에서도 강력한 representation quality를 보이며, SSL 기반 ViT feature의 일반화 가능성을 입증
    4. Vision Transformer가 CNN 대비 Self-supervised representation learning과 특히 잘 결합된다는 가능성을 제시
  5. Clarity : 논문이 올바르게 작성되었는지?



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • [Paper] MEDIC-AD Towards Medical Vision-Language Model’s Clinical Intelligence
  • [Paper] Generative Adversarial Networks
  • [Paper] Auto-Encoding Variational Bayes
  • [Algorithm] Union-Find