SEMINAR

Emerging Properties in Self-Supervised Vision Transformers

Yoohwan Lee
2026.01.26
Self-supervised Learning
Emerging Properties in Self-Supervised Vision Transformers
VENUE2021 ICCV
PAPER LINKCVF Open Access

Overview

  • Vision Transformer는 self-supervised learning에서 강력한 representation을 학습할 수 있음
  • 기존 CNN 대비 explicit supervision 없이도 semantic feature를 학습하는 능력이 강조됨
  • DINO는 label 없이 teacher–student 구조로 self-distillation을 수행하는 방법
  • 학습된 feature는 object boundary와 scene layout 같은 semantic 정보를 자연스럽게 포함

Key Takeaways

Problem Setting

  • 기존 self-supervised 방법은 instance discrimination 기반으로 학습되어 구조적 정보 학습에 한계 존재
  • CNN 기반 feature는 semantic 구조를 명확히 반영하지 못하는 경우가 많음
  • Vision Transformer는 구조적 정보를 포착할 잠재력이 있지만 self-supervised 학습 방식이 중요
  • label 없이 representation을 학습하면서 collapse를 방지하는 것이 핵심 문제

Main Idea

  • teacher–student 기반 self-distillation framework 제안
  • Multi-crop strategy
    • 하나의 이미지에서 global view와 local view를 생성
    • 서로 다른 view 간 representation을 정렬하도록 학습
  • Teacher–Student 구조
    • 동일한 architecture를 사용하지만 teacher는 EMA로 업데이트
    • student는 모든 view를 입력으로 받고 teacher는 global view만 사용
    • cross-entropy로 두 network output을 정렬
  • Momentum teacher
    • teacher는 student parameter의 EMA로 업데이트되어 더 안정적인 target 제공
  • Collapse 방지
    • centering으로 출력 분포를 균형 있게 유지
    • sharpening으로 분포를 날카롭게 만들어 정보 유지
    • 두 기법을 함께 사용하여 trivial solution 방지

Result

  • ImageNet에서 기존 self-supervised 방법 대비 높은 성능 달성
  • k-NN classification에서도 강력한 feature quality 확인
  • self-attention map이 object boundary와 semantic 영역을 자연스럽게 포착
  • segmentation annotation 없이도 object-level 구조를 학습하는 특성 확인
  • 다양한 downstream task에서 supervised 방법과 경쟁력 있는 성능 확보