SEMINAR
Emerging Properties in Self-Supervised Vision Transformers
Yoohwan Lee
2026.01.26
Self-supervised Learning

Overview
- Vision Transformer는 self-supervised learning에서 강력한 representation을 학습할 수 있음
- 기존 CNN 대비 explicit supervision 없이도 semantic feature를 학습하는 능력이 강조됨
- DINO는 label 없이 teacher–student 구조로 self-distillation을 수행하는 방법
- 학습된 feature는 object boundary와 scene layout 같은 semantic 정보를 자연스럽게 포함
Key Takeaways
Problem Setting
- 기존 self-supervised 방법은 instance discrimination 기반으로 학습되어 구조적 정보 학습에 한계 존재
- CNN 기반 feature는 semantic 구조를 명확히 반영하지 못하는 경우가 많음
- Vision Transformer는 구조적 정보를 포착할 잠재력이 있지만 self-supervised 학습 방식이 중요
- label 없이 representation을 학습하면서 collapse를 방지하는 것이 핵심 문제
Main Idea
- teacher–student 기반 self-distillation framework 제안
- Multi-crop strategy
- 하나의 이미지에서 global view와 local view를 생성
- 서로 다른 view 간 representation을 정렬하도록 학습
- Teacher–Student 구조
- 동일한 architecture를 사용하지만 teacher는 EMA로 업데이트
- student는 모든 view를 입력으로 받고 teacher는 global view만 사용
- cross-entropy로 두 network output을 정렬
- Momentum teacher
- teacher는 student parameter의 EMA로 업데이트되어 더 안정적인 target 제공
- Collapse 방지
- centering으로 출력 분포를 균형 있게 유지
- sharpening으로 분포를 날카롭게 만들어 정보 유지
- 두 기법을 함께 사용하여 trivial solution 방지
Result
- ImageNet에서 기존 self-supervised 방법 대비 높은 성능 달성
- k-NN classification에서도 강력한 feature quality 확인
- self-attention map이 object boundary와 semantic 영역을 자연스럽게 포착
- segmentation annotation 없이도 object-level 구조를 학습하는 특성 확인
- 다양한 downstream task에서 supervised 방법과 경쟁력 있는 성능 확보