SEMINAR

Emerging Properties in Self-Supervised Vision Transformers

Yoohwan Lee

2026.01.26

Self-supervised Learning

Emerging Properties in Self-Supervised Vision Transformers

VENUE2021 ICCV

PAPER LINKCVF Open Access

PDFPDF 다운로드

Overview

Vision Transformer는 self-supervised learning에서 강력한 representation을 학습할 수 있음
기존 CNN 대비 explicit supervision 없이도 semantic feature를 학습하는 능력이 강조됨
DINO는 label 없이 teacher–student 구조로 self-distillation을 수행하는 방법
학습된 feature는 object boundary와 scene layout 같은 semantic 정보를 자연스럽게 포함

Key Takeaways

Problem Setting

기존 self-supervised 방법은 instance discrimination 기반으로 학습되어 구조적 정보 학습에 한계 존재
CNN 기반 feature는 semantic 구조를 명확히 반영하지 못하는 경우가 많음
Vision Transformer는 구조적 정보를 포착할 잠재력이 있지만 self-supervised 학습 방식이 중요
label 없이 representation을 학습하면서 collapse를 방지하는 것이 핵심 문제

Main Idea

teacher–student 기반 self-distillation framework 제안
Multi-crop strategy
- 하나의 이미지에서 global view와 local view를 생성
- 서로 다른 view 간 representation을 정렬하도록 학습
Teacher–Student 구조
- 동일한 architecture를 사용하지만 teacher는 EMA로 업데이트
- student는 모든 view를 입력으로 받고 teacher는 global view만 사용
- cross-entropy로 두 network output을 정렬
Momentum teacher
- teacher는 student parameter의 EMA로 업데이트되어 더 안정적인 target 제공
Collapse 방지
- centering으로 출력 분포를 균형 있게 유지
- sharpening으로 분포를 날카롭게 만들어 정보 유지
- 두 기법을 함께 사용하여 trivial solution 방지

Result

ImageNet에서 기존 self-supervised 방법 대비 높은 성능 달성
k-NN classification에서도 강력한 feature quality 확인
self-attention map이 object boundary와 semantic 영역을 자연스럽게 포착
segmentation annotation 없이도 object-level 구조를 학습하는 특성 확인
다양한 downstream task에서 supervised 방법과 경쟁력 있는 성능 확보

이전 글Robust Fitting on a Gate Quantum Computer

다음 글Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs