SEMINAR

Kaputt: A Large-Scale Dataset for Visual Defect Detection

Hyongkeun Park

2026.05.08

Anomaly Detection

VENUE2025 ICCV

Overview

기존 AD는 통제된 환경에서 높은 성능 달성
- 고정된 pose, 충분한 reference, 명확한 defect
실제 환경에서는
- item 다양성 증가 (48k SKU 수준)
- pose / packaging variation 존재
- reference 부족 및 noisy
- defect 경계가 모호
기존 benchmark 성능이 real-world generalization을 보장하지 않음
실제 성능은 크게 감소 (Kaputt 기준 약 56.9%)

real-world setting을 반영한 anomaly detection benchmark 설계
Kaputt Dataset
- 23만장 이미지, 10만 annotated query, 4.8만 unique item
- item당 1~3 reference 제공
- train/val/test를 item 기준으로 분리 (leakage 방지)
Query-Reference Setting
- category-level이 아닌 item-level 비교 문제
- query와 reference 간 pose, 배경, packaging이 다를 수 있음
Annotation
- severity: no defect / minor / major
- defect type: 7가지 multi-label (deformation, spillage 등)
Real-world 특징 반영
- defect type과 severity 불일치
- ambiguous defect 및 label noise 존재

평가 시나리오
- zero-shot / few-shot / supervised / reference 기반 총 4가지
주요 결과
- zero/few-shot 방법은 성능 매우 낮음
- reference 기반 방법도 noisy reference로 인해 제한적
- supervised 방법이 가장 높은 성능 (ViT-S 약 90% 수준)
추가 분석
- reference 단순 결합은 성능 향상에 도움 안 됨
- label 부족이 가장 큰 bottleneck
- 실제 환경에서는 low-FPR 영역 성능 차이가 중요