SEMINAR
Kaputt: A Large-Scale Dataset for Visual Defect Detection
Hyongkeun Park
2026.05.08
Anomaly Detection

Overview
- industrial anomaly detection(AD)이 실제 환경에서 잘 동작하는지에 대한 문제 제기
- 기존 benchmark(MVTec-AD, VisA)는 controlled 환경이라 성능이 과대평가됨
- Kaputt는 real-world retail logistics 환경을 반영한 대규모 dataset 제안
- item-level 비교 기반 anomaly detection 문제로 재정의
Key Takeaways
Problem Setting
- 기존 AD는 통제된 환경에서 높은 성능 달성
- 고정된 pose, 충분한 reference, 명확한 defect
- 실제 환경에서는
- item 다양성 증가 (48k SKU 수준)
- pose / packaging variation 존재
- reference 부족 및 noisy
- defect 경계가 모호
- 기존 benchmark 성능이 real-world generalization을 보장하지 않음
- 실제 성능은 크게 감소 (Kaputt 기준 약 56.9%)
Main Idea
- real-world setting을 반영한 anomaly detection benchmark 설계
- Kaputt Dataset
- 23만장 이미지, 10만 annotated query, 4.8만 unique item
- item당 1~3 reference 제공
- train/val/test를 item 기준으로 분리 (leakage 방지)
- Query-Reference Setting
- category-level이 아닌 item-level 비교 문제
- query와 reference 간 pose, 배경, packaging이 다를 수 있음
- Annotation
- severity: no defect / minor / major
- defect type: 7가지 multi-label (deformation, spillage 등)
- Real-world 특징 반영
- defect type과 severity 불일치
- ambiguous defect 및 label noise 존재
Result
- 평가 시나리오
- zero-shot / few-shot / supervised / reference 기반 총 4가지
- 주요 결과
- zero/few-shot 방법은 성능 매우 낮음
- reference 기반 방법도 noisy reference로 인해 제한적
- supervised 방법이 가장 높은 성능 (ViT-S 약 90% 수준)
- 추가 분석
- reference 단순 결합은 성능 향상에 도움 안 됨
- label 부족이 가장 큰 bottleneck
- 실제 환경에서는 low-FPR 영역 성능 차이가 중요