SEMINAR

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Joohoon Lee

2023.03.21

Self-supervised Learning

Multi-Modal

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

VENUE2021 NeurIPS

PAPER LINKOpenReview

PDFPDF 다운로드

이전 글Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic Segmentation

다음 글Multivariate Anomaly Detection for Time Series Data with GAN