SEMINAR

SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

Yejin Kwon

2025.09.26

MLLM

SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

VENUE2025 arXiv

PAPER LINKarXiv

PDFPDF 다운로드

이전 글Improving Adversarial Robustness Requires Revisiting Misclassified Examples

다음 글VRA: Variational Rectified Activation for Out-of-distribution Detection