SEMINAR

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Jiwon Kim

2025.01.20

DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

VENUE2023 NeurIPS

PAPER LINKNeurIPS

PDFPDF 다운로드

이전 글Tent: Fully Test-Time Adaptation by Entropy Minimization

다음 글Chain-of-Thought Reasoning Without Prompting