TAG: dpo

2023-12 [DPO] Direct Preference Optimization: Your Language Model is Secretly a Reward Model	2024/02/07 09:50	Hyunsoo Park
2024-01 Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation	2024/01/23 03:24	Hyunsoo Park