← 返回论文库

Direct Preference Optimization (DPO)

Rafailov, et al. (Stanford) · 2023

L4.2 · Foundation Model Tech StackNeurIPS 2023#alignment

CORE IDEA

闭式解直接用 preference data 训 LLM，绕过 reward model + PPO。

L-ANCHOR · 为什么在这一层重要

simpler alignment

arXiv:2305.18290 ↗

相关论文

InstructGPT: Training Language Models to Follow Instructions (RLHF)

Constitutional AI: Harmlessness from AI Feedback

DeepSeek-R1: Incentivizing Reasoning in LLMs via RL