← 返回论文库

Proximal Policy Optimization (PPO)

Schulman, et al. (OpenAI) · 2017
L5.1 · Algorithmic FoundationsarXiv:1707.06347#rl
CORE IDEA
TRPO 简化版:clip 策略更新幅度,RLHF/InstructGPT 用的就是它。
L-ANCHOR · 为什么在这一层重要
policy optimization 工业标准
arXiv:1707.06347

相关论文