QuantFactor REINFORCE

— · 2024

L0.3 · Financial AgentsarXiv:2409.05144#alpha-mining#rl

CORE IDEA

指出 PPO 在 alpha mining 上 unstable（variance 大 + reward 稀疏），改用 REINFORCE with variance bound。

CONCRETE EXAMPLE

同样 candidate budget 下 REINFORCE-based search 比 PPO 找到 alpha 多 2x。

L-ANCHOR · 为什么在这一层重要

RL 路线的 PPO 替代

相关论文