← 返回论文库
QuantFactor REINFORCE
— · 2024
L0.3 · Financial AgentsarXiv:2409.05144#alpha-mining#rl
CORE IDEA
指出 PPO 在 alpha mining 上 unstable(variance 大 + reward 稀疏),改用 REINFORCE with variance bound。
CONCRETE EXAMPLE
同样 candidate budget 下 REINFORCE-based search 比 PPO 找到 alpha 多 2x。
L-ANCHOR · 为什么在这一层重要
RL 路线的 PPO 替代