← 返回论文库

QuantFactor REINFORCE

· 2024
L0.3 · Financial AgentsarXiv:2409.05144#alpha-mining#rl
CORE IDEA
指出 PPO 在 alpha mining 上 unstable(variance 大 + reward 稀疏),改用 REINFORCE with variance bound。
CONCRETE EXAMPLE
同样 candidate budget 下 REINFORCE-based search 比 PPO 找到 alpha 多 2x。
L-ANCHOR · 为什么在这一层重要
RL 路线的 PPO 替代
arXiv:2409.05144

相关论文