← 返回论文库

Decision Transformer: Reinforcement Learning via Sequence Modeling

Chen, et al. (Berkeley + Stanford) · 2021
L5.1 · Algorithmic FoundationsNeurIPS 2021#rl#transformer
CORE IDEA
把 RL 重新表述为 sequence modeling:给定 return-to-go + state 预测 action。
L-ANCHOR · 为什么在这一层重要
RL as sequence
arXiv:2106.01345

相关论文