← 返回论文库

Decision Transformer: Reinforcement Learning via Sequence Modeling

Chen, et al. (Berkeley + Stanford) · 2021

L5.1 · Algorithmic FoundationsNeurIPS 2021#rl#transformer

CORE IDEA

把 RL 重新表述为 sequence modeling：给定 return-to-go + state 预测 action。

L-ANCHOR · 为什么在这一层重要

RL as sequence

arXiv:2106.01345 ↗

相关论文

QuantFactor REINFORCE

DeepSeek-R1: Incentivizing Reasoning in LLMs via RL

Playing Atari with Deep Reinforcement Learning (DQN)