← 返回论文库

Mastering Chess and Shogi by Self-Play (AlphaZero)

Silver, et al. (DeepMind) · 2017

L5.1 · Algorithmic FoundationsarXiv:1712.01815#rl#self-play

CORE IDEA

单一算法 + self-play 学 Go/Chess/Shogi，零先验。

L-ANCHOR · 为什么在这一层重要

general game RL

arXiv:1712.01815 ↗

相关论文

QuantFactor REINFORCE

DeepSeek-R1: Incentivizing Reasoning in LLMs via RL

Playing Atari with Deep Reinforcement Learning (DQN)