← 返回论文库

DeepSeek-V3 Technical Report

DeepSeek · 2024
L4.1 · Foundation Model Tech StackarXiv:2412.19437#llm#moe
CORE IDEA
671B/37B active MoE + MLA + MTP + FP8 训练,beat GPT-4 at 1/10 cost。
L-ANCHOR · 为什么在这一层重要
open-source MoE frontier
arXiv:2412.19437源码 ↗

相关论文