← 返回论文库

DeepSeek-V4 Technical Report

DeepSeek · 2026
L4.1 · Foundation Model Tech StackTechnical report#llm#moe
CORE IDEA
V4-Pro (1.6T/49B active) + V4-Flash:Hybrid Attention(1M context FLOPs 减 73%)+ mHC + Muon optimizer,33T token 重点 agentic trace。
CONCRETE EXAMPLE
SWE-bench Verified 80.6%,agent workload 比竞品便宜 60-80%。
L-ANCHOR · 为什么在这一层重要
2026 frontier open model

相关论文