DeepSeek-R1 采用开权重(open-weights)(而非完全开源)的方式发布,使得 AI 社区能够轻松获取该模型,并在数小时内便涌现出大量克隆版本。此外,DeepSeek-R1 也在中美 AI 竞赛中留下了重要印记,再次证明了一个日益明显的事实:中国 AI 模型不仅具备卓越的质量,同时也具备推动创新的原创能力。
与大多数生成式人工智能的进步不同,这些进步似乎扩大了Web2和Web3在基础模型领域的差距,DeepSeek-R1的发布带来了真正的影响,并为Web3-AI提供了有趣的机会。
DeepSeek-R1 内部结构: DeepSeek-R1 是在成熟的基础模型预训练框架上引入渐进式创新的成果。从整体上看,它遵循了与大多数顶级基础模型相同的训练方法,主要包括三个关键步骤:
-
预训练(Pretraining): 使用海量无标注数据,让模型学习预测下一个词。
-
监督微调(SFT): 优化模型的指令跟随能力和问答能力。
-
对齐人类偏好(Alignment): 通过最终微调,使模型的输出更加符合人类期望。
OpenAI、Google 和 Anthropic 等领先 AI 公司的基础模型普遍采用类似的训练流程。从表面上看,DeepSeek-R1 的训练方式似乎并无显著不同。然而,它的独特之处在于:DeepSeek-R1 并未从零开始预训练基础模型,而是基于其前代模型 DeepSeek-v3-base 进行优化。DeepSeek-v3-base 拥有惊人的 6170 亿参数,为 R1 提供了强大的基础。
本质上,DeepSeek-R1 是在 DeepSeek-v3-base 的基础上,使用大规模推理数据集进行 SFT 微调的结果。真正的创新点在于这些推理数据集的构建方式,因为高质量推理数据极难获取,而 DeepSeek-R1 成功突破了这一挑战。
第一步:DeepSeek-R1-Zero
DeepSeek-R1 的一大创新在于,它的训练过程中并非只诞生了一个模型,而是两个。其中,最具突破性的是R1-Zero——一个专注于推理任务的中间模型。与传统方法不同,R1-Zero 几乎完全依赖强化学习(Reinforcement Learning, RL)训练,几乎不使用人工标注数据。
强化学习的核心思路是通过奖励机制让模型学会生成正确答案,从而在长期训练中逐步掌握更强的推理能力。
R1-Zero 的推理能力相当惊人,在推理任务上的表现已经可以媲美 GPT-o1。不过,它在问答、可读性等通用任务上的表现较弱。但这并不是问题,因为R1-Zero 本就不是为了成为通用 AI,而是为了验证:仅靠强化学习,也能训练出最先进的推理能力——即使它在其他领域的表现不够完美。
第二步:DeepSeek-R1
DeepSeek-R1 的目标是成为一个通用型 AI 模型,但在推理任务上表现得更加出色。因此,它不仅要超越 R1-Zero,还需要在更广泛的任务中具备强大的能力。为此,DeepSeek 团队再次基于 v3 模型进行微调,但这次使用的是一个小规模的推理数据集。
如前所述,推理数据集的构建极具挑战,而这正是 R1-Zero 发挥关键作用的地方。团队利用 R1-Zero 生成了一批合成推理数据,然后用它来微调 DeepSeek-v3,形成了一个新的中间推理模型。接着,这个模型被投入强化学习训练,训练数据同样来自 R1-Zero 生成的 60 万条推理样本。最终,DeepSeek-R1 诞生。
虽然 R1 的训练过程涉及许多技术细节,但核心亮点可以归纳为两点:
1. R1-Zero 证明了仅靠强化学习也能训练出强大的推理能力。虽然它不是一个通用 AI,但它成功生成了高质量的推理数据,为 R1 的训练奠定了基础。
2. DeepSeek-R1 重新定义了基础模型的训练方式。通过引入 R1-Zero,R1 不仅扩展了传统的训练流程,还利用了大量由 R1-Zero 生成的合成推理数据,降低了训练成本,同时提升了推理能力。
最终,DeepSeek-R1 在推理任务上的表现达到了 GPT-o1 级别,但训练方式更加高效,成本也更低。
毫无疑问,R1 的发布是生成式 AI 发展史上的一个重要里程碑,它很可能会彻底改变基础模型的训练模式。与此同时,它还为 Web3-AI 生态 带来了全新的可能性,值得深入探讨它对未来的影响。
DeepSeek-R1和Web3-AI
长期以来,Web3 在基础模型的创建与应用方面一直缺乏真正具有吸引力的落地场景。某种程度上,传统的基础模型预训练流程与 Web3 架构理念背道而驰。然而,尽管 Web3-AI 仍处于早期阶段,DeepSeek-R1 的发布揭示了多个与 Web3 自然契合的机会,为 AI 的去中心化发展提供了新的思路。