新建会话
Ctrl
K
  • 网站
  • 文档
  • PPT
  • 表格
  • 深度研究
Kimi Code Kimi Claw
历史会话
  • 查看手机应用
  • 关于我们
    • 探索月之暗面
    • 开放平台
    • 社会招聘
    • 校园招聘
    • 用户协议
    • 隐私协议
  • Language
  • 用户反馈

DeepSeek-R1:通过强化学习提升大型语言模型的推理能力

pdf

deepseek_R1.pdf

PDF 1.27 MB
帮我将文件翻译成中文,整篇输出给我,记住:我要的是整篇翻译,必须整篇翻译完后整篇输出给我。
好的,我将为您翻译整篇文件内容。由于篇幅较长,我会分段进行翻译,并在完成全部翻译后,将整篇内容整合输出给您。请稍等片刻。

DeepSeek-R1:通过强化学习激励大型语言模型的推理能力

DeepSeek-AI
摘要
我们推出了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有使用监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,如可读性差和语言混用问题。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了多阶段训练和冷启动数据,然后进行强化学习。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个密集模型(1.5B、7B、8B、14B、32B、70B),这些模型是从 DeepSeek-R1 中蒸馏而来的。
AIME 2024
Codeforces (百分位数)
GPQA Diamond
Pass@1
MMLU
Pass@1
SWE-bench Verified (已解决)
图 1 | DeepSeek-R1 的基准测试性能

1. 引言

近年来,大型语言模型(LLMs)经历了快速迭代和进化,逐渐缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程的重要组成部分,它在推理任务上提高了准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练所需的计算资源较少。在推理能力方面,OpenAI 的 o1 系列模型首次通过增加链式推理(Chain-of-Thought,CoT)过程的长度来实现推理时的扩展,从而在数学、编码和科学推理等各种推理任务上取得了显著改进。然而,有效的测试时扩展仍然是研究社区的一个开放性问题。此前,已有研究探索了多种方法,包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索和束搜索等搜索算法,但没有任何方法达到了 OpenAI 的 o1 系列模型的通用推理性能。
在本文中,我们迈出了通过纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,专注于通过纯 RL 过程实现自我进化。具体而言,我们以 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al., 2024)作为 RL 框架,以提升模型在推理任务上的性能。在训练过程中,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。经过数千步的 RL 训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,在 AIME 2024 上的 Pass@1 分数从 15.6% 提高到 71.0%,并且通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。
然而,DeepSeek-R1-Zero 面临一些挑战,如可读性差和语言混用问题。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体而言,我们首先收集数千条冷启动数据以微调 DeepSeek-V3-Base 模型,然后像 DeepSeek-R1-Zero 一样进行推理导向的 RL。在 RL 过程接近收敛时,我们通过拒绝采样在 RL 检查点上创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。经过新数据微调后,检查点会经历额外的 RL 过程,考虑所有场景的提示。经过这些步骤后,我们得到了一个名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
我们进一步探索从 DeepSeek-R1 蒸馏到较小密集模型的能力。使用 Qwen2.532B(Qwen, 2024b)作为基础模型,直接从 DeepSeek-R1 进行蒸馏的表现优于在其上应用 RL。这表明,较大基础模型发现的推理模式对于提升推理能力至关重要。我们开源了基于 Qwen 和 Llama 系列的蒸馏模型。值得注意的是,我们的蒸馏 14B 模型大幅超越了开源的 QwQ-32B-Preview(Qwen, 2024a),并且蒸馏的 32B 和 70B 模型在密集模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练:在基础模型上进行大规模强化学习
• 我们直接将 RL 应用于基础模型,不依赖于监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的链式推理(CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 的能力,为研究社区树立了一个重要的里程碑。值得注意的是,这是首次开放研究验证 LLMs 的推理能力可以通过纯 RL 激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
• 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信这一流程将有助于行业开发更好的模型。
蒸馏:小模型也可以很强大
• 我们证明了较大模型的推理模式可以蒸馏到小模型中,与通过 RL 在小模型上发现的推理模式相比,结果表现更好。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更好的小模型。
• 使用 DeepSeek-R1 生成的推理数据,我们微调了几种在研究社区中广泛使用的密集模型。评估结果表明,蒸馏后的小密集模型在基准测试中表现卓越。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并且与 o1-mini 相当。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点。

1.2 评估结果总结

• 推理任务:(1)DeepSeek-R1 在 AIME 2024 上的 Pass@1 得分为 79.8%,略高于 OpenAI-o1-1217。在 MATH-500 上,它达到了令人印象深刻的 97.3%,与 OpenAI-o1-1217 相当,并且显著优于其他模型。(2)在编码相关任务中,DeepSeek-R1 展现出专家级的代码竞赛能力,在 Codeforces 上达到了 2,029 的 Elo 评分,超过了 96.3% 的人类参赛者。对于工程相关任务,DeepSeek-R1 略微优于 DeepSeek-V3,这可能有助于开发人员在实际任务中使用。
• 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了卓越的成果,显著优于 DeepSeek-V3,分别在 MMLU 上得分 90.8%,在 MMLU-Pro 上得分 84.0%,在 GPQA Diamond 上得分 71.5%。尽管其性能略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,显示出其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,显示出其处理基于事实的查询的能力。在这一基准测试中,OpenAI-o1 也超过了 GPT-4o。
• 其他:DeepSeek-R1 在一系列任务中表现出色,包括创意写作、一般性问答、编辑、总结等。它在 AlpacaEval
请结合上下文,帮我解读一下我给你的文件内容是什么意思。
您提供的文件内容是关于DeepSeek-R1-Zero模型在强化学习(RL)过程中训练集上的平均响应长度的图表。图表展示了随着训练步骤的增加,模型每个响应的平均长度是如何变化的。
从图表中可以看出,随着训练步骤的增加,DeepSeek-R1-Zero模型的响应长度呈现出上升的趋势。这表明模型在训练过程中逐渐学会了如何花费更多的“思考时间”来解决推理任务。随着模型对任务的理解和处理能力的提升,它生成的响应也变得更加详细和复杂,这反映在响应长度的增加上。
图表下方的说明文字进一步解释了这一点:“DeepSeek-R1-Zero naturally learns to solve reasoning tasks with more thinking time.” 这意味着模型在没有明确编程的情况下,通过与强化学习环境的互动,自主地发展出了更高级的问题解决策略。这种自我进化的能力是强化学习的一个显著特点,它允许模型通过试错和奖励机制来优化其行为。
此外,图表还可能暗示了模型在训练过程中的自我改进和适应性,这是实现更高级人工智能系统的关键因素之一。通过这种方式,DeepSeek-R1-Zero模型能够处理更复杂的任务,并在推理任务上展现出更好的性能。
总的来说,这个图表和相关文件内容展示了DeepSeek-R1-Zero模型在强化学习过程中的自我进化和学习能力,特别是在处理需要深入推理的任务时,模型如何通过增加思考时间来提高其响应的质量和复杂性。