来源:互联网 更新时间:2026-05-27 09:53
最近,AI开源社区迎来了一颗重磅新星:DeepSeek-R1。这个由深度求索公司发布的最新模型,在复杂推理任务上的表现,已经达到了能与OpenAI的o1模型同台竞技的水平。其背后的秘诀,在于一套名为“组相关策略优化”(GRPO)的创新强化学习算法,以及一个精心设计的多阶段训练流程。这套方法专为提升大语言模型的推理能力而生,尤其在数学等领域,效果令人瞩目。

GRPO的核心思路,其实是一种“减法艺术”。它取消了传统强化学习中对独立价值函数模型的依赖,从而大幅简化了训练过程。这么做的好处显而易见:既节省了宝贵的内存和计算资源,又能通过一种巧妙的“组内平均奖励”来估算性能基准,指导模型优化。
与大家熟悉的近端策略优化(PPO)不同,GRPO不再需要那个单独训练、时常不稳定的价值函数。它直接使用同一组输入下多个模型输出的平均奖励作为参照。这就好比,不再需要一个外部裁判来给每个动作单独打分,而是让模型自己在一组尝试中内部比较、自我校准。这种方法让模型在处理需要多步推理、产生多段输出的任务时,显得更加自然和高效。
DeepSeek团队是如何将这一理论付诸实践的呢?他们的旅程始于DeepSeek-V3模型。团队首先尝试应用GRPO,让模型对无监督的推理文本进行补全,并引入了一套基于规则的奖励机制,重点考察格式、数学和编程能力。
具体来说,奖励主要看两点:一是答案是否正确(比如数学题结果对不对,LeetCode问题能否解决),二是思考过程是否清晰、格式是否规范。这种“结果”与“过程”并重的评判标准,迫使模型不仅要找到答案,还要学会条理分明地展示其思维链条。
效果是立竿见影的。在AIME 2024这样的高难度数学竞赛测试集上,模型的Pass@1得分从最初的15.6%一路飙升至71.0%,这个成绩已经非常接近OpenAI的o1-0912模型。更有趣的是,随着问题复杂度增加、需要生成的思考token变多,模型似乎“自然而然”地学会了进行更长时间、更深层次的思考。
当然,进步并非一蹴而就。早期的模型输出曾面临可读性差、语言混杂的问题,但通过后续多阶段的精细打磨,这些问题被逐一攻克。
为了确保最终模型的稳健与出色,DeepSeek R1的训练经历了四个环环相扣的关键阶段:
在整个开发过程中,DeepSeek团队做出了一些不同于主流路线的选择,也收获了一些反直觉的洞察。例如,他们并没有采用蒙特卡洛树搜索(MCTS)或复杂的过程奖励模型(PRM)。
一个关键的发现是:在应用GRPO之前进行充分的监督微调,能让整个训练过程更快、更稳定。此外,团队验证了,基于准确性和格式的、清晰明确的规则奖励,其效果往往比训练一个庞大而复杂的奖励模型更加直接有效。这提醒我们,有时候,优雅简单的解决方案,反而能直击要害。
通过这一系列创新且严谨的训练步骤,DeepSeek R1最终得以诞生。它不仅在大规模推理基准测试中证明了实力,更在各种实际任务中展现出优异的实用性和输出一致性,为开源大模型在复杂推理领域树立了新的标杆。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
4D采矿者官网在哪下载 最新官方下载安装地址
BuuPo官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
无尽花界时装合辑
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc