您的位置：首页 > > 教程攻略 > ai资讯 >3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

来源:互联网 更新时间:2026-06-18 13:54

在AI圈子里，最近有个小模型彻底火了。3B的参数量，硬是在编程这类可验证的推理任务上，跟Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5这些动辄几百B甚至上千B参数的“巨无霸”打得有来有回，进入到了相同的性能区间。体积差了几个数量级，但表现却毫不逊色。

这个模型叫VibeThinker-3B，一个只有30亿参数的密集型推理模型。它的目标很明确：在如此严苛的小模型规模下，把可验证推理能力推向一个极致。模型发布后，社区里不少人都被它的成绩惊到了，纷纷表示想上手一试。

更让人意外的是，它还是一个国产模型，出自新浪微博团队之手。

根据技术报告，这个模型专为那些有明确验证信号的任务而生——数学推理、竞技编程、STEM推理，以及带有严格约束的指令执行。因此，它在各项基准测试中表现相当亮眼：AIME26拿了94.3分，HMMT25是89.3分，LiveCodeBench v6（Pass@1）达到了80.2%，更夸张的是，在2026年4月到5月期间LeetCode最新未公开的周赛和双周赛上，它拿到了96.1%的通过率。

那么，这么强的模型到底是怎么训练出来的？技术报告里透露了一些细节。

它基于Qwen2.5-Coder-3B，然后采用了一个升级版的Spectrum-to-Signal流程进行后训练。这个流程很有意思，它在监督微调（SFT）阶段强化了数据合成、质量过滤和课程学习，然后把MGPO风格的强化学习扩展到多个可验证领域，保留完整的长上下文推理轨迹，最后通过离线自蒸馏和指令强化学习（Instruct RL）来巩固各个能力。

VibeThinker-3B整体训练流程

Spectrum-to-Signal流程

此外，VibeThinker-3B还引入了一个叫Claim-Level可靠性评估（CLR）的测试时scaling策略，专门针对答案可验证的推理。这个策略进一步把数学基准测试的成绩往上拉，AIME26从94.3提高到97.1，HMMT25从89.3提升到95.4，BruMO25更是达到了99.2。

具体训练流程可以概括为这几个步骤：

第一，基于课程的两阶段SFT。第一阶段聚焦数学、编程、STEM推理、通用对话和指令遵循，实现广泛的能力覆盖；第二阶段则转向更高难度、更宽视野的推理样本。多样性探索蒸馏被用来保留多个有效的解决方案路径。

第二，多领域推理强化学习。这里重用了MGPO方案，依次在数学、编程和STEM推理上应用强化学习。训练窗口使用了单个64K的长上下文，确保完整的长时域推理轨迹不被截断。

第三，离线自蒸馏。从数学、编程和STEM RL的检查点中，筛选并提炼出高质量轨迹，最终合并到一个统一的学生模型里。这里用了一个“学习潜力评分”机制，优先考虑那些回答正确但学生模型还没完全模仿好的轨迹。

第四，Instruct RL。最后阶段，增强模型对用户提示的可控性。对于格式敏感和开放式的教学数据，结合基于规则的验证器和基于评分标准的奖励模型来训练。

知名AI研究者Sebastian Raschka也系统总结了这份技术报告里的关键点。

如果你对这些细节感兴趣，可以去找完整的技术报告来读，模型也是能公开下载的。

报告标题：VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
报告链接：https://arxiv.org/pdf/2606.16140
HuggingFace链接：https://huggingface.co/WeiboAI/VibeThinker-3B

不过，这个模型的应用范围有明显的局限性——它在需要通用知识的领域表现并不出色。

作者团队也明确指出了这一点，并提出了一个“参数压缩覆盖假设”：不同的能力对模型参数的依赖方式完全不同。可验证推理更像是一种高度可压缩、参数密集的能力，核心在于多步推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰、反馈信号足够可靠时，紧凑型模型也能逼近前沿推理水平。相比之下，开放领域知识、通用对话和长尾场景理解，则依赖大规模参数来广泛覆盖事实、概念和世界知识。

这个假设非常有启发性。正如VentureBeat在报道中提到的：“它揭示了推理能力和事实知识之间是部分解耦的，前者可以比之前设想的更高效地压缩。这对业界如何看待模型设计、部署成本，以及高级AI功能的普及性，都有深远影响。”

作者表示，他们的目标不是用一个小模型去替代大模型，而是想沿着特定能力维度，审视小模型真正的边界在哪里。通过VibeThinker-3B，他们希望传递一个信号：小模型不应该只是降低部署成本的妥协方案。在那些有清晰反馈和验证机制的能力领域中，小型语言模型正在展现出很有前景的研究路径，有望达到前沿性能，并与传统的参数规模扩展范式形成根本性的互补。

当然，这个模型在社区里也面临一些质疑。如果你感兴趣，不妨亲自下载试一下，看看它的表现到底如何。

参考链接：https://x.com/orcus108/status/2066876960073288567

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

热门资讯

热门手游

相关攻略

热门专题