您的位置：首页 > > 教程攻略 > ai资讯 >刚刚，国产AI自己造了AI，全球首例！

刚刚，国产AI自己造了AI，全球首例！

来源:互联网 更新时间:2026-05-27 07:38

造AI这件事，如今的主角，正在悄然变成AI本身。

就在最近，一个国产AI完成了一次堪称“自举”的突破：它先为自己写出了一套全新的大模型预训练框架，然后，就用这套框架，成功训练出了一个全新的小尺寸模型。

这个来自面壁智能的成果，带来了两个关键产物：由AI编写的预训练框架

ForgeTrain

，以及由它训练出的新模型

MiniCPM5-1B

。

ForgeTrain的意义在于，它是全球首个完全由AI编写的、可用于实际生产的预训练框架。更令人惊讶的是，其性能在同等条件下，甚至超越了英伟达的标杆框架Megatron。具体到华&为昇腾平台上，用它来预训练MiniCPM5-1B，相比昇腾原生框架还能获得约10%的加速。

这背后，其实是一套名为

Forge Engineering

的新软件编程范式在支撑。其核心理念很直接：既然AI写代码的成本越来越低，未来的软件为何一定要做成庞大而通用的框架？完全可以针对特定的模型、硬件和任务，现场“锻造”出一套专用、极致的代码。

而被这套“AI工厂”产出的“产品”，就是MiniCPM5-1B模型。三者的关系，可以用下面这张图清晰地展示：

过去，“AI制造AI”更多是停留在概念或特定环节，比如生成一段函数、修改脚本或调整参数。但这一次，中国团队首次将这个概念，推进到了拥有可展示、可评测、可复现的完整工程样本阶段。

AI造出来的AI，能干啥？

最直接的问题来了：这个由AI“孕育”出的模型，究竟能做什么？

一个非常直观的应用场景是

桌宠

。这个仅有10亿参数的小模型，可以常驻在你的电脑桌面，变成一个随时响应、能聊天的AI伙伴。它不仅能根据上下文自然接话，还能被赋予不同的人格设定。

关键在于，它并非必须依赖云端大模型服务。1B的规模意味着它足够轻量，部署门槛大大降低。根据官方数据，MiniCPM5-1B在FP16精度下权重约2GB，适合GPU、高端笔记本和服务器；量化到INT4精度后仅约0.5GB，足以在手机、平板甚至车机等端侧设备上运行。

它的目标很明确：证明小模型也能很“能打”。在综合知识、数学推理、代码生成、工具调用等多个核心能力维度上，MiniCPM5-1B都拿出了与同尺寸端侧模型对比的亮眼成绩。

在公开评测中，其综合表现不俗。尤其值得一提的是，它再次刷新了小模型的“智能密度”上限。仅凭1B参数，就在国际知名的AA-Index榜单上超越了所有20亿参数以下的模型。相比三个月前发布的Qwen3.5-2B，MiniCPM5-1B不仅效果更优，参数量还减少了一半。

这指向一个越来越清晰的趋势：模型能力的提升，不再单纯依赖于参数的堆砌。更小的模型，正在承载更高的智能密度。数据显示，大模型的智能密度正以大约每3.5个月翻一番的速度持续提升。

因此，MiniCPM5-1B的价值在于，它不仅仅是一个小模型，更是在参数规模、部署成本和实际能力之间找到了一个新的平衡点，为端侧智能提供了更优解。

此外，它的

自定义人格

能力在端侧场景下意义重大。由于模型直接部署在本地，离用户更近，它可以更自然地记住用户的交互偏好，并根据不同场景切换风格，成为一个真正个性化的轻量级智能入口。

要让大模型从云端真正走向每个人的设备，模型本身必须足够小、成本足够低、体验足够好，并且拥有完整的工具链。这也正是MiniCPM5-1B强调

开发者友好

的原因。它提供了从模型、推理到微调的完整工具链支持，兼容SGLang、vLLM、llama.cpp、Ollama等多种主流推理框架，以及LLaMA-Factory等微调工具。

对开发者而言，这比单纯提供一个模型权重文件重要得多。因为一个模型能否被广泛应用，往往不只取决于其性能，更取决于部署、推理、量化、微调乃至接入工作流的便捷程度。

超越英伟达Megatron的“AI工厂”

如果说MiniCPM5-1B是“AI制造AI”的产品，那么ForgeTrain就是生产它的“工厂”。而这个工厂本身，也是AI建造的。

面壁智能将“AI制造AI”的进程划分为L1到L5五个阶段：

L1
：AI仅提供建议，人类执行所有操作（如GitHub Copilot）。
L2
：AI辅助研发，完成具体编码环节（如Cursor，Claude Code）。
L3
：AI端到端产出下一代模型（代表：ForgeTrain）。
L4
：AI递归自改进，改造训练管线和自身。
L5
：AI自主设定研究议程，进行开放式探索。

ForgeTrain正对应着

L3向L4过渡

的阶段。它虽然还未达到AI自主发明下一代Transformer架构的程度，但已经深入到了大模型研发最核心的基础设施层——预训练框架。

过去，全球主流的大模型预训练框架，如英伟达的Megatron、Meta的Fairseq、谷歌的TensorFlow，无一不是由人类工程师一行行代码精心构筑而成。

而Forge Engineering范式提出了一个截然不同的思路。传统软件工程追求通用框架，力求一套代码适配多种场景，好处是复用性强，但代价是很难在每个具体场景都做到极致优化，就像一件均码的衣服，谁都能穿，却很难合身。

Forge Engineering则激进得多：既然AI写代码又快又便宜，为何还要执着于通用？完全可以为不同的模型、不同的硬件、不同的任务，量身定制专用的代码。这好比从工业化批量生产，回归到了高级定制。AI就是那个不知疲倦的顶级工匠，为每一个需求锻造最合身的“铠甲”。

但让AI自己编写预训练框架，难点远不止于生成代码。更关键的是：它如何知道自己写对了？如何确保速度足够快？如何验证显存、并行、通信、稳定性等复杂问题？

这就需要引入

Harness

（测试套件）的概念。可以把Harness理解为一个“考场”，AI在其中自动进行“生成代码-运行测试-获取反馈-迭代修改”的循环，整个过程无需人工干预。

面壁智能采用了一套三阶段构建方法论：首先，从现有框架中采集关键数据，形成评测标准和Harness；其次，构建出与参考实现二进制一致的预训练框架版本；最后，解除一致性限制，迭代优化直至超越原版。

最终成果就是ForgeTrain：它在功能上完全对齐英伟达Megatron，同时在相同硬件条件下，训练速度还能再快10%。这意味着，使用相同的算力，可以节省10%的训练时间和成本。

一场正在发生的行业剧变

这不仅仅是一场酷炫的技术演示。透过现象看本质，面壁智能的这次发布，揭示了大模型行业正在经历的深刻变革。

首先，竞争焦点正从“堆资源”转向“提效率”。

过去几年，行业比拼的是参数规模、数据量和算力集群，信奉“大力出奇迹”。但这条Scaling Law的道路存在物理和经济的上限。当堆料接近天花板，接下来的胜负手必然是效率。在相同的算力预算下，谁能实现更快的研发迭代、更短的代际周期？AI制造AI给出了答案：用AI替代人类研发管线中的重复性劳动，将数周的开发工作压缩到几十分钟。这是对抗资源瓶颈，让模型能力持续指数级攀升的关键解法。

其次，AI研究员的角色正在被重新定义。

在ForgeTrain这样的体系中，人类的角色从“Human in the loop”（在循环中执行具体任务）转变为“Human on the loop”（在循环外进行监督与顶层设计）。未来的AI科学家，可能不再需要亲自编写海量的底层算子和通信逻辑。他们将更多地扮演研发系统架构师和目标定义者的角色，只需设定好目标、搭建好测试环境，剩下的“脏活累活”交由不知疲倦的AI去完成。

最后，这为国产大模型与芯片生态提供了弯道超车的契机。

过去评价国产大模型，目光常局限于参数大小和榜单分数。但真正决定长期竞争力的，是底层“生产模型的能力”。谁能以更低的成本、更快的速度训练和试错，谁就能在激烈的竞争中存活下来。

更深远的战略意义在于国产算力生态。众所周知，华&为昇腾等国产芯片在硬件算力上追赶迅速，但最大的短板在于软件生态。英伟达CUDA生态积累了数百万开发者十余年的优化经验，这是靠人力难以短期逾越的鸿沟。

而ForgeTrain提供了一种破局思路：如果人力不足，就用AI来补！通过AI自动生成适配各种新模型、新硬件的专属框架，国产芯片有望借助AI的生产力，极大缩短软件生态的追赶时间。

当AI学会了制造AI，齿轮便已开始加速转动。一个由AI驱动AI研发的新纪元，正在我们眼前展开。