来源:互联网 更新时间:2026-06-08 14:44
Agent 的世界,四月还是山雨欲来。五月尚未结束,已然血雨腥风。
整个行业的加速快到不讲道理。Vibe Coding 已经不再是新名词,编程这条赛道也从未如此拥挤:Claude Code、Codex、Cursor 贴身肉搏,Trae、Qoder、CodeBuddy 杀成一团。
黑话一个接一个流行起来,支配所有人的注意力。去年还是 skill(技能)的天下,如今 harness(脚手架)站上了王座。
热词之下,模型已经卷到几近一条平直的线:不同的基准测试会给不同的答案,但总体来说,无论是 Opus、GPT,还是 Qwen、GLM、Kimi 和 MiniMax 们,无论是写代码还是执行越来越复杂的任务,都已不在话下。
之前一份研究报告拆解了 Claude Code 泄露的代码,发现真正属于模型决策的代码只有 1.6%,剩下 98.4%,全是管权限、管上下文、兜错的 harness。
为了进一步发挥模型的优势,全新一代的 agent 产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO 纷纷推出。连一直以来低调沉默的 DeepSeek 都挂出多岗位招聘,组建 agent 开发队伍。
早于业界布局 agent 的 MiniMax,在混战中落下自己的子。桌面端产品先是在 5 月中推出主打全新多 agent 编排架构的 Agent Team 功能。

Agent Team 的内核是一套 Leader-Worker-Verifier(领导-执行-验证)的「对抗式」架构。负责干活和负责挑错的职责,被拆成不同的 agent,受到经过代码逻辑固化的状态机去管理,彼此之间上下文隔离。
这味药,治的是长程 agent 任务中那些出了名的顽疾:上下文污染、上下文焦虑、agent 之间的「共谋」。
有趣的是,正如前述 MiniMax 并没有等 M3 发布,而是率先在 M2.7 上就将 Agent Team 推了出来。M2 这一代,被 MiniMax 称为「大巧若拙」,模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中,M3 只会更强。
我们聊了Agent Team 的设计原则及其所体现的 MiniMax 认知,探索了 Agent Team 的技术内核,浅析其它玩家对于 agentic 模型如何约束与放任。
业界有一种观点正盛:Anthropic 拥有最好的模型和最烂的工程。在择因看来,Anthropic 骨子里不信任模型,预设模型会作弊、耍小聪明,于是到处加以约束。OpenAI 的 harness 核心却是一个极简的 agentic loop。

这些思路在业界独树一帜,但业界追赶新东西并将之确立为共识的节奏,早已快过于新思想诞生的速度。在 agent 上,MiniMax 没有壁垒——没有任何人有。择因发给我一篇 71 页的论文,告诉APPSO:
「关于 agent 的所有东西,都在这篇论文里了。如果一篇就能说清楚,还有什么壁垒?」
但 MiniMax 仍有绝活。
他们力求以最快的速度不断向整个行业输出新的认知,做共识的领导者、执行者、验证者——这也是为什么 Agent Team 及其背后架构没等 M3,就公之于众了。
就像一个 agent 的工作会有它的停止条件,开发 agent 的人们也有停止的那一刻。对于择因,可能会是当 agent 可以实现真正的自进化,并且在几乎任何数字或物理世界的任务上效率和成本优于人类。
从站在第一线的他的视角来看,我们离那个未来并不遥远。
以下是 APPSO与 MiniMax Agent 研发工程师择因的对话。卖个关子: 在最后我们提出了一个开放性的问题,并获得了意想不到的答案。

用户方面有个比较有意思的点,因为我们是全模态,发现很多用户拿 Agent Team 去做长视频生成,有古文爱好者用它来生成大量的诗朗诵音频。这些偏 C 端、兴趣向的使用案例,其实我们没有预料。
很多用户也告诉我们,当 Agent Team 被整个拉起来开始干活的感觉,给他们带来很大情绪价值。
但我认为随着模型能力提升,抽卡这部分的成本,以及后续剪辑的成本,会降得非常低。
我们调研了一下,发现今天让剪辑师剪视频其实比 AI 便宜。甚至市面上有一种服务,他把抽卡和剪辑都打包了,但价格主要是抽卡的成本,剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑,交学费,课程任务就是给我把视频剪了。
基于这个想法,我们设计了这个新的架构:让干活的和负责验证的 agent 之间分开。验证的时候要有打回的机制,并且要让一个新的「脑子」去打回。
当月我们就把这套架构搭出来了,不过目前那个时候是主要内部使用,大家用得非常不亦乐乎。

可以说三月开始,这种新的开发节奏、新工作方式,就在我们内部出现了。
首先运行层面它是一个状态机,是确定性的代码,有严格的限制,它不能跳出这套规范,你可以把它理解为一个更严格的工作流 (workflow)。
在 agent 基建的层面,我们又给了极大的自由度。所有的 agent 之间都可以互相通讯,这和传统的 agentic workflow,有方向的流程图是完全不同的。当然,以前的 workflow 里面也可以带循环,但是核心还是这步走完了下一步。
我举个例子,比方说你用 agent 做开发,环境里少了某个包导致开发受阻,过去的 workflow 上可能就卡住了,而我们的 worker 或 verifier 发现了之后,它可以通过多种健全的机制通知其它 agent 别踩坑。
再比如一个研究类的任务,一开始的研究计划需要 leader 做些初步研究,过去 leader 分配完任务就停止了。但在我们架构下,如果用户有新点子、补充想法可以直接说,leader 能随时启动、去打断当前的 agent team、加一个新编排进去。Agent 工作流可以随时调整,剩下的重活都交给模型就行了。
以及大家知道强化学习逻辑下会出现「上下文焦虑」,当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排,持续工作直到达到准出标准。

我们在 M3 训练中也加入了类似数据,让模型具备主动性,去总结之前的轨迹,根据用户的反馈去提炼 skill,让工作更加可观测。随着模型能力提高,我们可以做得越来越多。
长程 agent 任务跑出几个小时后,几乎全部的上下文都是执行轨迹,所以我们要隔离这一部分上下文。做这个设计就是因为我们预期 agent 会运行很久,既然大部分的信息都是不需要的,为什么不隔离?
我们还有一些更宏大的交互层面的想法,就是所有功能都可以通过说来实现:目前的 agent 产品,比如 Cursor 还有代码编辑界面;豆包或其它 agent 还有各种具体功能按钮,比如新建任务、创建 skill、导入文件——我们觉得这些界面和按钮,以后都可以消失,你想让 agent 做什么只需要跟它说就行。

Claude Code 泄露过一版源代码,Codex CLI 也是开源的,你会发现这两家公司在 agent 产品上的倾向性完全不同。Anthropic 就是不信任模型的,他们就是假设模型会出各种问题,于是在各处增加约束。OpenAI 提出 harness 概念更早,你去看 Codex 其实就是一个循环,非常极简。
一个极简的 agent 框架,驭遵循度极好的 GPT 5.5,实现目前最强的编码和 agent 能力;层层约束的框架,用在 Opus 4.7 上,却出现了黑天鹅效应,在超长任务中也会偷懒糊弄,这是我所看到的。
Agent 和模型是长短板的关系,你的 agent 足够强大,可以榨干模型的能力;相反如果模型足够强大,其实 agent 不需要特别复杂,就直接一个循环,给它工具就能用了。
相同点上,CC的这套 dynamic workflow 是让 agent 自主决策如何编排一群 agent 运行,这和我们的 Agent Team 设计思想一致。同时二者的载体都是文件,或者说 coding,模型通过文件的方式去编排一群 agent 运行。
而不同点,主要在实现方案和玩法:CC 是让主 agent 编排完成后一次性并行执行大量子 agent,能调度几百次。但是它中途不会回头,和用户的互动主要是在遇到阻塞时候的询问。
我们的 Agent Team 在主 agent 编排完成的情况下,用户和主 agent 都能在执行的任意时刻介入进行调整,用户对 agent 的运行可观测,可以随时和具体的某个子 agent 聊天。同时能随时停止和重新继续。更强调人和 agent 用同种方式编排执行。
能确信的是,即使工作形式上类似,实际上还是有很多细节不同,可能是完全两种不同的东西。在 agent 时代,大家开发效率很高、迭代很快,但是决定胜负手的还是所有的细节。模型变快了,但我们得慢下来去知道所有的信息。

Harness 在四月份成为了共识,但我们也需要等会用 harness 的新模型出来,比如 M3,这样的产品才是饱满的。一个例子是去年 skill 提出时,当时 Sonnet 4.5 使用 skill 的效果跟后来的 4.6 差距极大——所以,你需要一个懂 harness 的模型才能把它玩得转。我觉得今天整个圈子共识形成得太快了,模型还没有跟上。
MiniMax 的倾向是人和 agent 应该拥有相同操作权限。在模型能力还没有达到顶尖的前提下,加各种约束、用现有的组织架构去编排它,肯定是为了让它工作的更好。
这里面当然有人性的考虑,你用人能理解的组织架构去编排,看 agent 给你干活,确实给你带来很强的情绪价值。但是从效率维度评价,就不一定合理。比如今天影视工业用人能理解的工作流去编排生成过程,比直接让人剪贵得多。
Agent 对于模型使用量也有好处。一个模型公司如果有了 agent,它的订阅量就会乘以一个系数;有模型但没有 agent,模型使用量就要打折扣。我相信这个逻辑对于 DeepSeek 和其它发力 agent 的公司也是一样。
前几天有篇华人团队发的论文写得非常好。关于 agent 的一切,其实都在这 71 页的论文里了,叫做Agent Harness Engineering: a Survey——既然 agent 已经能被一篇论文所概括了,你说有没有壁垒?

同时,为了不掉队淘汰,可能拼的是组织效率更多一点。如果你的组织效率足够高,大家有一个明确的目标,奔着这个目标去执行,这个公司其实就不会掉队。如果内部组织上扛不住压力了,做不出东西来,可能就会发现自己落后了、没法跟上。
我记得很多同行都公开或私底下表达过,如果有一天模型进入价格战阶段,到时候开源的风气可能会有所消减。
全球来看,开源仍是中美之间的最大区别。即便今后权重、训练框架不开源,你仍然可以把你的创新成果通过论文开放给全世界,不一定非得是模型能力。
如果你堆了大量的 agent 产品,里面有多少是和你的模型能力闭环的?有多少能反馈到自己的模型训练当中?几个agent 团队是在整抢资源还是朝着一个大的目标?其实都是未知数。
总的来说,agent 产品要先能在内部使用再推出去。我也看到,目前 B 端 agent 产品的收益更明确,效果更直接,所以不能否认大厂在这方面的投入。
举个例子就是 GPT Image 2,你会发现它的生图能力几乎和现实世界一模一样。可以预见的是,会有一款全模态模型出现,对现实世界的理解能力是极强的。如果这样的模型去操作物理世界,唯一剩下的就是物理世界怎么把接口给 AI 打开。
距离还有多远?我觉得山雨欲来。

以及连接飞书了之后,你跟它聊天、它向你汇报工作,这种体验的情绪价值是极强的。
但最重要的,是我们从过去迫使模型、agent 和我们一起干活,变成我们可以更多深度思考我们的工作,对工作进行抽象和模式识别,形成 skill 和规范——每一个人都变得更加 senior(资深)的工作者。
跟你说个现象:有些大厂开始招高中毕业生参与研学了。基于此我还有一个推演:将来大学本科生毕业之后,可能要「付费再上两到三年班」,成为一个 senior 之后,才能开始上班赚钱。
「付费上班」的意思是,首先你的 token 消费可能最初是由自己买单,等同于交学费。如果 agent 的能力真的全面赶超人类,聪明的公司算笔账都不会再招初级员工,这才是最可怕的。到那时候,你要先成为资深员工,而这个过程可能需要自己付费。
当然这是基于现有的教育体制。那么会发生两种情况,一就是大家享受 AI 带来的效率,去创造更多更有人文情怀的事物;二是教育制度层面或许会发生一些创新。
之前翁家翌提到(很多人也提过),人类的命运是可以被计算的:你的基因序列、倾向性、性格、激素水平可以测算;你的家庭条件,父母对你的影响(通过语言和肢体动作)也可以计算;你所处的环境是可量化的,小城市还是大城市、教育水平如何等等——在集齐了这些要素之后,每个当下的人的后续行为都可以预测。
我不是要用这个去预测别人,我希望它成为每个人的分身,可以把我的一切过往经历和生理资料都给它,在遇到决策点时去跟它讨论。
我之前是一个美团程序员,我可以跳槽去互联网公司或者考公(计算机还挺吃香),但这些决策更多因为我的过往认知。但是否存在一些我想不到的可能性,能够被建模、预测出来?
这就是我想做的,我觉得这才是真正解放人类的一环。人有生老病死,我们认为人生是一条单行线。但其实每个分支点都可能展开不一样的平行人生。
以及前面这些没有考虑意外。意外反而是最大的、不可预测的。我希望我做这个东西能够拯救因为意外而导致所有要素不再成立的人。从「肥尾效应」的角度来看,小概率事件才真正支配了我们大部分时间。它能让我们更多的关注点放在这些小概率但碘伏性的事件上,因为大概率的事件是能被算出来的。
认知之外的就是惊喜。我想做的东西,对你不就是个惊喜吗?

《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
我的末日校园海斗手游上线时间是哪天
蒙古上单是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
免费看电影的软件推荐
韦一敏是什么梗
晨字沙雕网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
短剧《情绪超市》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc