您的位置：首页 > > 教程攻略 > ai资讯 >对话 MiniMax 择因：Agent 终会超过人类，我们又将何去何从？

对话 MiniMax 择因：Agent 终会超过人类，我们又将何去何从？

来源:互联网 更新时间:2026-06-08 14:44

Agent 的世界，四月还是山雨欲来。五月尚未结束，已然血雨腥风。

整个行业的加速快到不讲道理。Vibe Coding 已经不再是新名词，编程这条赛道也从未如此拥挤：Claude Code、Codex、Cursor 贴身肉搏，Trae、Qoder、CodeBuddy 杀成一团。

黑话一个接一个流行起来，支配所有人的注意力。去年还是 skill（技能）的天下，如今 harness（脚手架）站上了王座。

热词之下，模型已经卷到几近一条平直的线：不同的基准测试会给不同的答案，但总体来说，无论是 Opus、GPT，还是 Qwen、GLM、Kimi 和 MiniMax 们，无论是写代码还是执行越来越复杂的任务，都已不在话下。

模型之间仍然存在差距，但拉开模型公司之间真正差距的，早已不再是模型本身，而是套在外面的那层壳。

之前一份研究报告拆解了 Claude Code 泄露的代码，发现真正属于模型决策的代码只有 1.6%，剩下 98.4%，全是管权限、管上下文、兜错的 harness。

为了进一步发挥模型的优势，全新一代的 agent 产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO 纷纷推出。连一直以来低调沉默的 DeepSeek 都挂出多岗位招聘，组建 agent 开发队伍。

早于业界布局 agent 的 MiniMax，在混战中落下自己的子。桌面端产品先是在 5 月中推出主打全新多 agent 编排架构的 Agent Team 功能。

而随着 M3 旗舰模型，MiniMax 桌面端全面升级为 MiniMax Code，再次搅动了大厂、小龙云集的 agent 市场。

Agent Team 的内核是一套 Leader-Worker-Verifier（领导-执行-验证）的「对抗式」架构。负责干活和负责挑错的职责，被拆成不同的 agent，受到经过代码逻辑固化的状态机去管理，彼此之间上下文隔离。

这味药，治的是长程 agent 任务中那些出了名的顽疾：上下文污染、上下文焦虑、agent 之间的「共谋」。

有趣的是，正如前述 MiniMax 并没有等 M3 发布，而是率先在 M2.7 上就将 Agent Team 推了出来。M2 这一代，被 MiniMax 称为「大巧若拙」，模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中，M3 只会更强。

在训练 M3 的最关键时刻，APPSO 与 MiniMax Agent研发工程师（周淳辅）做了一场对谈。

我们聊了Agent Team 的设计原则及其所体现的 MiniMax 认知，探索了 Agent Team 的技术内核，浅析其它玩家对于 agentic 模型如何约束与放任。

业界有一种观点正盛：Anthropic 拥有最好的模型和最烂的工程。在择因看来，Anthropic 骨子里不信任模型，预设模型会作弊、耍小聪明，于是到处加以约束。OpenAI 的 harness 核心却是一个极简的 agentic loop。

一个极简框架养出了遵循度极好的模型，一个约束极强的框架却养出了「黑天鹅」。MiniMax 做 agent 的思路，既将两者融合，又不完全相同：要相信模型，给它和人一样的操作权限，但也要在脚手架中加入合理的约束。

这些思路在业界独树一帜，但业界追赶新东西并将之确立为共识的节奏，早已快过于新思想诞生的速度。在 agent 上，MiniMax 没有壁垒——没有任何人有。择因发给我一篇 71 页的论文，告诉APPSO：

「关于 agent 的所有东西，都在这篇论文里了。如果一篇就能说清楚，还有什么壁垒？」

但 MiniMax 仍有绝活。

他们力求以最快的速度不断向整个行业输出新的认知，做共识的领导者、执行者、验证者——这也是为什么 Agent Team 及其背后架构没等 M3，就公之于众了。

究其根本，中国模型公司的「开源」玩法不会一直持续下去。

但这并不代表，优秀的认知不应该及时与世界分享。

就像一个 agent 的工作会有它的停止条件，开发 agent 的人们也有停止的那一刻。对于择因，可能会是当 agent 可以实现真正的自进化，并且在几乎任何数字或物理世界的任务上效率和成本优于人类。

从站在第一线的他的视角来看，我们离那个未来并不遥远。

以下是 APPSO与 MiniMax Agent 研发工程师择因的对话。卖个关子：在最后我们提出了一个开放性的问题，并获得了意想不到的答案。

架构即认知

APPSO：Agent Team 为什么没等 M3，直接在 M2.7 上就发布了？

择因：

不用非等到和新模型一起发，是我们的意愿，也是自己的节奏，就是希望不停地把最新的认知传达给外界，这件事情很值得做。以及它在我们内部已经使用很久了，一个月的时间，我们觉得可以对外发布了。

APPSO：今天一切的周期都变得很快，一个月已经很久了。

择因：

发布时我们模型还没迭代，但是有一批核心用户对我们的 agent 的运行范式感兴趣，所以我们提前发出去吸引他们。核心用户的建设对我们来说非常必要。后面我们也会考虑把我们的 Agent Team 架构开源出来。

APPSO：MiniMax Code 到目前为止的反馈如何？

择因：

这次把订阅逻辑理顺了，订了 token plan 就能用 agent。一个多月下来，下载和订阅量有一个比较可观的增长。这其实很有意思，因为如果只是提供 API 的话，用户用模型的门槛高，使用效果也不是最佳。MiniMax Code 能让大家直接感受到模型的完全体，这也是我们一直以来的思路，这一次被验证了，我觉得很好。在 M3 上只会更好。

用户方面有个比较有意思的点，因为我们是全模态，发现很多用户拿 Agent Team 去做长视频生成，有古文爱好者用它来生成大量的诗朗诵音频。这些偏 C 端、兴趣向的使用案例，其实我们没有预料。

很多用户也告诉我们，当 Agent Team 被整个拉起来开始干活的感觉，给他们带来很大情绪价值。

APPSO：真的像是有了几个员工给自己打工的这种感觉？

择因：

对。总体上看最近两个月的多 agent 产品，已经是血雨腥风。腾讯那个 (Marvis)「打工」感更强。很明显，在 Agent Team 的共识和落地方面，大家跟的都很紧。

APPSO：你说有人用 MiniMax Code 做视频，会不会以后可以不用专业视频生成工具，不用懂脚本、分镜、首尾帧，直接用 agent 调用全模态模型就能做视频了？

择因：

首先明确一下，我说的是偏个人用户、爱好的角度做视频，我觉得是可行的。专业的视频制作，其实让一个 Agent Team 去做，跑通打个样可以，但如果真的投入工业生产，还是需要分工。比如编导负责 idea、分镜、首尾帧这些关键的东西。给到另一帮人负责丢给海螺或 Seedance 抽卡。

但我认为随着模型能力提升，抽卡这部分的成本，以及后续剪辑的成本，会降得非常低。

我们调研了一下，发现今天让剪辑师剪视频其实比 AI 便宜。甚至市面上有一种服务，他把抽卡和剪辑都打包了，但价格主要是抽卡的成本，剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑，交学费，课程任务就是给我把视频剪了。

APPSO：如果更强的模型出来，比如 M3，能比人工剪辑还便宜吗？

择因：

我们的模型在能力上可以。但是你要算账的话，还是我刚说的套路，人的成本也会越来越低。

APPSO：MiniMax Code 的 Agent Team 架构，也就是 Leader-Worker-Verifier，听上去很合理，你们先做出来，然后 Claude Code 也跟进了。

择因：

我们是从三月开始做的，一开始我和边上同事讨论，一个 agent，它一旦做错了，在上一轮轨迹里面它永远会记得自己做错了这件事。但转念一想，它如果接下来按对的方向去做，其实这段做错了的记忆它是完全不需要的，对不对？

基于这个想法，我们设计了这个新的架构：让干活的和负责验证的 agent 之间分开。验证的时候要有打回的机制，并且要让一个新的「脑子」去打回。

当月我们就把这套架构搭出来了，不过目前那个时候是主要内部使用，大家用得非常不亦乐乎。

APPSO：你们内部用的爽点具体是什么？是解决了之前的痛点，还是效率高、更不容易出错？

择因：

我举个最简单的例子，比如你睡觉前给它派个任务，哪怕是极度复杂的工作，只要你卡控的够严格，你的准出标准可量化、可观测，而不是模型自己觉得可以就可以了——只要你做好这些门禁，这群 worker 和 verifier 就能在你睡觉的时候一直跑，睡醒之后就干完了。

可以说三月开始，这种新的开发节奏、新工作方式，就在我们内部出现了。

APPSO：这和传统依赖提示词的多 agent 编排的本质区别是什么？

择因：

本质区别是我们的 Agent Team 架构做了一套复杂的自由度限制。

首先运行层面它是一个状态机，是确定性的代码，有严格的限制，它不能跳出这套规范，你可以把它理解为一个更严格的工作流 (workflow）。

在 agent 基建的层面，我们又给了极大的自由度。所有的 agent 之间都可以互相通讯，这和传统的 agentic workflow，有方向的流程图是完全不同的。当然，以前的 workflow 里面也可以带循环，但是核心还是这步走完了下一步。

我举个例子，比方说你用 agent 做开发，环境里少了某个包导致开发受阻，过去的 workflow 上可能就卡住了，而我们的 worker 或 verifier 发现了之后，它可以通过多种健全的机制通知其它 agent 别踩坑。

再比如一个研究类的任务，一开始的研究计划需要 leader 做些初步研究，过去 leader 分配完任务就停止了。但在我们架构下，如果用户有新点子、补充想法可以直接说，leader 能随时启动、去打断当前的 agent team、加一个新编排进去。Agent 工作流可以随时调整，剩下的重活都交给模型就行了。

以及大家知道强化学习逻辑下会出现「上下文焦虑」，当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排，持续工作直到达到准出标准。

APPSO：你们如何让模型同源的 agent 实现对抗，避免共谋？

择因：

答案很简单，还是提示词。2026 年的大多数模型遵循能力足够强，提示词变得更可用。我们也会做一些提示词上的「雕花」行为，更重要的是给模型可观测的停止条件，让 worker 和 verifier 分别管理一些事情，比如 worker 的停止条件就是把活干完了，verifier 的停止条件是在干完的活里找到 bug。

APPSO：我的使用体验，有时候觉得可以交付了，但 agent 还在打过来打回去。你们怎么定义 agent 之间的对抗强度？太宽松肯定不好，太严格会无限循环。

择因：

我们不会假定所有的用户生产场景，所以先把这套框架抛出来，用户可以自己去定停止条件。至于怎么定，可以通过 Skill，让 agent 根据用户对停止条件的倾向主动总结成 skill，下次运行任务就可以作为判断标准。这个 skill 肯定是千人千面的，不是我们来概括。随着用户长期使用，Ma vis 会越来越懂用户。

我们在 M3 训练中也加入了类似数据，让模型具备主动性，去总结之前的轨迹，根据用户的反馈去提炼 skill，让工作更加可观测。随着模型能力提高，我们可以做得越来越多。

APPSO：MiniMax Code 的一大特点就是 agent 之间上下文隔离，很反直觉，你们是怎么想的？

择因：

agent 上下文分为三部分：用户请求、环境里的生产资料、模型执行轨迹。比如当 agent 执行出了错，会把犯的错记下来，但这个记录对另一个 agent 可能是有害的。当上下文变得臃肿，这些轨迹一定会污染别的 agent。

长程 agent 任务跑出几个小时后，几乎全部的上下文都是执行轨迹，所以我们要隔离这一部分上下文。做这个设计就是因为我们预期 agent 会运行很久，既然大部分的信息都是不需要的，为什么不隔离？

APPSO：同时执行几个任务，通过微信、飞书跟 MiniMax Code 查询也不会「串台」，这个体验很独特，是怎么做到的。

择因：

你可以理解为在 L-W-V 之外还有一个 IM agent。每个 agent 都有各自的启停触发，IM agent 的启动就是你给它发一条消息，它再去检查正在工作的其它 agent。

我们还有一些更宏大的交互层面的想法，就是所有功能都可以通过说来实现：目前的 agent 产品，比如 Cursor 还有代码编辑界面；豆包或其它 agent 还有各种具体功能按钮，比如新建任务、创建 skill、导入文件——我们觉得这些界面和按钮，以后都可以消失，你想让 agent 做什么只需要跟它说就行。

没有壁垒，全是共识

APPSO：为什么 Anthropic 一天到晚说自己模型多危险，作弊、耍小聪明？是模型没对齐好还是产品 harness 做的不够 robust？

择因：

我觉得可能只是 Anthropic 在宣发上的倾向。从个人体感对比，GPT 5.5 明显比 Anthropic 模型干活更彻底，更具有主动性，在真正生产上就是最好的 agentic 模型。它完全不绕弯子，不耍小聪明。

Claude Code 泄露过一版源代码，Codex CLI 也是开源的，你会发现这两家公司在 agent 产品上的倾向性完全不同。Anthropic 就是不信任模型的，他们就是假设模型会出各种问题，于是在各处增加约束。OpenAI 提出 harness 概念更早，你去看 Codex 其实就是一个循环，非常极简。

一个极简的 agent 框架，驭遵循度极好的 GPT 5.5，实现目前最强的编码和 agent 能力；层层约束的框架，用在 Opus 4.7 上，却出现了黑天鹅效应，在超长任务中也会偷懒糊弄，这是我所看到的。

Agent 和模型是长短板的关系，你的 agent 足够强大，可以榨干模型的能力；相反如果模型足够强大，其实 agent 不需要特别复杂，就直接一个循环，给它工具就能用了。

APPSO：新的Claude Code dynamic workflows 架构出现了 verifier 的设计，以及官方描述把编排从模型上下文搬到可执行代码层面，跟你们的构思「所见略同」。你觉得这种设计哲学的趋同，是 agent 工程的唯一解，还是阶段性偶然？

择因：

目前阶段是比较合理的解决方案。其实开发 Agent 是一个比较神奇的过程，收益可能来自于模型能力变强，而非你的框架变优秀了；当然，也有可能是你的框架比较先进，能让模型完成之前无法完成的任务。目前大家采用 verifier 的方案，也是因为和这个阶段模型的能力水平比较匹配。

相同点上，CC的这套 dynamic workflow 是让 agent 自主决策如何编排一群 agent 运行，这和我们的 Agent Team 设计思想一致。同时二者的载体都是文件，或者说 coding，模型通过文件的方式去编排一群 agent 运行。

而不同点，主要在实现方案和玩法：CC 是让主 agent 编排完成后一次性并行执行大量子 agent，能调度几百次。但是它中途不会回头，和用户的互动主要是在遇到阻塞时候的询问。

我们的 Agent Team 在主 agent 编排完成的情况下，用户和主 agent 都能在执行的任意时刻介入进行调整，用户对 agent 的运行可观测，可以随时和具体的某个子 agent 聊天。同时能随时停止和重新继续。更强调人和 agent 用同种方式编排执行。

能确信的是，即使工作形式上类似，实际上还是有很多细节不同，可能是完全两种不同的东西。在 agent 时代，大家开发效率很高、迭代很快，但是决定胜负手的还是所有的细节。模型变快了，但我们得慢下来去知道所有的信息。

APPSO：你怎么看业内有种说法，就是 Anthropic 研究极强，模型很厉害，但他们的工程能力很差，甚至他们自己都说产品是 100% vibe coded。

择因：

可能他们内部用的是好东西，只是没把最好的版本给放出来，所以之前泄露的 Claude Code 代码有很多非公开功能。

Harness 在四月份成为了共识，但我们也需要等会用 harness 的新模型出来，比如 M3，这样的产品才是饱满的。一个例子是去年 skill 提出时，当时 Sonnet 4.5 使用 skill 的效果跟后来的 4.6 差距极大——所以，你需要一个懂 harness 的模型才能把它玩得转。我觉得今天整个圈子共识形成得太快了，模型还没有跟上。

APPSO：所以给模型自由度，它其实能做得很好；但如果用人认为合理的架构去框住它，效果不一定好？人类的组织架构方式、对于该如何工作的想象力，是否制约了 agent？

择因：

也不一定，现在还为时尚早。多 agent 确实是最近的大热点，大家都在做各自的早期尝试，包括我看到 Slock 那种把几个 agent 拉到一个群聊里的组织方式，都很有意思。

MiniMax 的倾向是人和 agent 应该拥有相同操作权限。在模型能力还没有达到顶尖的前提下，加各种约束、用现有的组织架构去编排它，肯定是为了让它工作的更好。

这里面当然有人性的考虑，你用人能理解的组织架构去编排，看 agent 给你干活，确实给你带来很强的情绪价值。但是从效率维度评价，就不一定合理。比如今天影视工业用人能理解的工作流去编排生成过程，比直接让人剪贵得多。

APPSO：DeepSeek 最近在招人做 harness，做 agent 了，很明显是发力了。你怎么看？

择因：

我觉得模型企业做 agent，肯定不是为了做而做。最根本的是 agent 能力跟模型能力实现百分百契合，甚至放大。模型在自己的 agent 里能遵循自己的 harness，用户才能真正感受到模型的强大之处。

Agent 对于模型使用量也有好处。一个模型公司如果有了 agent，它的订阅量就会乘以一个系数；有模型但没有 agent，模型使用量就要打折扣。我相信这个逻辑对于 DeepSeek 和其它发力 agent 的公司也是一样。

APPSO：有个 OpenRouter 的数据，Claude 80% 以上的 token 消费用于编程和技术任务，DeepSeek 主要是闲聊和角色扮演。

择因：

我觉得模型公司做 agent 会有许多的动机，但最重要的之一，应该是让自己的模型在更严肃的场景里被用起来。

APPSO：之前你们说没有做 Agent 的企业敢说自己有壁垒，现在呢？

择因：

大家越来越重视 agent，并且形成共识的速度会越来越快。Skill 用了半年，龙虾一个半月，多 agent 也就一个月。

前几天有篇华人团队发的论文写得非常好。关于 agent 的一切，其实都在这 71 页的论文里了，叫做Agent Harness Engineering: a Survey——既然 agent 已经能被一篇论文所概括了，你说有没有壁垒？

APPSO：哪个 agent 对你带来极大启发？

择因：

OpenClaw，我觉得是对任何模型公司的 agent 团队的一次存在主义危机。为什么一个此前不在模型公司工作，不如模型团队更了解模型的个人，能做出一款世界上最多人用的 agent？

APPSO：你觉得 OpenClaw 哪做对了？

择因：

它很多东西做得很细，就比如说连接飞书、微信，里面其实坑很多。它进而影响了整个行业。甚至在 OpenClaw 出来之前，飞书团队还是以 MCP 这种古老方式维护；OpenClaw 出来之后，飞书团队很快就推出了官方 CLI 和插件，这些接口和协议都是面向模型有好的，而且迭代很快。

APPSO：模型公司想要留在牌桌上的最关键因素是什么？

择因：

就我们自己来说，一开始就走在全模态路线上，有完整的自研模型，并把它们直接部署到我们自己的原生 agent产品、创作平台、开放平台中。这种复合优势会给模型公司带来更多机会。

同时，为了不掉队淘汰，可能拼的是组织效率更多一点。如果你的组织效率足够高，大家有一个明确的目标，奔着这个目标去执行，这个公司其实就不会掉队。如果内部组织上扛不住压力了，做不出东西来，可能就会发现自己落后了、没法跟上。

APPSO：你说共识会形成的越来越快。之前 MiniMax 的特色现在快变成全行业模板了，你们接下来怎么做差异化？

择因：

我觉得需要投入到细节上，虽然共识形成的很快，但谁能把相同的事情做透更重要。

APPSO：国产模型开源是否达到了目标？你觉得今后前沿模型还会开源吗？开源的红利期是否已经结束？

择因：

如果你的模型能力足够强，开源不开源取决于团队的偏好与意志。过去两年里中国模型刚起步的时候，作为追随者，开源的确能够更好地体现价值。

我记得很多同行都公开或私底下表达过，如果有一天模型进入价格战阶段，到时候开源的风气可能会有所消减。

全球来看，开源仍是中美之间的最大区别。即便今后权重、训练框架不开源，你仍然可以把你的创新成果通过论文开放给全世界，不一定非得是模型能力。

APPSO：你们怎么看大厂用赛马甚至养蛊的方式做 agent 产品？

择因：

就像我刚才提到的，agent 为什么存在，其实很明确的两个点：一是让模型以完全体形态呈现，放大模型的能力，让它被真正用起来，二是代表你这家公司对「模型该怎么用」做的探索。你的 agent 产品应该能闭环到模型训练上。

如果你堆了大量的 agent 产品，里面有多少是和你的模型能力闭环的？有多少能反馈到自己的模型训练当中？几个agent 团队是在整抢资源还是朝着一个大的目标？其实都是未知数。

总的来说，agent 产品要先能在内部使用再推出去。我也看到，目前 B 端 agent 产品的收益更明确，效果更直接，所以不能否认大厂在这方面的投入。

先交学费再上班

APPSO：人们对于对话助理以及 agent，有很多长久的期待，《Her》里的萨曼莎、钢铁侠的贾维斯。几十年前幻想出的东西今天还没实现，我们距离那样的 agent 还有多远？

择因：

我觉得其实不远。《Her》是聊天陪伴为主，我印象比较深的是和主角一起打游戏，也就是软件打通的层面，现在做的已经不错了；贾维斯的话，其实和现实世界连接更加紧密。这会有点难，但我很乐观，因为我觉得物理世界的交互协议会比代码层面更加简单。本质上，只要模型的多模态能力足够强就可以。

举个例子就是 GPT Image 2，你会发现它的生图能力几乎和现实世界一模一样。可以预见的是，会有一款全模态模型出现，对现实世界的理解能力是极强的。如果这样的模型去操作物理世界，唯一剩下的就是物理世界怎么把接口给 AI 打开。

距离还有多远？我觉得山雨欲来。

APPSO：你们自己的工作因为 agent 发生了怎样的变化？

择因：

建立在 agent 能力自由、有执行规范，并且有一些严格的约束这三件事的前提之上，我们在 agent 自我迭代，也就是让 Agent 自己开发自己这件事上达到了很好的闭环。你会不断试探它的底线，交给它越来越复杂的任务，它的达成效果越来越好，我们的预期也越来越高，进入了一个非常高的正反馈循环。

以及连接飞书了之后，你跟它聊天、它向你汇报工作，这种体验的情绪价值是极强的。

但最重要的，是我们从过去迫使模型、agent 和我们一起干活，变成我们可以更多深度思考我们的工作，对工作进行抽象和模式识别，形成 skill 和规范——每一个人都变得更加 senior（资深）的工作者。

APPSO：像你说的，如果 agent 越来越强，甚至自我进化，大部分人类都将无法追上它。那到时候人类应该做怎样的提升才能跟得上时代？新的工作范式会是什么样？

择因：

Ma vis 上线后我去了新西兰 10 天，那里没有任何的 AI 和 agent，但我过得很快乐。那么我觉得，到时候或许人类只要去享受 agent 提升的效率带来的便捷性就够了，大家完全可以去干其它更感兴趣、更符合人性的事情。

跟你说个现象：有些大厂开始招高中毕业生参与研学了。基于此我还有一个推演：将来大学本科生毕业之后，可能要「付费再上两到三年班」，成为一个 senior 之后，才能开始上班赚钱。

APPSO：你觉得未来的就业市场会成这样？

择因：

这是在当前教育体制下，我回答你「agent 效率高过人类」这个问题的一个推演。这个情况在一开始聊的视频剪辑领域，其实已经发生了。

「付费上班」的意思是，首先你的 token 消费可能最初是由自己买单，等同于交学费。如果 agent 的能力真的全面赶超人类，聪明的公司算笔账都不会再招初级员工，这才是最可怕的。到那时候，你要先成为资深员工，而这个过程可能需要自己付费。

当然这是基于现有的教育体制。那么会发生两种情况，一就是大家享受 AI 带来的效率，去创造更多更有人文情怀的事物；二是教育制度层面或许会发生一些创新。

APPSO：太有意思了。最后有个开放问题：如果你能掌握无限制的算力，训练或推理都行，并且可以以亲民的价格向用户提供，你想做什么？

择因：

这个回答和 MiniMax 关系不大。我可能会把它用在推理上。

之前翁家翌提到（很多人也提过），人类的命运是可以被计算的：你的基因序列、倾向性、性格、激素水平可以测算；你的家庭条件，父母对你的影响（通过语言和肢体动作）也可以计算；你所处的环境是可量化的，小城市还是大城市、教育水平如何等等——在集齐了这些要素之后，每个当下的人的后续行为都可以预测。

我不是要用这个去预测别人，我希望它成为每个人的分身，可以把我的一切过往经历和生理资料都给它，在遇到决策点时去跟它讨论。

我之前是一个美团程序员，我可以跳槽去互联网公司或者考公（计算机还挺吃香），但这些决策更多因为我的过往认知。但是否存在一些我想不到的可能性，能够被建模、预测出来？

这就是我想做的，我觉得这才是真正解放人类的一环。人有生老病死，我们认为人生是一条单行线。但其实每个分支点都可能展开不一样的平行人生。

以及前面这些没有考虑意外。意外反而是最大的、不可预测的。我希望我做这个东西能够拯救因为意外而导致所有要素不再成立的人。从「肥尾效应」的角度来看，小概率事件才真正支配了我们大部分时间。它能让我们更多的关注点放在这些小概率但碘伏性的事件上，因为大概率的事件是能被算出来的。

APPSO：有点《少数派报告》《超验骇客》，所以你会希望你的每一步都走对吗？

择因：

不一定。我更希望能知道我在认知之内能做什么选择，认知之外能做什么选择。

认知之外的就是惊喜。我想做的东西，对你不就是个惊喜吗？

对话 MiniMax 择因：Agent 终会超过人类，我们又将何去何从？

模型之间仍然存在差距，但拉开模型公司之间真正差距的，早已不再是模型本身，而是套在外面的那层壳。

而随着 M3 旗舰模型，MiniMax 桌面端全面升级为 MiniMax Code，再次搅动了大厂、小龙云集的 agent 市场。

在训练 M3 的最关键时刻，APPSO 与 MiniMax Agent研发工程师（周淳辅）做了一场对谈。

一个极简框架养出了遵循度极好的模型，一个约束极强的框架却养出了「黑天鹅」。MiniMax 做 agent 的思路，既将两者融合，又不完全相同：要相信模型，给它和人一样的操作权限，但也要在脚手架中加入合理的约束。

究其根本，中国模型公司的「开源」玩法不会一直持续下去。

但这并不代表，优秀的认知不应该及时与世界分享。

架构即认知

架构即认知

APPSO：Agent Team 为什么没等 M3，直接在 M2.7 上就发布了？

择因：

APPSO：今天一切的周期都变得很快，一个月已经很久了。

择因：

APPSO：MiniMax Code 到目前为止的反馈如何？

择因：

APPSO：真的像是有了几个员工给自己打工的这种感觉？

择因：

APPSO：你说有人用 MiniMax Code 做视频，会不会以后可以不用专业视频生成工具，不用懂脚本、分镜、首尾帧，直接用 agent 调用全模态模型就能做视频了？

择因：

APPSO：如果更强的模型出来，比如 M3，能比人工剪辑还便宜吗？

择因：

APPSO：MiniMax Code 的 Agent Team 架构，也就是 Leader-Worker-Verifier，听上去很合理，你们先做出来，然后 Claude Code 也跟进了。

择因：

APPSO：你们内部用的爽点具体是什么？是解决了之前的痛点，还是效率高、更不容易出错？

择因：

APPSO：这和传统依赖提示词的多 agent 编排的本质区别是什么？

择因：

APPSO：你们如何让模型同源的 agent 实现对抗，避免共谋？

择因：

APPSO：我的使用体验，有时候觉得可以交付了，但 agent 还在打过来打回去。你们怎么定义 agent 之间的对抗强度？太宽松肯定不好，太严格会无限循环。

择因：

APPSO：MiniMax Code 的一大特点就是 agent 之间上下文隔离，很反直觉，你们是怎么想的？

择因：

APPSO：同时执行几个任务，通过微信、飞书跟 MiniMax Code 查询也不会「串台」，这个体验很独特，是怎么做到的。

择因：

没有壁垒，全是共识

没有壁垒，全是共识

APPSO：为什么 Anthropic 一天到晚说自己模型多危险，作弊、耍小聪明？是模型没对齐好还是产品 harness 做的不够 robust？

择因：

APPSO：新的Claude Code dynamic workflows 架构出现了 verifier 的设计，以及官方描述把编排从模型上下文搬到可执行代码层面，跟你们的构思「所见略同」。你觉得这种设计哲学的趋同，是 agent 工程的唯一解，还是阶段性偶然？

择因：

APPSO：你怎么看业内有种说法，就是 Anthropic 研究极强，模型很厉害，但他们的工程能力很差，甚至他们自己都说产品是 100% vibe coded。

择因：

APPSO：所以给模型自由度，它其实能做得很好；但如果用人认为合理的架构去框住它，效果不一定好？人类的组织架构方式、对于该如何工作的想象力，是否制约了 agent？

择因：

APPSO：DeepSeek 最近在招人做 harness，做 agent 了，很明显是发力了。你怎么看？

择因：

APPSO：有个 OpenRouter 的数据，Claude 80% 以上的 token 消费用于编程和技术任务，DeepSeek 主要是闲聊和角色扮演。

择因：

APPSO：之前你们说没有做 Agent 的企业敢说自己有壁垒，现在呢？

择因：

APPSO：哪个 agent 对你带来极大启发？

择因：

APPSO：你觉得 OpenClaw 哪做对了？

择因：

APPSO：模型公司想要留在牌桌上的最关键因素是什么？

择因：

APPSO：你说共识会形成的越来越快。之前 MiniMax 的特色现在快变成全行业模板了，你们接下来怎么做差异化？

择因：

APPSO：国产模型开源是否达到了目标？你觉得今后前沿模型还会开源吗？开源的红利期是否已经结束？

择因：

APPSO：你们怎么看大厂用赛马甚至养蛊的方式做 agent 产品？

择因：

先交学费再上班

先交学费再上班

APPSO：人们对于对话助理以及 agent，有很多长久的期待，《Her》里的萨曼莎、钢铁侠的贾维斯。几十年前幻想出的东西今天还没实现，我们距离那样的 agent 还有多远？

择因：

APPSO：你们自己的工作因为 agent 发生了怎样的变化？

择因：

APPSO：像你说的，如果 agent 越来越强，甚至自我进化，大部分人类都将无法追上它。那到时候人类应该做怎样的提升才能跟得上时代？新的工作范式会是什么样？

择因：

APPSO：你觉得未来的就业市场会成这样？

择因：

APPSO：太有意思了。最后有个开放问题：如果你能掌握无限制的算力，训练或推理都行，并且可以以亲民的价格向用户提供，你想做什么？

择因：

APPSO：有点《少数派报告》《超验骇客》，所以你会希望你的每一步都走对吗？

择因：

热门资讯

热门手游

相关攻略