您的位置：首页 > > 教程攻略 > ai资讯 >实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

来源:互联网 更新时间:2026-06-11 14:17

MiniMax M3 在软件工程、多模态和自主Agent评测中表现惊艳，终于集齐了全链路Agent所需的核心能力。

核心内容：

1. M3 在多个技术评测中的突破性成绩

2. 动态工作流测试与GPT训练复现案例

3. 多模态长上下文处理与API调用能力

MiniMax M3发布了，后面还会开源。看到技术报告后，只想说一句：真齐活了，啥都不缺了。

今年模型发布太多，对于“又一个更强模型”其实已经有点麻木了——赢的指标太多，每个月都在充Token Plan，更关心的是：它有没有把Agent高频用到的几大能力都凑齐？

从纸面能力上看，M3确实做到了。在SWE-Bench Pro（软件工程）拿到59.0，超过了GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在GPT5.5擅长的终端编程上，跟Opus 4.7同分。多模态测试集OmniDocBench上，得分超了Gemini 3.1 Pro；在自主Agent的端到端评测框架Claw-Eval上拿到最高分。感觉就像是张无忌，拿着乾坤大挪移在对手最厉害的招数上打败TA。

说实话，GPT5.5 400k的上下文忍了很久了，放到Hermes里不够用。Claude就更别提了，看到Agent里不是Claude Code的系统提示语后，第一时间就被ban了。

用得越久，越觉得它像个不可能三角：写代码强但上下文短，进到代码库里，改几轮就开始忘前文；上下文长但代码力不够，结果就是读了很久文件，然后给一个丑得让人崩溃的网页。

拜托，真的不要再看到这种雷霆大丑网页了。

那接下来就是传统环节了：把MiniMax M3放到哪个框架来测试呢？这里整合了一张表，出于想试试Claude Code新能力Dynamic Workflows，一口气开几百个subagent的壮观感，就单方面选这个了。

额外补充一下，M3在MiniMax Code里面可以调用Minimax全家桶API，文字、语音、视频分析都有。如果经常换模型测试，可以用cc switch来切换模型。

直接先来复刻一把。这次MiniMax放出来的主case，本来是把ICLR 2025 Outstanding Paper Award论文丢给M3，让它独立复现。技术报告里的数据是：M3自主运行接近12小时，产出了18次commit和23张实验图表，并跑通了核心实验。离谱的是，M3的多模态能力已经可以做到把论文里的公式、曲线图、实验设定放到同一个长线程里处理。

第一时间想到类似的是Karpathy大神三个月前把他的nanoGPT升级成nanochat——这是一套完整的大模型训练实验框架，覆盖了所有主要阶段，包括分词、预训练、微调、评估、推理和聊天UI，只花48刀就把模型训练到了GPT-2水平。

今天就让MiniMax M3用动态工作流在mabookpro上训练一个GPT出来。触发动态工作流主要有两种方式：最简单的方式就是带上“workflow”这个词，词会变成彩虹配色，系统识别后就会生成一个脚本，在执行之前会预览，确定后再启动多Agent的并行。运行过程中，随时可以用/workflow指令或/config指令关掉这个动态工作流。

如果想让MiniMax M3的额度打满，也可以输入/effort选择ultracode，然后按shift+tab切换到auto mode自动模式，后面基本全自动多Agent了。之前用Claude sonnet 4.6时没敢切换成ultracode，现在用MiniMax M3顶上后，这大紫色是真好看。确认后，对话框还会短暂变换成全彩虹色，非常有仪式感——这就是氪金玩家的愉悦感吧。

真正跑起来的时候反而有点唏嘘。大家都知道，作为算法程序员，几年前运行个比GPT小40倍的LSTM（循环神经网络），从数据准备到模型训练，等训练曲线出来再到模型推理，最快也要三五天。最崩溃的是跑一半发现包的版本不对，模型智力倒退五十年。现在一个Agent就可以在90分钟把所有这些活干完。

又训练了1000步之后，这个模型就从怎么问都只会回答“A”的版本，变成开始有逻辑地回复、能算个乘法、简单做问答的版本了。

大模型训练，很神奇吧！现在你也可以做到了。

很多模型最容易挂在前30次尝试里：跑几轮不行，就开始绕圈、摆烂，不然就来个万金油话术建议手动检查。但真实工程里，很多进展就是出现在这种平台期后面——试了很多次都没提升，突然某个方向打穿了。如果一个Agent没有足够长的上下文，没有稳定的工具调用，它根本走不到后期。

第二个case，来给正在开发2.0版本的Humanize PPT加加速。Humanize PPT的出发点是给HTML PPT加一个人话大纲和演讲模式：生成之前先把所有资料整理一遍，缺失的细节进一步补全，确定要用多少页、每页什么内容才能讲明白。演讲模式一看就清楚：有下一页预览、演讲主题、大小进度条、口播稿，想脱稿的也能看关键点。

样式的部分本着不重复造轮子的想法，兼容了中文的guizang-ppt-skill和英文的frontend-slides，用它们来生成HTML PPT页面，Humanize PPT完成其他部分。为了保证设计出的中英文HTML PPT都好看，之前要用Claude Code辅助设计，Codex来做资料整合和大纲生成，这对模型的多模态能力要求很高。每一页PPT都需要用浏览器自动化打开HTML PPT当前页，截图让模型判断动态背景有没有生效、字体大小是否一致、跟上一页的视觉元素有没有不同。