来源:互联网 更新时间:2026-06-11 14:17
MiniMax M3 在软件工程、多模态和自主Agent评测中表现惊艳,终于集齐了全链路Agent所需的核心能力。
核心内容:
1. M3 在多个技术评测中的突破性成绩
2. 动态工作流测试与GPT训练复现案例
3. 多模态长上下文处理与API调用能力
MiniMax M3发布了,后面还会开源。看到技术报告后,只想说一句:真齐活了,啥都不缺了。
今年模型发布太多,对于“又一个更强模型”其实已经有点麻木了——赢的指标太多,每个月都在充Token Plan,更关心的是:它有没有把Agent高频用到的几大能力都凑齐?
从纸面能力上看,M3确实做到了。在SWE-Bench Pro(软件工程)拿到59.0,超过了GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在GPT5.5擅长的终端编程上,跟Opus 4.7同分。多模态测试集OmniDocBench上,得分超了Gemini 3.1 Pro;在自主Agent的端到端评测框架Claw-Eval上拿到最高分。感觉就像是张无忌,拿着乾坤大挪移在对手最厉害的招数上打败TA。
说实话,GPT5.5 400k的上下文忍了很久了,放到Hermes里不够用。Claude就更别提了,看到Agent里不是Claude Code的系统提示语后,第一时间就被ban了。
用得越久,越觉得它像个不可能三角:写代码强但上下文短,进到代码库里,改几轮就开始忘前文;上下文长但代码力不够,结果就是读了很久文件,然后给一个丑得让人崩溃的网页。
拜托,真的不要再看到这种雷霆大丑网页了。
那接下来就是传统环节了:把MiniMax M3放到哪个框架来测试呢?这里整合了一张表,出于想试试Claude Code新能力Dynamic Workflows,一口气开几百个subagent的壮观感,就单方面选这个了。
额外补充一下,M3在MiniMax Code里面可以调用Minimax全家桶API,文字、语音、视频分析都有。如果经常换模型测试,可以用cc switch来切换模型。
直接先来复刻一把。这次MiniMax放出来的主case,本来是把ICLR 2025 Outstanding Paper Award论文丢给M3,让它独立复现。技术报告里的数据是:M3自主运行接近12小时,产出了18次commit和23张实验图表,并跑通了核心实验。离谱的是,M3的多模态能力已经可以做到把论文里的公式、曲线图、实验设定放到同一个长线程里处理。
第一时间想到类似的是Karpathy大神三个月前把他的nanoGPT升级成nanochat——这是一套完整的大模型训练实验框架,覆盖了所有主要阶段,包括分词、预训练、微调、评估、推理和聊天UI,只花48刀就把模型训练到了GPT-2水平。
今天就让MiniMax M3用动态工作流在mabookpro上训练一个GPT出来。触发动态工作流主要有两种方式:最简单的方式就是带上“workflow”这个词,词会变成彩虹配色,系统识别后就会生成一个脚本,在执行之前会预览,确定后再启动多Agent的并行。运行过程中,随时可以用/workflow指令或/config指令关掉这个动态工作流。
如果想让MiniMax M3的额度打满,也可以输入/effort选择ultracode,然后按shift+tab切换到auto mode自动模式,后面基本全自动多Agent了。之前用Claude sonnet 4.6时没敢切换成ultracode,现在用MiniMax M3顶上后,这大紫色是真好看。确认后,对话框还会短暂变换成全彩虹色,非常有仪式感——这就是氪金玩家的愉悦感吧。
真正跑起来的时候反而有点唏嘘。大家都知道,作为算法程序员,几年前运行个比GPT小40倍的LSTM(循环神经网络),从数据准备到模型训练,等训练曲线出来再到模型推理,最快也要三五天。最崩溃的是跑一半发现包的版本不对,模型智力倒退五十年。现在一个Agent就可以在90分钟把所有这些活干完。
又训练了1000步之后,这个模型就从怎么问都只会回答“A”的版本,变成开始有逻辑地回复、能算个乘法、简单做问答的版本了。
大模型训练,很神奇吧!现在你也可以做到了。
很多模型最容易挂在前30次尝试里:跑几轮不行,就开始绕圈、摆烂,不然就来个万金油话术建议手动检查。但真实工程里,很多进展就是出现在这种平台期后面——试了很多次都没提升,突然某个方向打穿了。如果一个Agent没有足够长的上下文,没有稳定的工具调用,它根本走不到后期。
第二个case,来给正在开发2.0版本的Humanize PPT加加速。Humanize PPT的出发点是给HTML PPT加一个人话大纲和演讲模式:生成之前先把所有资料整理一遍,缺失的细节进一步补全,确定要用多少页、每页什么内容才能讲明白。演讲模式一看就清楚:有下一页预览、演讲主题、大小进度条、口播稿,想脱稿的也能看关键点。
<iframe src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_4544621013174681601"></iframe>样式的部分本着不重复造轮子的想法,兼容了中文的guizang-ppt-skill和英文的frontend-slides,用它们来生成HTML PPT页面,Humanize PPT完成其他部分。为了保证设计出的中英文HTML PPT都好看,之前要用Claude Code辅助设计,Codex来做资料整合和大纲生成,这对模型的多模态能力要求很高。每一页PPT都需要用浏览器自动化打开HTML PPT当前页,截图让模型判断动态背景有没有生效、字体大小是否一致、跟上一页的视觉元素有没有不同。
但GPT5.5偷懒得很严重:就算开启了超高推理模式,前几次运行只给做了一个临时兼容处理。即便明确说了定位是原生兼容这个HTML PPT,完全可以以自然语言方式批量生成。
能看出来已经有点破防了,甚至想自己上手去改代码。刚好现在就把这条做到一半的链路全交给MiniMax M3出个计划试试看。
花了一小时,重新梳理了一遍,解决了GPT偷懒留下的历史代码。Humanize PPT现在可以在对话中调用子Agent,一次性生成guizang-ppt-skill里所有主题了。
执行过程有体感上的提速:2分50秒就读完了项目的所有代码,还给出了具体到哪一行的修改方案。
看了一下,是因为M3还有一个新架构MSA,能把每个token的计算量压到上一代的1/20。也就是说,一百万token的上下文窗口,预填充(模型正式回答前,先把发送的内容理解一遍)快9倍,解码(模型逐字写出答案的过程)快15倍。
最后,到了经典价格环节。M3上线后,Token Plan从固定时间刷新额度变成了固定token:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。
不得不说,百万上下文+动态工作流带来的体感太不一样了。富足到连开发完后做个最小测试,M3都模拟了七种场景。打算就把M3当做动态工作流的专属模型了,直接先来一个月的Ultra试试耐不耐用。
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
《Off Campus》第二季官宣:这对CP还在,但不再是主角
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
抖音最火沙雕男生网名(精选100个)
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
网络热词聊污是什么意思
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
帅气继父网名女生可爱英文(精选100个)
短剧《情绪超市》剧情介绍
免费看片软件下载地址推荐
洛克王国世界S2赛季狂欢怪谈介绍
免费看电影的软件推荐
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc