热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

来源:互联网 更新时间:2026-06-05 12:45

6月4日,阶跃星辰开源的Flash基座模型Step 3.7 Flash在Artificial Analysis榜单上拿下多个第一,并登上OpenRouter Trending榜全球第二。海外开发者社区的反应很直接——速度和性价比几乎刷屏。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

▲Step 3.7 Flash在输出速度榜单排名第一

官方数据显示,这款模型的运行速度超过400 tokens/s,但有开发者测出在极限条件下,甚至能跑到6000 tokens/s。不过更多人关注的,是另一组更具冲击力的对比:Step 3.7 Flash以大约九分之一的成本,实现了Claude Opus 4.6百分之九十七的性能。

坦率讲,这款模型在绝对智能上并非行业顶尖——但它在效率上另辟蹊径。而这种效率导向的性能优势,恰好让它卡进了一个很关键的生态位:实用,且利于规模化落地。

问题的核心在于,当下Agent的商业化落地正卡在一个效率瓶颈上——真实任务里跑不动,也养不起。

这是横亘在Agent从榜单、PPT Demo走向真实商用场景时,绕不过去的坎。大量企业客户发现,当模型面临复杂任务时,需要经历任务拆解规划、工具调用、结果校验、迭代修正等多轮执行链路,冗余环节导致的token无效损耗,已经成为制约规模化商用的核心阻碍。

这也顺势划出了一条Agent商业化的分水岭:让Agent在真实业务场景中以更高性价比实现更快响应、更高任务准确率,是打通智能体商业化闭环的必经之路。

一、智能体风口,低效痛点拖累规模化落地进程

从年初OpenClaw、Hermes接连出圈,到OpenAI联合创始人、CEO萨姆·奥尔特曼在昨晚直播中直言“全天候主动式Agent是未来一年头号布局方向”,智能体热潮已经势不可挡。

但热潮背后,落地的硬伤也越来越扎眼:居高不下的无效token损耗、低效运行难题持续困扰一线开发者,拖慢项目节奏。

效率层面,在Cursor社区有开发者吐槽,他的智能体在执行顺序终端命令时,即便是一个只需10毫秒就能完成的简单指令,相邻命令之间仍存在大约27秒的冗余延迟,串行任务效率损耗高达99.95%。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

▲开发者实测时延

密歇根大学、斯坦福大学、微软以及谷歌DeepMind今年4月联合发布的研究进一步印证了症结所在:智能体执行任务时需要反复灌入历史上下文,导致模型输入输出token消耗比例高达154:1。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

▲智能体执行任务时输入输出token消耗比例

成本方面,Agent自主多轮调用机制会天然放大token消耗。上月初,有开发者提到他在用Claude Code进行代码重构时,还没正式提问,仅上下文预加载就耗费了3.5万到4万个token;仅仅三次提示调用,就把原本够用4小时的token额度烧光了。

落地到企业端,成本失控更触目惊心。Uber反映,员工大规模使用AI编程工具后,4个月就花光了全年AI预算;还有一家公司忘记设置限额,一个月在Claude上烧掉5亿美元。

这种效率困局折射出一个判断逻辑的根本转变:基础模型底子好只是前提,放到Agent场景里,模型只靠答题、单项能力远远不够。高效、少冗余、省Token、低成本跑完整套任务,才是检验模型能不能适配智能体的硬指标。

由此,破解低效困局的落脚点聚焦在速度和性价比两大维度。一方面通过提效减少Agent运行时无效等待带来的无用算力开销;另一方面提升单次任务执行成功率,让同等任务少消耗token、少耗时。

而目前已经实现“全程跑得更快、花钱更少、产出效率更高”的模型,就是阶跃星辰最新开源的Step 3.7 Flash。

二、速度登顶、性价比拉满,Step 3.7 Flash释放Agent商用价值

在Agent时代,Step 3.7 Flash交出了一份差异化的答卷。

先看看它在复杂编程任务中的表现。以体感打砖块游戏为例,Step 3.7 Flash生成的游戏能自动触发摄像头,人脸移动与挡板移动同步,击碎砖块时有特效,结束时还会震动掉落。尽管挡板接住时可能略有延迟,但整体已经具备很高的可玩性。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

在底层基础能力拉满的前提下,Step 3.7 Flash在规模化落地能力上更进一步,正好呼应了前文提到的破解低效困局的两大关键。

首先是速度。根据最新数据,Step 3.7 Flash最高生成速度可达400 tokens/s。开发者实测显示,其单流生成速度为DeepSeek-V4的2.4倍;64并发峰值吞吐达到DeepSeek-V4的3.47倍,高并发场景优势显著。极端条件下,甚至实现了6000 tokens/s的传输速率。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

以番茄计时器为例,最终生成的应用布局简洁、核心要素齐全,而且整个过程仅花费约1分钟,一次成功。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

与此同时,开发者实测证明,在个人电脑上Step 3.7 Flash的速度也没有大幅缩减。其4bit量化版仅需128GB Apple Silicon设备便能满载32K上下文,在Mac Studio环境下基准测试生成速度超过53 tokens/s。

根据Artificial Analysis的数据,Step 3.7 Flash的表现已接近Agent商业化落地的最优区间——高智能与超高速兼具。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

其次是高性价比。Step 3.7 Flash综合推理、输入上下文、工具调用、Agent多轮交互等全场景后的综合单价为每百万token 0.2美元,与已经官宣永久降价的DeepSeek、小米MiMo持平,均位列榜单第一。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

▲Step 3.7 Flash价格最低

从Artificial Analysis的速度价格比分布来看,Step 3.7 Flash在兼具高速和低成本方面的综合实力,已经让它具备了Agent商业化的竞争力。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

综合来看,Step 3.7 Flash在性能拉满的同时,从速度与成本双向突破:一方面凭借领先的单流推理速度与高并发吞吐能力,精简任务循环损耗;另一方面显著压低个人与中小开发者的使用成本,进一步为智能体规模化落地扫清障碍。

三、综合性能跻身全球头部,阶跃已跑通Agent商业化

当前AI行业正式进入商业化深度竞速阶段。模型在推理速率、综合性能与落地成本之间实现均衡突破,已成为规模化商用落地的核心评判标准。

从Step 3.5 Flash到Step 3.7 Flash,阶跃星辰的模型迭代路径一脉相承:围绕Agent、Coding、Search与多模态工作流进行系统优化,解决的核心问题都是让Agent在真实场景中高效运行。

这已经得到全球开发者市场真实数据的验证。两代模型发布仅两天,便纷纷在OpenRouter榜单上位居前列——Step 3.5 Flash登顶首位,Step 3.7 Flash登上Trending全球第二。

更值得注意的是,阶跃星辰在推理效率上已经进入全球头部阵营。开源团队Dirac基于OpenRouter数据统计了当下主流模型的缓存命中率,达到S级的模型清一色都是国产模型。阶跃星辰以86.1%的得分位列全球第二。超高的缓存命中率,正是模型推理更快、损耗更低、稳定运行的核心。

阶跃Step 3.7 Flash拿下AA榜第一,让Agent从“跑Demo”到“能搞钱”

所有这些都证明,阶跃星辰高效率、轻量化的Flash系列模型,已经具备承接真实Agent落地的实力。

就在上个月,Step 3.5 Flash已完成车载场景的规模化落地。它为极氪8X构建的整车智能体“超级Eva”实现了量产交互,打通了车辆感知、语义理解、指令执行的全链路。

从亮眼的榜单数据到真实场景的批量商用落地,阶跃星辰的产业化路径已经跑通。

结语:轻量化Flash模型,或引爆智能体规模化落地

阶跃星辰Flash模型在一定程度上解决了智能体token冗余、算力浪费、链路延迟、成本高等低效痛点,打通了Agent商业化落地的瓶颈。

未来,随着企业级自动化、智能化需求持续爆发,轻量化、高效率、高性价比的Flash基座模型,有望成为推动AI智能体产业规模化、商业化进阶的核心驱动力,加速智能体迈入高效落地、普惠商用的新阶段。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc