小米 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%

来源:互联网 更新时间:2026-05-27 14:00

AI模型的价格战，看来是停不下来了。就在最近，小米旗下的MiMo大模型团队发布了一则重磅公告：从5月27日起，其MiMo-V2.5系列的API将实施永久性降价，同时对整个计费体系进行了优化。这波操作的核心目的很明确，就是要把技术迭代带来的红利，实实在在地让渡给开发者，进一步降低他们的调用门槛和成本。

三、技术底座：降价的底气从何而来？

敢这么大幅度、永久性地降价，小米的底气究竟在哪？答案藏在底层的推理系统架构里。根据官方披露的信息，这次降价并非简单的市场策略，而是基于一系列扎实的技术突破。

首先，是推理效率的飞跃。团队基于SGLang HiCache，完整支持了

滑动窗口注意力机制（SWA）

。这个技术带来的改变是根本性的——它让KV Cache在GPU显存、CPU内存和SSD之间搬运的数据量，直接降到了原来的七分之一。数据搬运少了，等待时间自然就短了，推理速度也就上来了。

其次，缓存能力得到了史诗级增强。现在，系统能够缓存的Token数量，达到了优化前的近5倍。这意味着什么？意味着同样一次请求，命中缓存、直接返回结果的概率大大增加。缓存命中率一上去，那些需要动用大量算力进行“实时计算”的请求比例就下降了，单位推理成本自然就被大幅摊薄。

最后，是整个集群吞吐能力的质变。通过引入专家并行（MoE）方案，并结合精细化的输入长度分桶策略，整个服务集群处理海量并发请求的能力得到了系统性提升。这确保了即使在高峰时段，服务质量依然能保持在高水准，而单位Token的服务成本，却可以持续走低。

可以说，小米这轮降价，是对当前大模型商业化“内卷”局面的一次高调回应。随着价格门槛被再次击穿，MiMo系列模型的性价比优势会愈发凸显。这不仅仅是“卷”价格，更是在推动AI能力以更低的成本、更快的速度，渗透到各个垂直行业和开发者的日常工作流中去。技术普惠的进程，显然又按下了加速键。

小米 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%

三、技术底座：降价的底气从何而来？

滑动窗口注意力机制（SWA）

热门资讯

热门手游

相关攻略

热门专题