全球大模型速度纪录刷新！智谱发布 GLM-5.1 高速版 AI

来源:互联网 更新时间:2026-05-30 20:29

今天，国内人工智能领域传来一个重磅消息：智谱团队正式向部分企业客户推出了全新的GLM-5.1高速版API。这个代号为“GLM-5.1-highspeed”的模型，一出手就刷新了行业认知，其输出速度直接飙升至惊人的每秒400个token。

这个数字意味着什么？它一举突破了当前全球大模型厂商在API速度上的天花板，展现了相当硬核的技术实力。要知道，在过去的行业共识里，模型的规模和速度常常像鱼与熊掌，难以兼得——追求极致的响应速度，往往要以牺牲模型的部分能力为代价。

但GLM-5.1高速版这次偏偏打破了这个“快等于小”的惯例。它首次在国产大模型阵营中实现了突破，成功将旗舰级的模型性能与极低的响应延迟，同时带入了实际的生产环境。这可不是简单的“瘦身”或“降级”，而是在不妥协核心能力的前提下，把速度做到了极致。

背后的技术团队——智谱GLM与TileRT——为此下了狠功夫。他们摒弃了传统的动态调度思路，选择从推理引擎、调度系统到底层基础设施，进行了一场彻头彻尾的系统级深度优化。

具体来看，技术路径非常清晰。首先是在模型架构层面，团队重写了核心推理路径，显著提升了单卡的吞吐效率。其次，通过引入动态批处理等策略，有效压低了高并发场景下的请求延迟。最后，围绕基础设施的协同优化，确保了这每秒400 token的惊人速度，不是一个实验室里的峰值数据，而是一个稳定、可用的生产级能力。

如此高的速度，其应用前景自然极其广阔。无论是要求即时反馈的AI编程助手、追求自然流畅的实时语音交互，还是需要快速响应的商业决策分析，这类对延迟极度敏感的场景，都将成为它的主战场。目前，该模型已在智谱的MaaS平台上，面向部分企业客户开放服务。

热门资讯