您的位置：首页 > > 教程攻略 > 热点新闻 >英伟达杀疯了！DeepSeek V4推理成本狂砍80%

英伟达杀疯了！DeepSeek V4推理成本狂砍80%

来源:互联网 更新时间:2026-07-02 16:09

7月2日消息，

英伟达宣布其Blackwell平台通过全栈推理软件优化，DeepSeek V4模型的单Token成本在一个月内最多降至五分之一。

随着企业从AI试点走向生产型AI工厂，基础设施决策已从芯片规格峰值转向每元、每瓦特及延迟目标内能交付多少有用Token。

英伟达通过三层架构实现Token成本的大幅下降。生产运营层负责分布式服务编排与自动扩缩容，应用加速层通过计算通信重叠和内核融合进行运行时优化，基础设施访问层则直接调用GPU、网络与系统能力。

这些技术包括分离式服务、基于NVLink的大规模专家并行、NVFP4精度以及多Token预测。

英伟达将单Token成本列为AI总拥有成本的核心指标，

多家推理服务商已从中获益。

Cognition借助Dynamo推理框架管理GPU，无需从零构建即可扩展强化学习工作负载。Together AI用TensorRT-LLM帮助Cursor加速从模型优化到生产终端的路径。

开源生态进一步放大了全栈优势。PyTorch等主流框架原生基于CUDA构建，使新研究成果能立即在NVIDIA GPU上运行。