英伟达Blackwell软件优化，DeepSeek V4推理成本降低5倍

M 2026-07-02 17:53

英伟达在一篇技术博客中表示，其全栈推理软件与NVIDIA GPU、CPU、网络和系统协同设计，并依托广泛的开源生态系统，持续提升硬件性能。在NVIDIA Blackwell平台上，该软件栈仅一个月就将 DeepSeek V4 型号的token成本降低了高达5倍。

三层技术协同发力，全方位压低大模型推理成本

据介绍，英伟达软件栈主要通过连接生产运营、应用加速和基础架构访问三个层面来降低单Token成本。

生产运营：协调分布式服务、编排、自动扩缩容和内存管理，确保推理任务能够在合适的计算和存储资源上运行。

应用加速：以高性能运行模型，同时为开发人员提供调整和自定义的空间，利用运行时优化（例如重叠计算和通信以及内核融合）。

基础架构访问：公开NVIDIA GPU、网络、内存和系统功能，无需开发人员直接管理每个设备指令集或数据传输协议。

当这些层级协同构成一套完整系统时，各项独立优化效果会叠加放大。

核心技术叠加赋能，单GPU吞吐量最高提升20倍

分散式服务、基于NVIDIA NVLink互连技术的大规模专家并行处理、NVFP4 高精度以及多token预测等每一项技术都能带来显著的性能提升。在生产环境中实现这种性能提升非常复杂，需要协调整个推理堆栈的各个环节——从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA 的推理软件堆栈旨在使这些层协同工作，从而使每一项优化都能在其他优化的基础上进行。

多项技术叠加优化后，Blackwell平台单GPU的token吞吐量最高可提升20倍。

开源生态全面适配，快速落地规模化降本效果

本次DeepSeek V4模型成本大幅优化能够快速落地，离不开成熟开源生态的加持。DeepSeek V4开放模型发布后，vLLM和SGLang等领先的推理框架都能立即为NVIDIA Blackwell架构提供部署方案，从而让数百万块 Blackwell GPU都能访问该模型。也正因如此，在短短一个月内，vLLM 和SGLang框架下 DeepSeek V4 在 Blackwell 上的性能提升了高达 5 倍，并将token成本降低到之前的五分之一左右。

更多资讯

周边资讯

英伟达Blackwell软件优化，DeepSeek V4推理成本降低5倍