周边资讯

返回 主页

内容开始

英伟达Blackwell软件优化,DeepSeek V4推理成本降低5倍

M 2026-07-02 17:53

英伟达在一篇技术博客中表示,其全栈推理软件与NVIDIA GPU、CPU、网络和系统协同设计,并依托广泛的开源生态系统,持续提升硬件性能。在NVIDIA Blackwell平台上,该软件栈仅一个月就将 DeepSeek V4 型号的token成本降低了高达5倍。

三层技术协同发力,全方位压低大模型推理成本

据介绍,英伟达软件栈主要通过连接生产运营、应用加速和基础架构访问三个层面来降低单Token成本。

生产运营:协调分布式服务、编排、自动扩缩容和内存管理,确保推理任务能够在合适的计算和存储资源上运行。

应用加速:以高性能运行模型,同时为开发人员提供调整和自定义的空间,利用运行时优化(例如重叠计算和通信以及内核融合)。

基础架构访问:公开NVIDIA GPU、网络、内存和系统功能,无需开发人员直接管理每个设备指令集或数据传输协议。

当这些层级协同构成一套完整系统时,各项独立优化效果会叠加放大。

核心技术叠加赋能,单GPU吞吐量最高提升20倍

分散式服务、基于NVIDIA NVLink互连技术的大规模专家并行处理、NVFP4 高精度以及多token预测等每一项技术都能带来显著的性能提升。在生产环境中实现这种性能提升非常复杂,需要协调整个推理堆栈的各个环节——从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA 的推理软件堆栈旨在使这些层协同工作,从而使每一项优化都能在其他优化的基础上进行。

多项技术叠加优化后,Blackwell平台单GPU的token吞吐量最高可提升20倍。

开源生态全面适配,快速落地规模化降本效果

本次DeepSeek V4模型成本大幅优化能够快速落地,离不开成熟开源生态的加持。DeepSeek V4开放模型发布后,vLLM和SGLang等领先的推理框架都能立即为NVIDIA Blackwell架构提供部署方案,从而让数百万块 Blackwell GPU都能访问该模型。也正因如此,在短短一个月内,vLLM 和SGLang框架下 DeepSeek V4 在 Blackwell 上的性能提升了高达 5 倍,并将token成本降低到之前的五分之一左右。
 

更多资讯

top

深圳市闪存市场资讯有限公司 客服
Copyright©2008-2026 CFM闪存市场 版权所有

CFMS|MemoryS 2026会后专题 打开APP