第二代Transformer引擎:结合了Blackwell Tensor Core技术和TensorRT-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。
第五代NVlink:为提高数万亿参数和混合专家AI模型的性能,最新一代英伟达NVlink为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。
RAS引擎:Blackwell支持的GPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大部署规模AI的弹性,使其能连续运行数周甚至数月,并降低运营成本。
安全人工智能:先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。
解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。未来几年,在企业每年花费数百亿美元的数据处理方面,将越来越多地由GPU加速。
Blackwell GPU体积庞大,将两个单独制造的晶粒组合成一个由台积电制造的芯片。它还将作为一款名为GB200 NVlink 2的整个服务器提供,该服务器结合了72个Blackwell GPU和其他旨在训练AI模型的英伟达部件。
亚马逊、谷歌、微软和甲骨文将通过云服务提供对GB200的访问。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU配对。英伟达表示,亚马逊网络服务将构建一个包含20000个GB200芯片的服务器集群。
英伟达没有提供新款GB200或其使用系统的成本。据分析师估计,英伟达基于Hopper的H100芯片成本在2.5万至4万美元之间,而整个系统的成本高达20万美元。
英伟达推理微服务
英伟达还宣布,将在其英伟达企业软件订阅中添加一款名为NIM(英伟达推理微服务)的新产品。NIM让使用较旧的英伟达GPU进行推理(或运行AI软件的过程)变得更加简单,并允许公司继续使用其已经拥有的数亿个英伟达GPU。与新AI模型的初始训练相比,推理所需的计算能力较少。对于那些希望运行自己的AI模型,而不是从OpenAI等公司购买AI结果作为服务的企业来说,NIM无疑是他们的得力助手。
英伟达的策略是吸引购买基于英伟达的服务器的客户注册英伟达企业版,每个GPU每年的许可费为4500美元。
英伟达将与微软或Hugging Face等AI公司合作,确保他们的AI模型能够在所有兼容的英伟达芯片上运行。随后,开发者可以使用NIM在自有服务器或基于云端的英伟达服务器上高效运行模型,无需繁琐的配置过程。
“在我原本调用OpenAI的代码中,我只需替换一行代码,将其指向从英伟达获取的NIM即可。”Das说道。
英伟达表示,该软件还将助力AI在配备GPU的笔记本电脑上运行,而非仅限于云端服务器。