“以工业规模创造智能,并将其融入真实和虚拟世界。”——NVIDIA创始人兼首席执行官*仁勋
又到一年的GTC大会,NVIDIA会给我们带来哪些惊喜呢?
开篇这句话就是*仁勋在大会上的宏伟目标新表达,这句话虽然短,但是却蕴含丰富的内容。如今AI正在以前所未有的速度加速落地,如何实现类似大工业时代的标准化生产速度,NVIDIA显然有备而来。同时,数字世界与物理世界加速融合,也就是元宇宙成为人们新的憧憬,而NVIDIA也在此方面进行了诸多布局。
在GTC上,NVIDIA宣布了一系列的算力和网络产品组合,以及软件更新,打造AI基础架构的新引擎。
通过这些全新的算力和网络产品,NVIDIA在基础设施层面确保了当前AI的需求。同时,NVIDIA持续布局软件领域,通过软硬协同实现AI加速。
下面我们不妨一一盘点一下今年GTC大会上的重磅产品更新:
第一个产品,NVIDIAGraceCPU超级芯片。
众所周知,NVIDIA提出了3U一体的战略,那就是CPU、GPU、DPU。
没错,在今年的GTC大会上,NVIDIA推出了自己的CPU产品。NVIDIAGraceCPU基于ArmNeoverse,由两个CPU芯片组成。
GraceCPU超级芯片是去年NVIDIA发布的首款由CPU-GPU集成的“GraceHopper超级芯片”的模块,它将与基于NVIDIAHopper架构的GPU一同应用于大型HPC和AI应用。这两款超级芯片采用相同的底层CPU架构及NVLink-C2C互连。
GraceCPU超级芯片可以运行所有的NVIDIA计算软件栈,包括NVIDIARTX、NVIDIAHPC、NVIDIAAI和Omniverse。
GraceCPU超级芯片结合NVIDIAConnectX-7网卡,能够灵活地配置到服务器中——或作为独立的纯CPU系统,或作为GPU加速服务器,搭载一块、两块、四块或八块基于Hopper的GPU,从而使客户通过只维护一套软件栈就能针对自身特定的工作负载做好性能优化。
GraceCPU超级芯片和GraceHopper超级芯片预计将于年上半年开始供货。
第二个产品,基于Hopper架构的GPU——NVIDIAH。
在GPU方面,NVIDIA宣布推出采用NVIDIAHopper架构的新一代加速计算平台,取代两年前推出的NVIDIAAmpere架构。
NVIDIA同时发布其首款基于Hopper架构的GPU——NVIDIAH。该款GPU集成了亿个晶体管。H是全球范围内最大的性能出众的加速器,拥有革命性的Transformer引擎和高度可扩展的NVIDIANVLink互连技术等突破性功能,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。
HNVIDIAGPU为加速大规模AI和HPC设定了新的标准,带来了六项突破性创新:世界最先进的芯片(TSMC4N工艺,支持PCIe5.0,采用HBM3)、新的Transformer引擎、第二代安全多实例GPU、机密计算、第4代NVIDIANVLink、DPX指令。
H将提供SXM和PCIe两种规格,可满足各种服务器设计需求。此外,NVIDIA还会推出融合加速器,耦合HGPU与NVIDIAConnectX-Gb/sInfiniBand和以太网智能网卡。
NVIDIAHSXM提供4GPU和8GPU配置的HGXH服务器主板,可助力企业将应用扩展至一台服务器和多台服务器中的多个GPU。基于HGXH的服务器可为AI训练和推理以及数据分析和HPC应用提供更高的应用性能。
HPCIe通过NVLink连接两块GPU,相较于PCIe5.0,可提供7倍以上的带宽,为主流企业级服务器上运行的应用带来卓越的性能。PCIe规格便于集成到现有的数据中心基础设施中。
HCNX是一款全新的融合加速器。这款加速器将H与ConnectX-7智能网卡相结合,可为I/O密集型应用(如企业级数据中心内的多节点AI训练和边缘5G信号处理)提供强劲性能。
NVIDIAHopper架构GPU还可与NVIDIAGraceCPU通过NVLink-C2C互联,与PCIe5.0相比,可将CPU和GPU之间的通信速度提高7倍以上。这一组合,即GraceHopper超级芯片,可用于大规模HPC和AI应用。
第三个产品,第四代NVIDIADGX系统。
NVIDIA宣布推出第四代NVIDIADGX系统,每个DGXH系统配备八块NVIDIAHGPU,并由NVIDIANVLink连接,能够在新的FP8精度下达到32Petaflop的AI性能,比上一代系统性能高6倍。
DGXH系统是新一代NVIDIADGXPOD和NVIDIADGXSuperPODAI基础设施平台的构建模块。新的DGXSuperPOD架构采用了一个全新的NVIDIANVLinkSwitch系统,通过这一系统最多可连接32个节点,总计块HGPU。
除了八块HGPU以及总计亿个晶体管之外,每个DGXH系统还包含两个NVIDIABlueField-3DPU,以用于卸载、加速和隔离高级网络、存储及安全服务。
八个NVIDIAConnectX-7Quantum-2InfiniBand网卡能够提供GB/s的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了一倍。第四代NVLink与NVSwitch相结合,能够在每个DGXH系统中的各个GPU之间实现GB/s的连接速度,是上一代系统的1.5倍。
新一代DGXSuperPOD提供1Exaflops的FP8AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的庞大LLM工作负载,从而推动AI的前沿发展。
“Eos”超级计算机将于今年晚些时候开始运行,共配备台DGXH系统,共计块DGXHGPU,有望成为全球运行速度最快的AI系统。
NVIDIAEos预计将提供18.4Exaflops的AI计算性能,比日本的Fugaku超级计算机快4倍,后者是目前运行速度最快的系统。在传统的科学计算方面,Eos预计将提供Petaflop的性能。
借助DGXH系统,DGXSuperPOD可成为具有可扩展性的卓越的企业级AI中心。DGXSuperPOD中的DGXH节点和HGPU由NVLinkSwitch系统和NVIDIAQuantum-2InfiniBand连接,带宽速度可达70TB/s,比上一代产品高11倍。
除了硬件,NVIDIA还提供了NVIDIADGXFoundry托管的开发解决方案,DGXFoundry中包含NVIDIABaseCommand、NVIDIAAIEnterprise等软件。
为支持正在进行AI开发的DGX客户,NVIDIADGX-Ready软件合作伙伴提供的MLOps解决方案将加入“NVIDIAAI加速”计划,NVIDIA还推出新的DGX-Ready托管服务计划和DGX-Ready生命周期管理计划。
第四个产品,Spectrum平台。
作为全球首个Gbps端到端网络平台,NVIDIASpectrum-4的交换吞吐量比前几代产品高出4倍,达到51.2Tbps。该平台由NVIDIASpectrum-4交换机系列、ConnectX-7智能网卡、NVIDIABlueField-3DPU和DOCA数据中心基础设施软件组成,能够大幅加速大规模云原生应用。
NVIDIASpectrum-4ASIC和SN交换机系列基于4纳米工艺,包含0多亿个晶体管以及经过简化的收发器设计,具有领先的能效和总拥有成本。凭借支持个GbE端口的51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RDMA(RDMAoverConvergedEthernet)网络架构,并显著提升了数据中心的应用速度。
Spectrum-4交换机实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4,功耗降低了40%。
Spectrum-4ASIC具有领先的安全功能,例如支持MACsec和VXLANsec,并通过硬件信任根将安全启动作为默认设置,帮助确保数据流和网络管理的安全性和完整性。凭借12.8Tbp加密带宽和这些安全功能(BlueField-3DPU和ConnectX-7智能网卡同样具有此类功能),Spectrum-4将成为市场上优秀的、高性能的、安全的端到端以太网网络平台。
此外,Spectrum平台赋能NVIDIAOmniverse平台,实现用于3D设计协作和模拟的精确空间和时间模拟。Spectrum-3交换机的网络架构能够连接32台OVX服务器,形成OVX超级集群。
第五个产品,NVLink-C2C。
现在异构芯片越来越多,于是芯片间的互联互通变得至关重要。
NVIDIANVLink-C2C是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIAGPU、CPU、DPU、NIC和SOC之间实现一致的互连,助力数据中心打造新一代的系统级集成。
NVIDIANVLink-C2C依托于NVIDIA世界一流的SERDES和LINK设计技术,可从PCB级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。
借助先进的封装技术,NVIDIANVLink-C2C互连链路的能效最多可比NVIDIA芯片上的PCIeGen5高出25倍,面积效率高出90倍,可实现每秒GB乃至更高的一致互联带宽。
NVIDIAGrace超级芯片系列以及去年发布的GraceHopper超级芯片均采用了NVIDIANVLink-C2C技术来连接处理器芯片。NVLink-C2C现已为半定制芯片开放,支持其与NVIDIA技术的集成。
NVIDIANVLink-C2C支持ArmAMBA一致性集线器接口(AMBACHI)协议。NVIDIA和Arm正在密切合作,以强化AMBACHI来支持与其他互连处理器完全一致且安全的加速器。
除NVLink-C2C之外,NVIDIA还将支持本月早些时候发布的UCIe(UniversalChipletInterconnectExpress,通用小芯片互连传输通道)标准。与NVIDIA芯片的定制芯片集成既可以使用UCIe标准,也可以使用NVLink-C2C,后者经过优化,延迟更低、带宽更高、能效更高。
第六个产品,软件。
要知道在今年GTC大会上,NVIDIA还宣布了众多软件层面的更新。
建立在CUDA基础上的NVIDIAAI、高性能计算和图形处理平台包含各种软件开发工具包和工具,它们是跨多个应用领域实现更高性能和加速算法的核心。凭借这些SDK,开发者、研究者和数据科学家能够轻松运用NVIDIA先进平台的力量,解决计算、算法和科学交汇领域的复杂难题。
NVIDIA发布60多项CUDA-X(NVIDIA的一个库、工具和技术集)更新,包括用于加速量子电路模拟的cuQuantum、用于6G物理层研究的全新GPU加速开源库Sionna、RAPIDS、Morpheus、DGL容器、NsightSystems等。
其他正在更新的库包括:用于医学影像的MONAI、用于联邦学习的NVIDIAFLARE、用于重塑通信的Maxine、用于语音AI的Riva、用于推荐系统的Merlin、用于运营研究的cuOpt以及用于机器人技术的Isacc。
NVIDIAAI是由多项具有关键功能的SDK和工具所组成,可用于跨多个节点上对AI工作负载进行快速部署、管理和扩展,为复杂的训练和机器学习工作负载提供有力的支持。
NVIDIAAI可供开发者免费使用,包括用于语音AI的NVIDIARiva和用于智能推荐系统的NVIDIAMerlin,这两款软件均已正式全面上线。而整个软件套件也进行了更新,包括NVIDIATriton、NeMo、Maxine和TAO工具包等工具。
此外,NVIDIAAIEnterprise2.0现已经过优化和认证,并支持所有主要的数据中心和云平台,包括裸金属服务器、虚拟化基础设施和纯CPU系统。该套件现在支持RedHatOpenShift和VMwarevSpherewithTanzu。
作为一款端到端、云原生的AI和数据分析工具与框架套件,NVIDIAAIEnterprise2.0软件套件能够加速各个行业的AI开发和部署。
NVIDIAAIEnterprise2.0还引入了更多支持训练和推理的NVIDIAAI软件容器。对NVIDIATAO工具包的支持使企业开发者能够对NVIDIA预训练AI模型进行微调和优化,从而简化自定义生产就绪模型的创建,而无需具备AI专业知识或大量训练数据。该软件套件还包含最新发布的NVIDIATriton推理服务器。
NVIDIA也宣布了NVIDIAAI加速计划,以助力确保NVIDIA软件和解决方案合作伙伴所开发AI应用的性能和可靠性。该计划针对各种经过验证的AI加速应用增加了可见性,使企业客户能够放心地在NVIDIAAI平台上进行部署。Adobe、红帽(RedHat)和VMware等多家合作伙伴参与了计划启动仪式。
作为NVIDIA开发者计划的一部分,开发者均可使用NVIDIA的AI软件集。
企业IT团队和AI开发者可以在NVIDIALaunchPad实验室中体验NVIDIAAI软件,其是由EquinixMetal在全球九座EquinixIBX数据中心提供的免费托管计划。新增加的LaunchPad实验室包括Riva语音AI实验室,以及多个可以体验RedHatOpenShift、VMwarevSpherewithTanzu、TAO工具包和Triton推理服务器(带有FIL后端)的NVIDIAAIEnterprise实验室。
结语
每年的GTC大会都是NVIDIA秀肌肉的时刻,这次也不例外。除了全新的CPU产品以及NVIDIAHopper架构,NVIDIA的产品布局更加全面,涵盖了基础设施的方方面面。在软硬件加持下,NVIDIA的“以工业规模创造智能,并将其融入真实和虚拟世界。”愿景正在加速到来。