英伟达发布 ChatGPT 专用 GPU，推理速度提升了 10 倍-静雅生活网

导读：机器之心报道　　编辑：泽南、蛋酱　　AI 的 iPhone 时刻，要有一块好的芯片。　　曾何几时，人工智能因为算力不足进入了长达数十年的瓶颈，GPU 点燃了深度学习。在 C

　　机器之心报道

　　编辑：泽南、蛋酱

　　AI 的 iPhone 时刻，要有一块好的芯片。

　　曾何几时，人工智能因为算力不足进入了长达数十年的瓶颈，GPU 点燃了深度学习。在 ChatGPT 时代，AI 因为大模型再次面临算力不足的问题，这一次英伟达还有办法吗？

　　3 月 22 日，GTC 大会正式召开，在刚刚进行的 Keynote 上，英伟达 CEO 黄仁勋搬出了为 ChatGPT 准备的芯片。

　　「加速计算并非易事，2012 年，计算机视觉模型 AlexNet 动用了 GeForce GTX 580，每秒可处理 262 PetaFLOPS。该模型引发了 AI 技术的爆炸，」黄仁勋说道。「十年之后，Transformer 出现了，GPT-3 动用了 323 ZettaFLOPS 的算力，是 AlexNet 的 100 万倍，创造了 ChatGPT 这个震惊全世界的 AI。崭新的计算平台出现了，AI 的 iPhone 时代已经来临。」

英伟达发布 ChatGPT 专用 GPU，推理速度提升了 10 倍

　　其中，NVIDIA L4 提供「比 CPU 高 120 倍的 AI 驱动视频性能，以及 99% 的能源效率」，可以用于视频流、编码和解码以及生成 AI 视频等工作；算力更强的 NVIDIA L40 则专门用于 2D/3D 图像生成。

　　针对算力需求巨大的 ChatGPT，英伟达发布了 NVIDIA H100 NVL，这是一种具有 94GB 内存和加速 Transformer Engine 的大语言模型（LLM）专用解决方案，配备了双 GPU NVLINK 的 PCIE H100 GPU。

英伟达发布 ChatGPT 专用 GPU，推理速度提升了 10 倍

　　作为全球首个 GPU 加速的量子计算系统，NVIDIA DGX Quantum 将全球最强大的加速计算平台（由 NVIDIA Grace Hopper 超级芯片和 CUDA Quantum 开源编程模型实现）与全球最先进的量子控制平台 OPX（由 Quantum Machines 提供）相结合。这种组合使研究人员能够建立空前强大的应用，将量子计算与最先进的经典计算相结合，实现校准、控制、量子纠错和混合算法。

　　DGX Quantum 的核心是一个由 PCIe 连接到 Quantum Machines OPX + 的 NVIDIA Grace Hopper 系统，实现了 GPU 和量子处理单元（QPU）之间的亚微秒级延迟。

　　英伟达公司 HPC 和量子主管 Tim Costa 表示：「量子加速的超级计算有可能重塑科学和工业，英伟达 DGX Quantum 将使研究人员能够突破量子 - 经典计算的界限。」

　　对此，英伟达将高性能的 Hopper 架构 GPU 与该公司的新 Grace CPU 整合为「Grace Hopper」，为巨型 AI 和 HPC 应用提供了超强的动力。它为运行 TB 级数据的应用提供了高达 10 倍的性能，为量子 - 经典研究人员解决世界上最复杂的问题提供了更多动力。

　　DGX Quantum 还为开发者配备了英伟达 CUDA Quantum，这是一个强大的统一软件栈，现在已经开放了源代码了。CUDA Quantum 是一个混合型量子 - 经典计算平台，能够在一个系统中整合和编程 QPU、GPU 和 CPU。

　　每月 3.7 万美元，网页上训练自己的 ChatGPT

　　微软斥资数亿美元购买了数万块 A100 构建了 GPT 专用超算，你现在可能会想要租用 OpenAI 和微软训练 ChatGPT 和必应搜索相同的 GPU 来训练自己的大模型。

　　英伟达提出的 DGX Cloud 提供了专用的 NVIDIA DGX AI 超级计算集群，搭配 NVIDIA AI 软件，该服务使每个企业都可以使用简单的网络浏览器访问 AI 超算，消除了获取、部署和管理本地基础设施的复杂性。

英伟达发布 ChatGPT 专用 GPU，推理速度提升了 10 倍

　　据介绍，每个 DGX Cloud 实例都具有八个 H100 或 A100 80GB Tensor Core GPU，每个节点共有 640GB GPU 内存。使用 NVIDIA Networking 构建的高性能、低延迟结构确保工作负载可以跨互连系统集群扩展，允许多个实例充当一个巨大的 GPU，以满足高级 AI 训练的性能要求。

　　现在，企业可以按月租用 DGX Cloud 集群，快速轻松地扩展大型多节点训练工作负载的开发，而无需等待通常需求量很大的加速计算资源。

　　而月租的价格，据黄仁勋介绍，每个实例每月 36999 美元起。

　　「我们正处于人工智能的 iPhone 时刻，」黄仁勋表示：「初创公司竞相打造出了颠覆性产品和商业模式，而现有企业也在寻求回应。DGX Cloud 让客户能够即时访问全球规模的云中的 NVIDIA AI 超级计算。」

　　为了帮助企业迎接生成式 AI 的浪潮，英伟达同时宣布了一系列云服务，让企业能够构建、改进定制的大型语言模型和生成式 AI 模型。

　　现在，人们可以使用 NVIDIA NeMo 语言服务和 NVIDIA Picasso 图像、视频和 3D 服务来构建专有的、特定领域的生成式 AI 应用程序，用于智能对话和客户支持、专业内容创建、数字模拟等。另外，英伟达还宣布了 NVIDIA BioNeMo 生物学云服务的新模型。

　　「生成式 AI 是一种新型计算机，可以用人类的自然语言进行编程。这种能力影响深远 —— 每个人都可以命令计算机来解决问题，而此前不久，这还是程序员们的专利，」黄仁勋说道。

　　从今天的发布内容看来，英伟达不仅正在针对科技公司的 AI 负载不断改进硬件设计，也在提出新的商业模式。在一些人看来，英伟达是想做「AI 领域的台积电」：像晶圆厂一样提供先进生产力代工服务，帮助其他公司在其之上训练各自特定场景的 AI 算法。

　　用英伟达的超算训练，直接省去中间商赚差价，会是未来 AI 发展的方向吗？

　　探寻隐私计算最新行业技术，「首届隐语开源社区开放日」报名启程

　　春暖花开之际，诚邀广大技术开发者 & 产业用户相聚活动现场，体验数智时代的隐私计算生态建设之旅，一站构建隐私计算产业体系知识：

　　隐私计算领域焦点之性

　　分布式计算系统的短板与升级策略