三年节省上亿人民币!DPU 如何改造大型数据中心?
导读:将 HPC 的超高算力搬到云上,什么技术路子这么强? 作者 | 心缘 编辑 | 漠影 没有云计算厂商,会轻易放过大降成本的机会。 云是未来,这在全球各大科技巨头的最
将 HPC 的超高算力搬到云上,什么技术路子这么强?
作者 | 心缘
编辑 | 漠影
没有云计算厂商,会轻易放过大降成本的机会。
云是未来,这在全球各大科技巨头的最新财报中已经得到明确的验证。最新财季,AWS 净销售额同比增长 27%,微软智能云收入同比增长 20%,谷歌云收入同比增长 37%,阿里云营收同比增长 4%,百度智能云营收同比增长 24% ……
承载着 " 让算力资源大众化 " 使命的云计算,形成了撑起科技巨头未来的新型支柱业务。而要持续拉高算力峰值、提高客户上云服务体验,推进架构层的变革已是箭在弦上。
技术迭代的洪流滚滚向前,被冠以数据中心 " 第三颗主力芯片 " 的 DPU,正成为传统云计算架构向云原生超级计算升级的 " 底牌 "。
01.
数据中心下一站:云原生超级计算
云是未来,已是无可争议。但如何通过云服务向暴涨的用户同时提供更大规模的算力支持,是摆在每个云大厂面前的核心议题。
▲当前云和数据中心面临平衡性能与能耗的挑战(图源:NVIDIA)
云服务的优势是随用随取、按需分配算力,高性能计算则拥有强大算力。一种 " 优势互补 " 的思路开始走向落地:如果将两者的技术路线结合,是不是就能在云上提供媲美超级计算机的性能?
乍一想可行,但落到实处,需解决很多的技术挑战。在传统云原生的算力基础设施中,CPU 是事无巨细的芯片 " 大总管 ",既要处理计算任务,又要监管通信和存储,忙着这头,就顾不上那头,中间造成大量的排队等待时间和算力资源浪费。
这就好比餐厅,规模小、顾客少时,一位大厨还能忙得过来。此时这位大厨包揽了后厨的所有工作,除了忙着炒菜外,还操心采买、仓储、切配、端菜等等。然而等顾客越来越多,如果还靠他一手包办,那么炒菜效率就低了,每个顾客的等菜时间都长,体验都不好。
为解决这些痛点而生的云原生超级计算架构,正在云计算数据中心流行开来。
▲云原生超级计算架构(图源:NVIDIA)
云原生超级计算的核心思路是 " 分而治之 ",相当于给厨师配上帮厨、服务员等专业帮手,这样一来,厨师能够专心把菜炒得又快又好。
如今,越来越多的商业云开始提供高性能计算(HPC)云服务,大型算力中心也产生更多的上云需求。主要承担 HPC 和大型人工智能(AI)训练任务的算力中心,本身算力资源池非常大,存在算力资源闲置问题。
而引入云原生超级计算技术,可以将算力资源切分供给多用户多业务,通过编排调度,让每个业务都能享有堪比独占所有资源时的高性能。
无论是从提升性能、优化设计,抑或是从节能减排的角度,云原生超级计算对于商业云和大型算力中心的架构优化思路都很有借鉴价值。
02.
给高性能业务上云开路!
解读云原生超级计算的灵魂
云原生超级计算请的专业帮手,就是DPU。
作为替 CPU 分摊工作的辅助 " 大脑 ",DPU 接手了通信、存储、安全等任务,让 CPU 能专心处理用户业务,这样各种计算和通信任务就可以同步进行,不再像以往那样出现拥堵问题。
▲典型的 DPU/DOCA 卸载及加速通信流程示意图(图源:NVIDIA)
经过两年发展,这个被 AI 计算巨头 NVIDIA(英伟达)带火的芯片新秀,已经开始广泛落地于云计算和高性能计算的算力基础设施建设大潮中。
具体而言,NVIDIA BlueField DPU 对数据中心的最大价值,就是实现性能和能效的显著提升。
首先是性能,提升数据中心整体性能的一大关键阻力是网络。原本计算能力有十成,多个任务同时处理后,CPU 处理这个计算任务或者管理调配通信、存储等资源时,另一个计算任务就只能浪费时间等待。此外,如果两个任务在通信过程中狭路相逢,造成网络阻塞,那么就会造成延时。在金融银行等对延时高度敏感的应用场景中,这可能给客户交易造成损失。
而在 NVIDIA BlueField DPU 主管网络、存储等基础架构功能后,不仅 CPU 可以将更多计算资源用在云服务客户的业务上,整体网络阻塞问题得到明显改善,而且 BlueField DPU 本身携带的计算资源也可以辅助加速计算。
再从能效来看,随着数据中心规模越来越大,改善耗电量、降低基础设施采购和降低电力成本,已经是优化现代数据中心和主要目标。
引入 NVIDIA BlueField DPU,已是较大数据中心提升系统能效的有效途径之一。在运行基础设施任务时,内置专用硬件引擎的 NVIDIA BlueField DPU,效率要比 CPU 高得多。此外,NVIDIA BlueField DPU 上的 CPU 核心采用 Arm 架构,天然比多数 x86 服务器 CPU 更加节能,并且可以直接访问网络管线。
换个角度来看,同样的 CPU 数量,将计算资源更集中的供给云服务业务后,能够提供更高性能。反过来,实现相同的性能,其实要比以前消耗更少的 CPU,这相当于减少了硬件采购成本,进而有助于大幅降低总体拥有成本(TCO)。
根据《NVIDIA BlueField DPU 能效白皮书》,通过用 NVIDIA BlueField DPU 卸载,在 3 年期间将 1 万台服务器的每台服务器耗电量降低 200W,可在中国地区节省的成本估算值接近 400 万美元(近 2800 万人民币)。
▲根据 2020/2021 年电价,在不同国家 / 地区,通过使用 DPU 卸载在 3 年期间将 1 万台服务器的每台服务器耗电量降低 200 瓦,可节省的成本估算值(图源:NVIDIA DPU 能效白皮书)
如果为拥有 1 万台服务器的大型数据中心计算,将 IPsec 加密 / 解密卸载到 NVIDIA DPU,那么大型数据中心的 3 年 TCO 有望节省约 2630 万美元(折合约 1.8 亿人民币)。
▲为拥有 1 万台服务器的大型数据中心计算将 IPSec 加密 / 解密卸载到 BlueField DPU 的 TCO(图源:NVIDIA DPU 能效白皮书)
如此显著的成本优化,得益于英伟达极有远见的前瞻性布局:将硬件做到业界性能标杆,用软件培养开发者习惯,从而构建一个普适的高性能生态环境。
03.
开业界先例
实现公有云上的业务性能隔离
与 GPU 如出一辙,提及 DPU,英伟达绝对是被最先想起的公司,足见英伟达在业界的影响力。
而软硬 " 双剑合璧 ",加上在生态合作和口碑方面的优势滚雪球般越滚越大,长期是英伟达能够站在潮头、难以复制的杀手锏。
硬件上,NVIDIA BlueField DPU 在本地 Host Memory 和远端 Host Memory 之间建立了一条直接的通信通道,整个过程不需要 CPU 分神参与任何通信操作,并通过提供 Pre-Active 拥塞控制技术实现性能隔离。
▲ DPU 硬件与 DOCA 软件协作(图源:NVIDIA)
而硬件性能的充分发挥,离不开大量的软件工作。针对 BlueField DPU,英伟达打造了 NVIDIA DOCA 来提供各种加速库及标准编程接口,为其客户不断降低相应应用的 DPU 开发门槛。
再加上与英伟达其他先进网络技术的协同配合,数据中心的网络顽疾得以有效优化,能够更充分地发挥硬件资源的性能。
这些优势的叠加,推动云原生超级计算技术走向落地。最新典例便是在 HPC 云服务方面一马当先的云巨头微软智能云 Azure,在英伟达 BlueField DPU 相关产品及技术的支持下,它在业界率先实现了公有云上的业务性能隔离。
也就是说,让业务在云上拥有像独享资源时一样的高性能水平,已经从设想转变为现实。
▲借助云原生超级计算技术,Azure 在业界率先实现公有云上的业务性能隔离(图源:NVIDIA)
NVIDIA 网络亚太区高级总监宋庆春告诉芯东西,如果现有公有云想将计算平台升级向云原生超级计算,可以先从英伟达 BlueField DPU 或标准网卡着手,在体验到相应的技术优势后,在逐步演进至更多网络计算技术的替换,最终改造成基于云原生超级计算的最优计算平台。
目前云原生超级计算主要应用于面向高性能业务的上云,包括传统高性能计算业务(如气象预测、石油勘探、生命科学等应用)、大规模 AI 训练任务、推荐任务等,并通过多项测试,验证了 NVIDIA BlueField DPU 在提升数据中心性能和能效的真本事。
例如,VMware 和英伟达在服务器上测试 Redis 键值存储的测试表明,在 25Gb/s 网络上运行 Redis 工作负载的 VMware vSphere 分布式服务引擎时,将网络功能卸载到 NVIDIA BlueField DPU 上,可释放 12 个 CPU 核心,同时提高 Redis 的性能。
相比不使用 DPU,使用 NVIDIA BlueField DPU 卸载,可为近万台服务器 3 年节省约5650 万美元(近 4 亿人民币)的总体拥有成本。
▲将 VMware ESX 网络功能卸载到 DPU 后的 TCO 计算结果,其中 Redis 工作负载最初运行在 1 万台服务器上,并支持每台服务器每秒处理 1400 万个 Redis 事务(图源:NVIDIA DPU 能效白皮书)
面向大型科研项目,通过 DPU 加速通信,分子动力学模型性能可提升20%,数据建模应用实现26%的性能提升,天气预告模型实现约24%的性能提升。即将走向市场的 NVIDIA BlueField-3 DPU 将支持 400G 带宽,内存平衡较上一代提升4 倍。
▲ DPU 卸载和加速带来的高性能计算性能优势(图源:NVIDIA)
内置 NVIDIA BlueField DPU 的 NVIDIA Quantum InfiniBand 网络平台,也已经在超级计算领域功勋赫赫,并在全球超算榜单中展现出越来越高的存在感。以最新全球 IO500 高性能存储网络方案榜单为例,10 节点测试中,前 4 名系统均采用 NVIDIA Quantum InfiniBand 网络。
▲ 2022 年 11 月全球 IO500 高性能存储网络方案榜单(图源:NVIDIA)
04.
结语:释放云的力量
奔赴新型数据中心未来
2020 年秋季,当 " 芯片圈知名带货王 "NVIDIA 首席执行官黄仁勋在 GTC 大会上亮出 DPU 时,DPU 对于不少云计算及超级计算从业者来说还是一个新鲜但不确定有多大价值的新概念。
今天,再谈起 DPU,你也许会想起 AWS Nitro,也许会想起阿里云 CIPU,会想起英特尔 IPU,抑或是这两年突然涌起的 DPU 创业与投资热潮。而引爆 DPU 概念的 NVIDIA,已经低调地将重心转向部署,让 " 第三颗主力芯片 " 真枪实弹地进入一线数据中心客户的真实业务战场,作为云原生超级计算的灵魂,为数据中心展现新的架构可能。
如今,DPU 正呈 " 神仙打架 " 之势,通过推动网络和计算架构的创新,它将帮助大型数据中心的建设者们穿越周期,奔赴一个高计算密度、智能集约、绿色低碳、安全可靠的数据中心未来。
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/71179.html,如需转载,请注明出处!