文心一言算力从哪来?自家最大智算中心:算力规模 4EFLOPS,base 李彦宏老家
导读:百度版 ChatGPT 底层算力支持,李彦宏老家阳泉助一臂之力! 量子位获悉,百度阳泉智算中心从 2 月底开始就布设了两个新机房,专门为自家大模型产品文心一言提供计算推理
百度版 ChatGPT 底层算力支持,李彦宏老家阳泉助一臂之力!
量子位获悉,百度阳泉智算中心从 2 月底开始就布设了两个新机房,专门为自家大模型产品文心一言提供计算推理的算力需求。
同样功能的机房,在百度保定计算集群,还有两个。
北京、华南的云计算资源也会为文心一言提供支持。
其中,阳泉智算中心是亚洲单体最大的智算中心,算力规模可达4EFLOPS(每秒 400 亿亿次浮点计算)。
而就在最近,微软也表示为 ChatGPT 专门打造了超算集群,由上万块英伟达 A100组成,并专门为此调整了服务器架构。
那么百度的算力基础设施水平如何?
量子位刚刚从阳泉智算中心探访归来,给大家来波揭秘 ~
每秒 400 亿亿次浮点计算
据百度介绍,阳泉智算中心在 3 月份刚刚完成升级。
它是目前亚洲最大单体智算中心,算力规模达4EFLOPS(每秒 400 亿亿次浮点计算),整个建筑面积约 12 万平方米。
一共包括 13 个模组,可承载约28 万台服务器。
智算中心采用CPU+GPU+XPU三种计算架构。
其中 XPU 应该主要指百度自家的昆仑芯,其产品一代二代均已实现量产,落地规模在 2 万片以上。
计算能力上,基于天蝎机柜服务器、" 冰山 " 冷存储服务器和 X-MAN 超级 AI 计算平台等,可支持10G、25G 的通用计算网络接入和100G 的 AI 高速无损网络的交换机。
每秒可完成2000 万亿次深度神经网络计算。
节能低碳方面,阳泉智算中心PUE 可以低至 1.08。(这一数值大于 1、越接近 1 表示能效水平越好)
在供电上,阳泉智算中心去除了传统的 UPS(不间断电源),采用 HVDC offline(高压直流离线)技术、分布式锂电池(BBS)供电技术,把供电效率从 90% 提升到99.5%。
同时采用太阳能光伏发电(阳泉日照比较充足),在顶楼铺设太阳能光伏面板,直接并网发电给服务器使用。
散热方面,由于阳泉年平均气温在 8-12 度,昼夜温差大,智算中心可以直接利用当地气候条件散热。
据介绍,全年 96% 的时间可以使用室外冷空气实现免费冷却,换算过来一年里有 14.6 天才需要全部开冷水机组制冷,从而节省了大量的能源。
技术人员表示,智算中心会按需发电和散热,日常运维也是基于 AI 来实现的。
自 21 年 4 月以来,阳泉智算中心正式投入使用。在去年 12 月起,开始对外开放服务。
当时项目计划投资为 47.08 亿元。
目前,阳泉智算中心可以支持各种 AI 应用场景,如语音识别、图像处理、自然语言处理和机器学习。为百度搜索、社区、推广服务等提供算力支撑。
云计算要借大模型的东风
无独有偶,微软也在近日公开了为 ChatGPT 专门打造的超算集群,包含了上万张英伟达 A100。
微软表示,他们给 OpenAI 提供这台超算已经有 3 年之久,而 ChatGPT 也正是基于这台超算提供的算力训练的。
此举背后,微软有两方面考量。
其一,吸引更多企业来使用 Azure 训练自己的大模型。微软执行副总裁 Scott Guthrie 表示:
虽然它是 OpenAI 的定制版,但同样具备某种通用性,任何企业都可以基于这种方式来训练自己的大语言模型。
其二,直接在 Azure 中提供 OpenAI 模型服务(Azure OpenAI Service)。
此前包括 GPT-3、Codex 和 DALL · E 2 等模型,都已经接入 Azure。
至于纳德拉 1 月份立的 " 要把 ChatGPT 加入 Azure 服务 "flag,目前也已经实现。
类比来看,百度想打的算盘,或许也不会局限在文心一言本身。
据介绍,为了支持文心一言的大规模智能算力需求,百度智能云已经完成了三大配套云服务。
3 月份升级阳泉智算中心;
2 月,百度智能云升级了 AI 研发运营一体化(MLOps)能力;
去年 12 月,百度发布了全栈自研的 AI 基础设施 "AI 大底座 "(阳泉智算中心搭载了这一底座)。
前段时间李彦宏内部信中还提到:
这里的意思是,大模型浪潮将改变传统云计算服务看算力、存储的旧习惯,而是进入到看框架好不好、模型好不好,以及模型、框架、芯片、应用之间的协同的新游戏规则。
由此也可推理,百度寄希望于文心一言,向市场验证自家云计算能力,并吸引更多企业用户。
据介绍,百度搭建的 "AI 大底座 " 包括了百舸异构计算平台和 AI 中台两大部分。
百舸异构计算平台可以在 AI 计算、存储、加速、容器方面进行系统优化,承载数据处理、超大模型的推理和训练。
AI 中台整合了飞桨深度学习框架和百度文心大模型,实现了从数据存储到模型训练、生产、部署、测试的全链路、批量化生产。
而百度智能云更具体的能力如何?
或许从文心一言上线后的表现就能略知一二了。
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/81347.html,如需转载,请注明出处!