IBM下一代Z系列处理器''Telum'':或展
导读:在上个月举行的HotChips 33上,IBM公布了其下一代Z系列处理器“Telum”。这款处理器采用了全新的内核架构,针对AI加速做了优化。其配置了8核16线
网友提问:
IBM下一代Z系列处理器''Telum'':或展示了CPU缓存的未来
优质回答:
在上个月举行的HotChips 33上,IBM公布了其下一代Z系列处理器“Telum”。这款处理器采用了全新的内核架构,针对AI加速做了优化。其配置了8核16线程,频率超过5GHz,采用了三星7nm工艺制造,核心面积为530平方毫米,集成了225亿个晶体管,拥有全新的分支预测、缓存和多芯片一致性互连。
IBM的Z系列处理器以拥有大型L3缓存而出名,并有单独的全局L4缓存,可作为多个处理器之间的缓存。不过在Telum上,不但没有了L4缓存,而且L3缓存也没有了。要知道无论英特尔还是AMD,现在都尽可能增大L3缓存容量或增加L4缓存以提高性能,比如在AMD采用3D垂直缓存(3D V-Cache)技术的Zen 3架构桌面处理器,为每个CCD带来额外的64MB 7nm SRAM缓存。
近日,Anandtech发表了一篇文章,讨论了Telum的缓存架构。
现代的处理器普遍都有多级缓存,至于为什么会这样,可以看我们《超能课堂(133):为什么CPU缓存会分为L1、L2、L3?》简单了解一下。简单来说,越靠近执行端口的缓存越小但越快(比如L1),缓存越多且越大那么访问所需的周期就越长(比如L3)。缓存除了大小,延迟也很重要,通常缓存越大延迟越大,缓存命中率也会更低。
为了更有效利用缓存,芯片设计公司需要分析这款处理器将用于哪方面的工作负载,以提高设计的效率。IBM的产品一般都是大型主机使用,大多是政府或银行这样的客户,对安全性和稳定性极高,这些产品都有故障安全和故障转移功能。
IBM在上一代Z15产品上,基本单元是一个由五个模块构成的系统,其中四个是计算模块(CP),一个是控制模块(SC)。四个计算模块每个有12个内核和256MB共享的L3缓存,核心频率为5.2 GHz,面积为696平方毫米。四个计算模块两两配对,各自与控制模块相连。控制模块拥有960MB的L4缓存,并与四个计算模块共享。Z15采用了IBM和GlobalFoundries联合研发的14nm FinFET SOI特殊工艺制造,L1和L2缓存与核心频率一样都是5.2 GHz,L3和L4缓存则是半速的2.6 GHz。
这意味着单个IBM Z15系统是25块696平方毫米的芯片组成,共有20 x 256MB的L3 缓存,还有5 x 960MB的L4缓存,以全对全拓扑连接。
IBM没有将新一代产品称为Z16,而且称为Telum,可能是因为对缓存的采用了不同的处理方法。Telum采用三星7nm工艺制造,单芯片拥有8个核心,面积为530平方毫米。IBM将两个芯片封装在一起,将四个同样封装的处理器组成一个单元,然后将四个同样的单元组成一个系统,整个系统共有32个芯片和256个核心。
IBM为每个核心配置了32MB的L2缓存,这比一般的处理器大得多,而且取消了核心之间共享的L3和L4缓存。一般来说,这样的设计会使得缓存有很高的访问延迟。IBM采取的方法是,通过私有物理缓存里打造共享虚拟缓存的方法解决,意思是将平时需要放置在L3缓存里的部分标记为L3缓存线存在不同核心空余的L2缓存里。L2和L3缓存在物理上是一致的,但是可以根据工作负载的需要,包含来自不同核心的L2和L3缓存线的混合。这意味着一个芯片8个核心里,8 x 32MB共256MB的L2缓存也可以视为“虚拟”L3缓存。
相似的方法IBM也用在了原来的L4缓存上,L2缓存里也可以容纳L4缓存线。从单个核心的角度来看,在一个基于Telum打造标准的系统,可以访问32MB的L2缓存,256MB的共享虚拟L3缓存,以及8GB的共享L4缓存。IBM表示,使用这种虚拟缓存的系统,每个核心的缓存相当于Z15的1.5倍,而且还改善了数据访问的平均延迟,性能提高了40%以上。
在具体运行中如何降低延迟和保证命中率是一个非常复杂的操作,加上功耗、缓存在断电和空闲等状态下如何保证单核心工作负载的一致性,这都是IBM需要考虑的问题。可以思考一下,如果AMD使用3D V-Cache技术堆叠的不是L3缓存,而是L2缓存,同样采取虚拟L3缓存线的方式,这样的微架构对性能会有怎样的影响?
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/4199.html,如需转载,请注明出处!