IBM下一代Z系列处理器''Telum''：或展-静雅生活网

导读：在上个月举行的HotChips 33上，IBM公布了其下一代Z系列处理器“Telum”。这款处理器采用了全新的内核架构，针对AI加速做了优化。其配置了8核16线

　　网友提问：

　　IBM下一代Z系列处理器''Telum''：或展示了CPU缓存的未来

　　优质回答：

　　在上个月举行的HotChips 33上，IBM公布了其下一代Z系列处理器“Telum”。这款处理器采用了全新的内核架构，针对AI加速做了优化。其配置了8核16线程，频率超过5GHz，采用了三星7nm工艺制造，核心面积为530平方毫米，集成了225亿个晶体管，拥有全新的分支预测、缓存和多芯片一致性互连。

　　IBM的Z系列处理器以拥有大型L3缓存而出名，并有单独的全局L4缓存，可作为多个处理器之间的缓存。不过在Telum上，不但没有了L4缓存，而且L3缓存也没有了。要知道无论英特尔还是AMD，现在都尽可能增大L3缓存容量或增加L4缓存以提高性能，比如在AMD采用3D垂直缓存（3D V-Cache）技术的Zen 3架构桌面处理器，为每个CCD带来额外的64MB 7nm SRAM缓存。

　　近日，Anandtech发表了一篇文章，讨论了Telum的缓存架构。

　　现代的处理器普遍都有多级缓存，至于为什么会这样，可以看我们《超能课堂(133)：为什么CPU缓存会分为L1、L2、L3？》简单了解一下。简单来说，越靠近执行端口的缓存越小但越快（比如L1），缓存越多且越大那么访问所需的周期就越长（比如L3）。缓存除了大小，延迟也很重要，通常缓存越大延迟越大，缓存命中率也会更低。

　　为了更有效利用缓存，芯片设计公司需要分析这款处理器将用于哪方面的工作负载，以提高设计的效率。IBM的产品一般都是大型主机使用，大多是政府或银行这样的客户，对安全性和稳定性极高，这些产品都有故障安全和故障转移功能。

　　IBM在上一代Z15产品上，基本单元是一个由五个模块构成的系统，其中四个是计算模块（CP），一个是控制模块（SC）。四个计算模块每个有12个内核和256MB共享的L3缓存，核心频率为5.2 GHz，面积为696平方毫米。四个计算模块两两配对，各自与控制模块相连。控制模块拥有960MB的L4缓存，并与四个计算模块共享。Z15采用了IBM和GlobalFoundries联合研发的14nm FinFET SOI特殊工艺制造，L1和L2缓存与核心频率一样都是5.2 GHz，L3和L4缓存则是半速的2.6 GHz。

　　这意味着单个IBM Z15系统是25块696平方毫米的芯片组成，共有20 x 256MB的L3 缓存，还有5 x 960MB的L4缓存，以全对全拓扑连接。

　　IBM没有将新一代产品称为Z16，而且称为Telum，可能是因为对缓存的采用了不同的处理方法。Telum采用三星7nm工艺制造，单芯片拥有8个核心，面积为530平方毫米。IBM将两个芯片封装在一起，将四个同样封装的处理器组成一个单元，然后将四个同样的单元组成一个系统，整个系统共有32个芯片和256个核心。

　　IBM为每个核心配置了32MB的L2缓存，这比一般的处理器大得多，而且取消了核心之间共享的L3和L4缓存。一般来说，这样的设计会使得缓存有很高的访问延迟。IBM采取的方法是，通过私有物理缓存里打造共享虚拟缓存的方法解决，意思是将平时需要放置在L3缓存里的部分标记为L3缓存线存在不同核心空余的L2缓存里。L2和L3缓存在物理上是一致的，但是可以根据工作负载的需要，包含来自不同核心的L2和L3缓存线的混合。这意味着一个芯片8个核心里，8 x 32MB共256MB的L2缓存也可以视为“虚拟”L3缓存。

　　相似的方法IBM也用在了原来的L4缓存上，L2缓存里也可以容纳L4缓存线。从单个核心的角度来看，在一个基于Telum打造标准的系统，可以访问32MB的L2缓存，256MB的共享虚拟L3缓存，以及8GB的共享L4缓存。IBM表示，使用这种虚拟缓存的系统，每个核心的缓存相当于Z15的1.5倍，而且还改善了数据访问的平均延迟，性能提高了40%以上。

　　在具体运行中如何降低延迟和保证命中率是一个非常复杂的操作，加上功耗、缓存在断电和空闲等状态下如何保证单核心工作负载的一致性，这都是IBM需要考虑的问题。可以思考一下，如果AMD使用3D V-Cache技术堆叠的不是L3缓存，而是L2缓存，同样采取虚拟L3缓存线的方式，这样的微架构对性能会有怎样的影响？