时间:2024-06-14 来源:轮滑
前不久的英特尔 Innovation 2024 峰会上,英特尔面向数据中心市场正式推出了全新的至强 6 处理器系列,这一系列处理器分为能效核(代号 Sierra Forest)和性能核(代号 Granite Rapids)两种版本。
根据英特尔至强 6 的产品路线 能效核处理器和 5 个系列至强 6 性能核处理器陆续上市。其中 Xeon 6700E 系列将于 6 月 6 日,正式在中国大陆上市。
当下企业用户对AI的关注度空前绝后,背后有着非常大的市场等待开发,想要更好的推进 AI 应用,很大程度上同样是需要服务器算力支持,服务器性能是一方面,另一方面则是能耗,能耗是数据中心的主要支出来源,更高性能和更低功耗这是许多企业所追求的。另外,软件通用性、可靠性、速度和延迟这些都影响到服务的稳定和效率。
针对上述数据中心市场的需求变化,英特尔面向数据中心市场正式对外发布了至强 6 处理器,这一系列处理器包含能效核和性能核两个版本。这也是英特尔第一次将至强产品分拆为两个系列。
其中能效核有着更好的能效表现,优势在微服务、云原生、简单的数据库或是网络应用等,这些服务需求对服务器单核并没有很高的算力密度要求;性能核则专注设计、大数据、AI 推理、游戏等高负载,对单核性能要求比较高的应用场景。
从五年一个周期来看,至强 6 能效核在其擅长领域上有 2 倍到 3 倍的性能提升。性能核与上一代相比则有 2 倍以上的性能提升,其中性能和擅长领域则是人工智能、高性能计算、通用计算等场景。
具体来看至强 6 能效核,其能效比相比于第二代至强有着大幅的提升,在转码表现上,其最高性能每瓦有 2.6 倍的提升,最高性能则有 4.2 倍提升,算力提升的同时,功耗也有很好的下降。
相比传统的 200 个机柜的数据中心,使用至强 6700E 系列则可以大幅度减少机柜数量,只需原先 1/3 的机柜量就能达成之前同等算力。在与英特尔的前期测试中,ebay 相比于竞品有 25% 的性能功耗比优势,相比于现在第三代至强则有着 90% 的性能功耗比优势。SAP 则通过至强 6 能效核做到了大幅的能源节约,通过至强 6 能效核跑之前相同的负载节省 60% 的电能。
根据目前英特尔的节奏,至强 6 能效核将在本月率先上市并推出第一款产品 6700E,近年三季度将会推出 6900P,明年也会陆续推出更多型号。至强 6 能效核为什么能带来这么多的能效提升,这很大一部分原因是英特尔对至强 6 进行全新的设计,并以此达成这些能效目标。
英特尔至强 6 的能效核与性能核在架构设计都采用了相同的底层技术和硬件模块,其中能效核的 6700 系列平台是传统至强平台的延续,支持 1/2/4/8 路可扩展性。核心上来看,相比于第五代的 64 个性能核增加到 86 个,能效核最高达到 144 个,有着 30% 以上的核心数提升。内存速度也从之前的 5600MT/s提升到 6400MT/s,对于一些对内存带宽要求更多的应用,英特尔在至强 6 平台上,提供了 MCR 技术,它能更加进一步把内存速度从 6700 提升到 8000MT/s,当应用到一些高带宽需求的业务时能够有非常好的表现。
基于性能核的 6900 系列则最高配备 128 核心性能核,288 个核心能效核内存带宽能够最终靠 MCR 技术提升至 8800MT/s,其内存总体带宽达到上一代的 2.36 倍,而且在增加内存核心数量的同时,它的内存带宽也有着更大幅度的增加。
分别代表着能效核与性能核的 6700 系列和 6900 系列都配备了更多的 PCIe 通道和 CXL 接口以及两个 CPU 互联的 UPI 带宽。性能核包含了如 AVX-512、AMX 这样的向量、矩阵运算单元,为高并发,特别是像 AI、科学计算类的业务提供了非常好的性能。同时随着 MCR 内存技术的加持,也可以为高性能计算核心提供很高的带宽支持。
在乱序的执行单元方面,性能核提供了 512 长度的乱序执行引擎,能够越来越好的优化编程中的软件指令,可以更大程度使用整个后面的执行引擎。
能效核在服务器端新引入的一个产品版本。它的特点是针对一些功能进行了简化,比如它并不具备 AVX-512 和 AMX 的功能,针对 L2 Cache 也有所调整。性能核每个核是 2M,而能效核平均每个核是 1M,L3 的容量也不一样。通过这一些调整,让每个能效核所占的硅片面积大幅度降低,功耗所有减少。所以在同平台、同面积、同功耗下,至强 6 能够给大家提供更多的核心数量、更大吞吐量和更低的能耗。
从封装构造上来看,我们注意到第五代至强与至强 6 在设计理念上有很大的变化。第五代至强采用了 EMIB 技术将两个模块结合起来,这种设计巧妙地突破了传统研磨尺寸对模块尺寸的限制,使得单个处理器得以集成更多复杂的逻辑功能,从而大幅度的提高了性能和功能性。
而至强 6 的设计理念有了变化,并不是简单的把模块的大小一分为二,而是按照功能块进行划分。能够正常的看到,右侧图的中间是计算模块,上下两部分是 I / O 模块,I / O 模块更多是和高速 I / O 相关,而且对密度要求并不高,所以使用 Intel 7 这样相对来说还是比较成熟的工艺来做 I / O 模块,而计算模块对计算密度及核心逻辑密度要求比较高,因此则采用最新的 Intel 3 制程工艺。从模块封装和 SoC 的构造来看,第五代至强到至强 6 其实是有比较大的改变的。
具体来看,至强 6 个产品构成,基于其中 6700 系列的有基于能效核的计算模块和 2 个 IO 模块;还有基于性能核的三款 SKU,XCC、HCC 与 LCC 分别代表高中低档不同核心数版本的模块。
另外两款基于 6900 系列的产品,IO 模块的形状和数量和尺寸和 6700 系列上的是一样的,只是计算核心数量不同,6900 系列性能核版本采用了 3 篇 XCC 计算模块,从计算核心数量来说,配备性能核的 6900 的核心数量大约增加了 50%。而能效核是采用了和配备能效核的 6700 同样的计算单元,只是数量上从 1 片增加到 2 片,核心数量从 144 个增加到了 288 个。
实现这样一个模块化设计有几个关键要素,首先是要有 Fabric 技术,能够把计算模块和 I / O 模块有机结合起来。二是集成多个模块的系统架构,即面对多个模块时,也能通过 Fabric 技术无缝地将它们连接成一个整体。想象一下,每个模块内部都拥有纵横交错的通路网络,而当这些模块通过集成多个模块架构相互连接时,它们的通路不仅得以延续,还能相互融合,共同构建起一个规模更大、更为强大的通路系统。
这种设计不仅优化了数据传输效率,还极大地扩展了处理器的功能和性能。而这些通路的结合,是通过 EMIB 来相互连接,EMIB 技术能实现非常高密度的模块之间的桥接,能够让模块和模块之间达到 1TB / s 的速度,这样做才能够使跨模块连接做到带宽无损通信。
接下来,具体来看计算模块的内部结构,这里包含了中间的核心部分(包括 L1 / L2 缓存)、缓存及内存访问相关的控制器、L3 缓存以及横向和纵向的 Mesh Fabric,在核心两侧是 2 个 DDR5 或 MCR 内存控制器。这样的好处是每个模块内部的核心缓存以及内存访问都是在比较小的范围内,因此它的访问延迟比较低。6900 或是 6700 的 XCC 版本多个模块之前又形成了无缝连接,用很小的延迟,实现了很好的性能扩展。
接下来是 IO 模块部分,IO 模块与计算模块也是通过 Fabric 以及 EMIB 相连,这里继承了很多 IO 接口,比如 PCIe、CXL、UPI,QAT、DSA 等加速单元,以及 RDT 资源调度等功能。
这里特别说明一点,CXL 是英特尔推出的技术,在此前的第四代、第五代至强产品上都有相关功能,这次升级的 CXL 2.0 首次应用在至强 6 中。CXL 2.0 为 Type 3 设备引入了增强功能,包括链路细分、QoS 控制等,从而为 Type 3 设备客户关切的使用场景,提供了更全面的功能特性。
Type 3 设备用户都能够使用的不同的模式实现内存扩展。内存扩展的第一种模式是 CXL Numa node,它允许将系统的标准 DRAM 内存和通过 CXL 技术扩展的内存作为两个独立的 Numa 节点,并能在软件层面来控制。通过在系统软件或应用层进行内存内容的分层管理,可以优化配置并屏蔽上层业务,这也是 CXL 一直采用的管理模式之一。
但是对某些 ISV 或是无法对自身软件做修改优化的企业来说,他们依然希望可以用一个对软件透明,并从硬件层面上提供的一个整体 CXL 以及和系统原生 DRAM 内存的解决方案。针对这样的硬件管理方案,英特尔提供了两种模式。一种叫异构交织(Hetero Interleaved)模式,它是把系统原生的 DRAM 内存和 CXL 内存,从地址上进行混合。从带宽上来看,每个 CXL 内存交织的通路和 DRAM 交织的通路是平衡的,因此 CXL 延迟略有区别,但整体对系统的吞吐影响并不大。通过这样一个异构交织功能,可以给系统平台提供更大的内存带宽,而且应用程序并不会直接感知或是直接管理到这个 CXL 内存。这是在至强这样的平台提供第一种关于硬件的 CXL 管理方式。
第二种方式是通过平面存储器模式,这种模式是让 CXL 和原生 DRAM 做一个硬件辅助的分层,在 1:1 的情况下,会尽量把 CXL 常用的数据放在 DRAM 中,虽然一部分数据放在 CXL 当中,但是随着这样的一个硬件分层管理,就可以非常接近于完全 DRAM 的性能表现。
我们看到,MongoDB 数据库表现在不同模式之间性能还是有所差距的。左边是评估场景,一种情况是在系统中设置了 512G 的 DDR5 内存,另一种是通过平面存储器模式,其中 256G 是 DRAM,另外 256G 是 CXL 内存。当数据容量为 125G 的时候,这两者之间只有 1% 的性能差距,而当数据容量为 256G,即与总容量几乎一样时,采用硬件分层的引擎只有 2% 的性能差距,若是数据量进一步增加,也只有 5% 的性能差距。
由此可见,采用平面存储器模式可以让用户使用譬如 DDR4 这样低成本的 CXL 扩展方式,在扩展系统内存容量的同时,将对其业务性能的影响降到最小。
接下来,再来看下至强 6 的性能亮点。至强 6700 系列产品采用能效核以实现更高的密度和并发度,且拥有优秀的能效比。与第五代至强处理器相比,至强 6 能效核整数吞吐性能提升了 25%,另外在媒体编解码、网络防火墙等业务上均有 20%、30% 甚至高达 40% 的提升。
而相较于性能方面的提升,其能效提升更加显著,能够正常的看到绝大多数业务均有 30%、40% 甚至更高的能效提升,这便是采用能效核处理器为整个平台带来的收益。
对于数据中心客户而而言,配备英特尔至强 6 能效核产品后,算力的提升能替换更多过时算力,以此腾出更多的空间部署更多算力,进一步帮助数据中心客户做到了很好的成本控制。
从五年产品更新的角度来看,至强 6 能效核与第二代至强处理器相比有 3 倍以上的性能提升,同时其能效方面也有超 2 倍的提升,且每个处理器的热设计功耗也均在上升。
至强 6 处理器可实现与第二代至强 3:1 的替换比,即原来需要三个机架才能完成的任务,现在仅需要一个至强 6 机架就可以完成。以整数吞吐和媒体解码为例,能够正常的看到整体机架级别的性能提升了 2.7-3.2 倍,每瓦性能提升 2.6-2.7 倍,这带来的计算集群功耗节省以及碳排放节约是非常显著的。
作为首批上市的至强 6 产品,至强 6 能效核首批 SKU 共 7 款,覆盖 64-144 核,其他能效核与性能核版本,也将会在今年 3 季度和 2025 年 1 季度陆续推出。
总体来看,这次至强 6 的进化无疑是巨大的,性能大幅度的提高,能耗也得到了很好的控制,模块化的设计也具有非常出色的扩展性。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更加多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。