至强处理器 至强器cpu性能排名


ChatGPT的出现,无疑是AI发展史上浓墨重彩的一笔。它不仅引爆了AI大模型的概念,更将AI带入寻常百姓家,渗透到每个人的工作和生活中。AI PC、AI手机、AI边缘计算等领域也因此突飞猛进,推动着各行各业的变革。

数据显示,预计到2026年,AIGC相关投入将突破3000亿美元,到2028年,超过八成的PC将转型为AI PC,边缘应用中AI的普及率也将超过50%。

至强处理器(至强器cpu性能排名)

AI大模型等应用对算力的需求巨大,GPU加速器因此备受追捧。但AI的发展是多元化的,CPU、NPU等也在各自领域发挥着重要作用。

例如,传统的CPU也在与时俱进,积极拥抱AI。英特尔第五代至强处理器(Emerald Rapids)就是其中的佼佼者。

至强处理器(至强器cpu性能排名)

在距离第四代至强(Sapphire Rapids)发布不到一年,英特尔就推出了第五代产品,这史无前例的速度,正是为了满足快速发展的AI需求,许多指标都针对AI应用进行了优化。

例如,更高的核心数量、更快的频率、更强大的AI加速器,都显著提升了性能和能效,对AIGC应用尤为有利。

三级缓存容量增加了两倍,降低了对系统内存的依赖,内存带宽也得到进一步提升。

软件生态方面, 英特尔提供了全方位的开发支持和优化,尤其加强了对主流大模型和AI框架的支持,包括PyTorch、TensorFlow等。在AI训练、实时推理、批量推理等方面,基于不同算法,性能提升最高可达40%,甚至可以处理拥有340亿参数的大模型。

<img src="https://gaofengtu.oss-cn-beijing.aliyuncs.com/2/556cbd55b83844ed2cddf1174db10593.jpg" alt="至强处理器(至强器cpu性能排名)

根据英特尔提供的数据, 相比上一代,第五代至强处理器的SPECInt整数计算性能提升21%,AI负载性能最高提升42%,综合能效最高提升36%。

具体到细分领域,图像分割、图像分类AI推理性能分别最高提升42%和24%,建模和模拟HPC性能最高提升42%,网络安全应用性能最高提升69%。

网络与云原生负载能效最高提升33%,基础设施与存储负载能效最高提升24%。

值得一提的是, 英特尔强调,第五代至强处理器拥有极高的性价比。 例如,在BF16、INT8精度下,它可以同时满足8个用户的实时访问需求,延迟不超过100ms。

阿里云、百度云等合作伙伴也对第五代至强处理器的出色性能进行了验证。例如,百度云在四节点服务器上使用第五代至强处理器运行Llama 2 700亿参数大模型,推理时间仅为87.5毫秒。

再比如,京东云使用第五代至强处理器运行Llama 2 130亿参数模型,性能比上一代提升了50%。

至强处理器(至强器cpu性能排名)

至强处理器(至强器cpu性能排名)

英特尔计划在今年内陆续推出Granite Rapids和Sierra Forest两套平台,均采用全新的Intel 3制程工艺。

其中,Sierra Forest首次采用E核架构,单芯片最高144核心,双芯封装可达288核心,预计今年上半年问世。

Sierra Forest主要面向新兴的云原生设计,可提供极致的每瓦性能,符合国家对设备淘汰换新的要求。由于内核设计精简,可以在相同空间内集成更多核心。

Granite Rapids则延续传统P核设计,拥有更高的频率和性能。

Granite Rapids针对主流和复杂的数据中心应用进行了优化,尤其适用于大型程序,可以减少对虚拟机的依赖。

预计到2025年,英特尔将发布代号为Clearwater Forest的下一代至强处理器,其制程工艺、技术特性和性能能效将再次实现飞跃。

至强处理器(至强器cpu性能排名)

面对英特尔至强处理器如此快速的更新换代,尤其是第五代至强处理器看似短暂的生命周期,我们不禁要问:它是否值得现在就采纳部署?它适用于哪些应用市场和场景?

在第五代至强处理器发布之初,英特尔从工作负载优化性能、高能效计算、CPU AI应用场景、运营效率、可扩展安全功能和质量解决方案五个方面进行了介绍。

现在,让我们从另外五个维度,深入了解第五代至强处理器的价值所在。

一是制程工艺的改进。

尽管第五代和第四代至强处理器都采用Intel 7工艺和Dual-poly-pitch SuperFin晶体管,但第五代在系统漏电流控制和动态电容等关键技术指标上进行了改进,而这些指标对晶体管性能有着至关重要的影响。

借助这些调整,五代至强在相同功耗下实现了整体频率提升 3%,其中 2.5% 源于漏电流的降低,0.5% 源于动态电容的下降。

芯片布局也得到优化。

由于芯片集成复杂性和制造技术的限制,主流芯片已不再是单一大芯片,而是由多个小型芯片整合封装而成。

四代至强分为对称的四个部分,可达到 60 个核心,而五代至强转变为镜像对称的两部分,核心数却增加到最多 64 个。

如此转变的原因在于,切分的芯片越多,它们相互通信所需的控制器、接口和所占面积也越多,还会增加额外功耗,并降低良品率。

通过芯片质量控制,五代至强能够更有效地控制芯片面积,在较大面积下获得良好的良率,而且镜像对称的布线也更具灵活性。

至强处理器(至强器cpu性能排名)

这是五代至强单个芯片的布局图,中央区域是 33 个 CPU 核心和二、三级缓存,其中一个核心用于冗余备份。

左右两侧是 DDR5 内存控制器,上方是 PCIe、UIPI 控制器,以及 DLB、DSA、IAA、QAT 等加速器,底部则是 EMIB 封装和通信模块,用于双芯片内部的高速互连。

在连接方面,五代至强采用了高速内部互连 Fabric MDF,包括 7 个 SCF(可扩展一致性带宽互连),每个都具有 500Gbps 的高带宽,使两颗芯片在逻辑上得以无缝连接。

至强处理器(至强器cpu性能排名)

三是性能与能效。

五代至强的关键性能指标如下:

- CPU 架构升级到 Raptor Cove,与 13/14 代酷睿同款。

- 核心数量增加,最多 60 个核心的至强升级至 64 个核心。

- 三级缓存扩展,每核心的平均容量从 1.875MB 提升至 5MB,这是历代最显著的提升。

- DDR5 内存频率从 4800MHz 提升至 5600MHz。

- UPI 总线速度从 16GT/s 提高到 20GT/s。

- 芯片拓扑结构变更,四芯片封装改为双芯片封装。

待机功耗降低,得益于全集成供电模块 (FIVR)、增强主动空闲模式等技术。

至强处理器(至强器cpu性能排名)

四是三级缓存。

此前的至强处理器每核心的三级缓存仅为 1-2MB,而五代至强则直接提升至 5MB,总容量最高达 320MB。

在数据集较小的情况下,三级缓存本身即可承载大部分需求,无需转移至系统内存,从而带来显著的性能提升。

缓存容量并非单纯堆叠,因为大缓存会面临可靠性问题,尤其是在大型数据中心存在软故障的风险时,缓存越大,故障几率越高。当错误累积到无法纠正时,就会导致系统宕机。

这就需要强大的纠错机制,五代至强因此采用了新的编码方式 DEC、TED,当缓存行出现两个位错误时也能进行纠正,并能在出现三个位错误时检测故障,相较于传统单位纠错、两位检错具备更强的容错能力。还搭载了新的数据修复方案。

五是内存 IO。

DDR5-4800 升级至 DDR5-5600,看似幅度不大,实则十分不易,因为内存速度提升后,从芯片到基板需全面进行优化匹配,包括供电和噪音控制等。

为了确保高频下的信号完整性,五代至强还加入了 4-tap DFE 功能,最大程度地减少码间干扰 (ISI)。

至强处理器(至强器cpu性能排名)

我们单独探讨基于至强等通用处理器的 AI 负载应用及相应解决方案。

事实上,AI 应用并非仅限于大型模型,还有大量传统非大型模型 AI 应用同样适合在 CPU 上部署。

例如,科学计算中的基因测序领域,自 2018 年以来,每一代至强处理器都得到显著提升,原因在于科学计算通常需要进行“暴力”计算,这最能考验 CPU 的处理能力。

除硬件上的支持外,英特尔还拥有强大的软件生态优化,包括基于 OpenVINO 对整个模型进行优化、量化。在推荐、语音识别、图像识别、基因测序等方面,英特尔都进行了大量优化。

例如,模型庞大的推荐系统、稀疏矩阵等应用,CPU 的效率实际上优于 GPU,因为单个 GPU 无法满足需求时必须跨 GPU 使用,或与 CPU 频繁交互传输,而 CPU 在与内存互通方面的效率更高。

无论是在网络、数据服务、存储等其他领域,还是性能或能效方面,至强在业界都处于领先地位,更重要的是,其系统故障率极低。

至强处理器(至强器cpu性能排名)

对于通用的 AI 工作负载,英特尔采用了 AMX、AVX-512 两条指令集,并在 OpenVINO 的基础上进行优化。

AMX 适用于处理 BF16、INT8 数据类型,例如推荐系统、自然语言处理、图像识别和目标检测等。

AVX-512 适用于处理 FP32、FP64 数据类型,例如数据分析、机器学习等。

在推断过程中,指令集可以灵活细分,将部分指令加速方向加速器,从而有效替代基于 GPU 的 AI 模型。

事实上,AI 仅占工作负载的一部分,更多的是通用负载,许多深度学习模型是“混合精度”的,在第四代和第五代至强处理器上运行时,可以在 AMX 和 AVX-512 之间根据需要灵活无缝切换。

针对超大模型的加速,英特尔推出了自己的框架 BigDL LLM,其中许多框架层针对 CPU 进行了大量优化,并对模型进行了量化。

英特尔拥有开放的生态系统,行业合作伙伴和竞争对手可以直接使用,这对英特尔自身也是有利的,可以促进整个生态系统的增长,使英特尔的解决方案得到更广泛的应用。

在这个 AI 时代,CPU、GPU、NPU 等各种计算引擎都有其独特的优势,都有自己的适用场景和领域,不存在替代关系,更多的是灵活选择和高效协同,需要根据具体业务的需求综合考虑能效、成本等多方面因素。

CPU 作为最传统的通用计算引擎,始终占据着不可替代的地位,无论是作为整个计算平台的核心枢纽,还是对各种通用负载和 AI 负载的灵活处理,在未来都将继续发挥重要的作用。

至强处理器(至强器cpu性能排名)