当前位置:首页 > 业务领域 > 重金属处理 >

性能大跃进,干翻x86!ArmNeoverseN1服务器处理器抢先解析:AG体育

编辑:AG体育 来源:AG体育 创发布时间:2020-12-25阅读46295次
  本文摘要:因素可以使系统具有非常大的核心计数,Arm对16核以上的系统没有这个特性。

因素可以使系统具有非常大的核心计数,Arm对16核以上的系统没有这个特性。L2存储器可以选择512KB或1MB的存储器,在512KB的存储器时与Cortexha76基本相同,1MB存储器可以应对存储器的闲置应用程序。但是,将L2存储器翻倍到1MB并不是没有代价的,存储器的延迟不会减少2个周期,超过11个周期的阻抗用于延迟。NeoverseN1和CortexA76有很大的不同之处在于,在开展大规模内存操作者时,NeoverseN1不是为了寻找集团而使用的。

如图所示,该连接首先通过CAL或组件单层。每个CAL至少反对两个模块,所以我们不能在每个集群中看到两个CPU。然后CAL连接到网格的XP(交叉点)本质上是网络交换机/路由器组件。

AG体育首页

每个XP都有两个可用端口。在Arm参考设计例子中,第二个端口连接一个系统内存。在64核系统和2MB系统级存储器的示例系统中,64MB存储器整体的平均值阻抗被用于延迟到22ns。

Arm提供的延迟数据是纳秒数,而不是周期数的原因是系统级存储器和mesh与CPU异步的频率,一般是核频率的2/3左右。必要的连接是NeoverseN1和CMN-600的整体特征。该特性不存在于该平台,但在Cortex结构中无法构建。本质上,去除了DSU的所有L3和逻辑,需要将CPU的核连接到CMN的CHI模块上。

因此,内存控制器和CPU核心之间的通信本质上只需通过一个中间层,即mash网络本身。从内存控制器向CPU数据传输可能有点无法解释。当CPU向内存控制器收到数据催促时,它需要立即同时向预取类型发送催促,并通过mesh网络中XP主节点的探测过滤器长时间传输命令,然后将催促路由传输到内存控制器。

因此,内存控制器会提前告诉催促的到来,并且已经开始获取数据,从而隐藏部分有效的内存延迟,而不是整个传输按串行顺序进行。预取对整个系统的性能至关重要,智能管理数据预取可以有效优化系统级比特率。据传64核心和8个DDR4,3200内存地下通道的Neoversen1参照系统可以构筑175GB/s的内存比特率。Arm还发布了延迟数据,但Arm的数据显示了LMBench数据,并配备了256MB测试深度的2MB页面。

自由选择大的页面可以增加TLB的遗漏,更像实际的存储器延迟,这是Arm在这种情况下测量的基本原理。我们还没有机会测试成为大页面的竞争系统,但AMD的EPYC7601(LRDIMMMDR4666-19-19)可以通过与LMBench相似的测试在芯片的高速缓存水平结构的末端构筑约73ns的延迟,定制开发的延迟测试将TLB最终减少到57ns。IntelW-3175X(RDIMMTDDDR-266战斗24-19-19)在完全相同的测试延迟到94ns和64ns。台积电7nm工艺生产的NeoverserseN1芯片面积非常小,在512KB二级缓存中核心面积约为1.2mm,与麒麟980使用的CortexA76的1.26mm完全相同。

L2内存翻倍到1MB后,核心面积也只有1.4mm。在频率范围内,Arm的思路是在0.75V电压下超过2.6GHz,在1V电压下可实现3.1GHz。在这个频率曲线末端,提高44%的功耗不能提高19%的频率和性能,所以很多供应商都希望在更相似的功率曲线中有效的部分。但是,从意义上的数字来看,Neoversen1的功耗只有1~1.8W,这为64核SoC获得了丰富的空间,Arm64核NeoverseN1参照设计的总功率支出约为105W。

NeoverseN1超大型参考设计Arm获得NeoverseN1的原始参考设计,其中包括Arm自己检查的IP组。这个参考设计的目标是为供应商获得甜点,他们可以用最多的希望构筑拟合的性能。NeoverseN1的参考设计可以使用64或128的核心设备,建立在具备64MB或128MB系统级内存的CMN-600TMash网络中。在I/O模块中,128条PCI-E4.0地下通道分别用作I/O和CCIX模块,可以获得足够的I/O比特率。

在内存方面,Arm配备了8个地下通道DDR4控制器,至少反对3200MHz。然而,实质上,Arm已经退出了自己的内存控制器研发,因为大多数情况下客户不会使用自己的内部设计,或者从其他第三方供应商(如Cadence或Synopsys)自由选择计划。

AG体育

现在的参考设计,Arm自己的DMC-520存储器控制器还不久,对公司来说是很好的解读模块。然而,在未来,像DDR5这样的新内存控制器也将被迫依赖于第三方知识产权。SoC的物理构建将适用于设计方便的分层构建。

每个CPU模块由两个NeoverseN1核心、一组系统级内存和CMN交叉点和当地节点的一部分组成。只有通过旋转和镜像复制CPU模块,才能分解最后的SoC顶层网格。

在7nm工艺节点上,Arm的64核Neoverse.N1参考设计和64MB高速缓存,芯片尺寸相似400mm,可能略高于供应商的生产性目标。为了减轻这种忧虑,Arm同时明确提出了小芯片设计的创意,让多个小芯片通过CCIX链接开展通讯,确保适当的灵活性,供应商可以自行决定如何设计解决方案。智能网卡搭建能力也是其设计和灵活性最重要的一个方面,为了在大型系统中最大限度地提高计算能力,加快网络连接本质上是在尽可能密集有效的形式因素下搭建低通量的关键。

CMN-600允许在其交叉点设置从端口,通过高达128GB/s的高带宽巴士与存储管理单元连接,可以插入其他功能相同的硬件模块。CCIX对Arm来说是最重要的。因为产品组合需要与第三方IP产品构筑。

为外部IP模块实现高速缓存一致性是非常有魅力的功能。因为它大大简化了供应商的软件设计。

基本上,这意味着软件只是看到大的内存块,而不是相关系统必须驱动程序和软件,跟踪内存的哪个部分是有效的,哪个部分不同。在IP建设方面,Arm获得与CMN-600建设的CCIX完全一致的网关,另一方面是第三方IP提供商获得CCIX切换层的责任。对Arm来说,CCIX是最重要的,其产品组合需要与第三方IP产品构建。

为部IP块的内存一致性是非常有魅力的特性,可以大幅度简化供应商的软件设计,系统、驱动和软件追踪需要有效的内存。在IP建设方面,Arm获得了与CMN-600构建的CCIX相关性网关,第三方IP提供商获得了CCIX翻译。

在芯片的逻辑设计中,供应商必须设计强大的配电网络,以满足实际情况下各种脑溢血和严格的电力市场需求。这对许多供应商来说是一个非常困惑的问题,因为设计必须是一个简单的模型,在大多数情况下,配电网络必须过度设计以确保稳定性,这反而降低了实施的复杂性和成本。Arm的目的是以专用微控制器的形式获得接近细粒度的DVFS(动态电压频率调整)机制,减轻这些问题。

AG体育首页

控制器采访CPU核心内部的详细活动监控单元,查看实际上有多少晶体管在大力工作,并将该信息反馈给系统控制器以改变DVFS状态。这使得供应商需要将其配电网设计成更加激进的容差,从而节约执行成本。性能预测对性能和效率的讨论,必须用明确的数字来决定。

在Arm发表Neoverse时,大部分性能数据都是CortexA72的改良,NeoverseN1确实没有放置竞争结构中最相关的数据点。CortexA72是2015年发售的结构,两种产品之间有3~4年的时间跨度。与完全相同频率、具有系统内存的CortexA72平台相比,新的NeoverseN1平台必须以滚动的姿态获胜。在SPEC的单线程测试中,Neoverse.N1的整数计算PPC(每小时表的性能)和意义性能比Cortex的A72快速增加了60%~70%,浮点的运算性能更加令人印象深刻,增长率达到了100%~120%。

另外,NeoverseN1还有很多其他SoC水平的改良和软件的优化,实际的性能不会更高。与现有解决方案相比,Arm再次回归了非常大的性能进化,在向量工作阻抗中构筑了最多2倍的性能提高。自然,NeoverseN1反对ARMv8.2命令集也意味着反对8位乘积和FP16半精度命令,这些命令特别适合机械学习的工作阻力,比上一个平台提高了近5倍。

运营速度约为2.6GHz的64核NeoverseN1超大规模参照设计,在105瓦TDP下,SPECint2006单线程分数约为37,多线程分数约为1310。但是,这种性能不是在实际运营的产品中测定的,而是在Arm的服务器组中用于RTL模拟环境中测定的。

NeoverseN1的单线程分数显着低于同源Cortex76测量的26分,不认为软件和编译器的考虑不可靠,42%性能差异的原因之一可能是NeoverseN1享受更好的内存和内存系统,整个系统的比特率比CortexA76低6倍Arm特别强调,在提高生态系统性能的众多希望中,除了获得更好的硬件外,还必须获得更好的软件。近年来,Arm投入了大量精力改进开源工具和编译器。例如,将最新版GCC9与旧版GCC5相比,其整数和浮点工作阻抗性能提高了13~15%,这些优化是面向实际用例的改进,而不是目的地提高SPEC跑步的完全目的性。

就单线程性能而言,NeoverseN1看起来非常出色,它以相当大的优势击败了目前性能最好的Arm服务器CPU,即Cavium的ThunderX2。因为是面向服务器领域的产品,所以与老字号的供应商Intel和AMD相比,Intel和AMD最近也是最差的XeonW-3172X和EPYC7601,在一定程度上用于GCC8编译器的两进制文件的展开。Intel的XeonW-3172X虽然不能说是最具代表性的超大型CPU,但是4.5GHz的单核和率可以获得多核CPU中最弱的单线性能。

AG体育官网

AMD的EPYC7601是更具代表性的数据点,其3.2GHz的频率与NeoverseN1相比,实际成绩也明显。让我们看看SPECrate2006的多线程测试。这是所有平台的最佳扩展场景,没有序列化和线间通信,测试套件只是分阶段运营多个过程。从Arm的模拟测试结果来看,64核Neoverse-N1以105瓦的TPD构建了极高的性能和效率,x86的解决方案甚至很难竞争。

测试是64核Arm平台和32/28核x86平台,奇怪的是AMD发售的64核Rome处理器更加公平,但从数据来看,即使AMD的64核处理器能够构筑现在的双重性能,TDP也不太可能减少到Neoverse目标N1等105总结NeoverseN1是一个优秀的结构,维持Arm一贯领先的电源效率,构筑了峰值计算性能和整体吞吐量之间的最佳平衡。Arm对NeoverseN1及其最后一位接班人抱有很高的希望,期待从Intel等供应商中偷走x86处理器根深蒂固的市场份额。

Arm正在尽最大努力,Neoverse的N1将成为旗舰x86的核心竞争对手,但在更多核心的工作抵抗中,不包括根本的威胁。当然,在实际硬件产品频繁出现之前,我们不能作出任何定论,但是Arm对Cortex的A76性能预测非常符合实际设备的测量结果,因此有理由对NeoverseN1的性能预测进行信赖,预测中的性能认虽然新的硬件IP令人印象深刻,但在某种程度上最重要的是Arm对Arm软件生态系统加强的希望。有不同的行业。硬件与软件合作伙伴合作,试图增强软件堆栈和Arm的互动性,这不仅不利于Arm本身的硬件IP供应商,也不利于自由选择自己定制CPU和SoC设计的供应商。

在某种程度上,那些企图改进和强化自己产品的供应商也强化Arm的生态系统。本质上,这是很多公司之间的集体希望,将来会有动力。Arm认真对待基础设施建设,过去一年对Arm生态系统来说是革命性的,Arm制造商的平台首次与Intel和AMD等主流制造商竞争。Arm没有泄露任何人首先用于NeoverseN1平台的信息,但Arm成为业界的主流。

据说Neoversen1将在未来12~18个月内开展商业配置,这将是Arm的关键时刻。如果一切成功,Arm和合作伙伴建立了承诺的改进,服务器行业将在未来1~2年进入根本的变化。版权文章允许禁止发布。

下一篇文章发表了注意事项。


本文关键词:AG体育,AG体育官网,AG体育首页

本文来源:AG体育-www.mysdhomevalues.com

0167-789434458

联系我们

Copyright © 2010-2014 呼伦贝尔市AG体育首页科技股份有限公司 版权所有  内蒙古ICP备56193182号-4