您现在的位置:返回首页
进军服务器市场RISC-V能否与X86一战?
众所周知,目前x86架构处理器统治着PC和服务器市场,而Arm架构处理器则统治着移动市场,并在IoT市场占据着较大的市场份额。
但是,近年来RISC-V架构则凭借着开源、指令精简、可扩展等优势,在注重能效比的物联网领域大受追捧。
在RISC-V International及相关芯片厂商的推动下,RISC-V也开始进入更高性能需求的服务器市场。
2023年初,RISC-V International将HPC确定为RISC-V增长的战略优先领域,再加上最近批准的矢量扩展和大量移植关键HPC库和工具的HPC软件工作,很明显,这一领域的势头正在迅速增长。
世界各地的很多项目,如欧洲eProcessor项目、拥有上千RISC-V核心的Esperanto CPU,以及旨在开发RISC-V关键软件组件支持的多供应商RISE项目,都有可能推动RISC-V在包括HPC在内的高端计算中普及,并最终使社区能够围绕这一技术构建超级计算机。
据介绍,Veyron V1采用先进的5nm制程工艺,基于Ventana自研的高性能RISC-V内核,8流水线设计,支持乱序执行,主频高达3.6GHz,每个集群最多16个内核,多集群最多可扩展至192核,拥有48MB共享三级缓存,拥有高级侧信道攻击缓解措施、IOMMU和高级中断架构(AIA)、支持全面的RAS功能、自上而下的软件性能调整方法,可以满足数据中心的各种需求。
需要指出的是,Veyron V1并没有SIMD或向量执行单元,这对上有AVX-512的Intel或AMD的服务器处理器会非常吃亏。
另外,Veyron V1目前还没有量产,之前承诺的是今年第二季或第三季向客户提供样品。所以,以上官方公布的数据都还是纸面上的数据。
相比之下,今年三月国内某厂商推出的64核RISC-V服务器芯片SG2042目前已经小批量出货。
近日,国外研究人员Nick Brown 通过RAJAPerf基准测试套件对于这款芯片进行了实测,发现其与最新的广泛可用的RISC-V芯片相比,其平均每个核心的性能提高了5到10倍。但是在多线高性能CPU的平均性能依然达到了它的4-8倍。
据该研究报告显示,该64核RISC-V处理器,运行频率为2GHz,由四个高性能的C920内核组成,并采用了12级无序多问题超标量管道设计。
C920提供RV64GCV指令集,具有三个解码、四个重命名/调度、八个发布/执行和两个加载/存储执行单元。支持矢量化标准扩展(RVV v0.7.1),矢量宽度为128位,支持数据类型FP16、FP32、INT8、INT16、INT32和INT64。然而,C920并不支持FP64矢量化
研究称,双精度浮点是绝大多数高性能工作负载的基础,因此能够支持矢量化这些操作的核心可能会为HPC提供更高的性能。每个C920核心还包含64KB的L1指令(I)和数据(D)缓存,1MB的L2缓存,在四个核心的集群之间共享,64MB的L3系统缓存,由集群中的所有核心共享。还提供四个DDR4-3200内存控制器和32条PCIe Gen4通道。
HPC工作负载的一个重要考虑因素是矢量化,由于C920核心仅支持RVV v0.7.1,编译器支持是一个挑战。RISC-V GNU编译器的当前上游版本不支持任何版本的矢量扩展。虽然GNU存储库包含一个rvv下一个分支,其目的是支持rvv v1.0,但在研究人员撰写研究报告时,它并没有得到积极维护。
此外,还有一个针对rvv v0.7.1的rvv-0.7.1分支,但该分支已被删除。由于缺乏对主线GCC的支持,阿里平头哥(T-Head)提供了自己的GNU编译器分支(玄铁GCC),该编译器已针对其处理器进行了优化。
T-Head的定制编译器同时支持RVV v0.7.1和他们自己定制的自定义扩展。虽然已经提供了该编译器的几个版本,但作为其20210618版本的一部分,GCC8.4提供了最佳的自动向量化能力,因此这是研究人员进行的基准测试实验选择的版本。
该版本的编译器生成矢量长度特定(VLS)RVV组件,该组件专门针对C920的128位矢量宽度。所有内核都在优化级别三进行编译,所有报告的结果都在五次运行中取平均值。
图1展示了VisionFive V2和V1与SG2042在双精度(FP64)和单精度(FP32)方面的单核性能比较。其中条形图是整个类别中速度更快或更慢的平均次数,线条的范围从最大到最小。
在双倍精度下,C920核心的平均性能是V2中U74以双倍精度运行时的4.3至6.5倍。此外,在单精度下,C920的性能是基准测试平均性能的5.6至11.8倍。这是一个令人印象深刻的性能提升,并且C920内核上没有比U74运行得慢的内核。
一些内核在C920上的性能非常令人印象深刻,例如,来自算法组的内存集基准在FP32中的运行速度是U74的40倍,在FP64中运行速度是U74的18倍。
需要强调的是,该基准测试在这些核心上都是以尽可能好的配置,即C920上利用了矢量化,但是U74不支持矢量化,因此在V1或V2上不可用。
SG2042上的FP32和FP64之间存在显着的性能差异,这表明事实上C920矢量运算不支持FP64。相比之下,在V2上运行双精度和单精度之间的性能差异要小得多。
图1中结果的一个方面让研究人员感到惊讶的是,VisionFive V1比V2慢得多。考虑到测试只是在单核上运行RAJAPerf,所以芯片的双核和四核性质并不重要,因为它们都包含相同的U74核心,那么其性能应该相当相似。
但是,在双倍精度下,V1比V2慢了六倍到三倍,单精度则慢了一倍到三倍。虽然可以假设V1可能以比V2更低的时钟频率运行,尽管它们在数据表中都被列为以1.5GHz运行,但机器上没有任何文件或输出可以证实这一点。
从图1中可以看出,与现有的、公开可用的商品RISC-V内核相比,单个C920核心所获得的性能令人印象深刻。T-Head将该核心描述为一种高性能RISC-V处理器。
测试也表明,其与U74相比,在整个基准测试套件中的性能有了很大的提高,U74以前被认为是广泛可用的RISC-V CPU的最佳选择,可以在其上进行HPC工作负载的实验。
AMD EPYC 7742在四个NUMA区域中包含64个物理内核,每个区域有16个内核,但有八个内存控制器。每个核心包含32KB(I)和32KB(D)L1缓存,512KB的L2缓存,四个核心之间共享16MB的L3缓存。EPYC 7742提供支持AVX2,具有256位宽的矢量寄存器,是SG2042的两倍,并支持FP64的矢量化。
Intel Xeon 6330是比较的最新CPU,所有28个物理内核都在一个NUMA区域中,具有8个内存控制器,具有32KB(I)和48KB(D)L1缓存,每个内核1MB L2缓存,以及43MB共享L3缓存。Xeon 6330支持AVX512,并提供512位宽的矢量寄存器。
Intel Xeon E5-2609属于本次测试当中最古老的CPU,其于2012年发布,仅提供四个物理核,每个核都有64KB(I)和64KB(D)L1缓存,以及256KB的L2缓存和共享的10MB L3缓存。该E5-2609仅支持AVX,因此矢量寄存器长度与SG2042相同,为128位,尽管AVX支持FP64。
在所有测试当中,研究人员禁用了x86物理内核的超线程。除了ARCHER2之外,研究人员在所有系统上都使用GCC版本8.3,编译始终在优化级别O3下进行。全部在性能最高的线程数量上执行的系统。
图4展示了各芯片在FP64上运行基准测试套件的单核性能。其中条形图是整个类别中速度更快或更慢的平均次数,线条的范围从最大到最小。SG2042为均值基线。
从测试结果来看,除了除了古老的Xeon E5-2609内核之外,所有x86内核的性能都优于C920,后者在流和算法基准类中的平均性能较慢。
从图5可以看出,AMD EPYC 7742在单精度执行时与双倍精度执行时相当乏善可陈,而英特尔处理器的平均性能也一样好,事实上,当使用FP32时,古老的Xeon E5-2609内核在每种级别上的平均性能都优于C920。
C920仅支持FP32的矢量化,事实上,从图5和图4中的线的许多基准类的最大速度比FP64快。
此外,有更多运行速度最慢的内核在x86 CPU上的执行速度比FP32上的C920慢。这些内核是有效应用自动矢量化的地方,事实上,可以看出,对于lcals基准类,所有x86 CPU上至少有一个内核的性能低于C920。
FP32多线程性能比较,报告比基线的多线程性能比较,这些结果包含最大的差异。为了提高可读性,研究人员限制了纵轴,并标记了超过该值的实际数值。
在多线 CPU的竞争中表现得略强,尽管polybench类是一个异常,因为它在三个最新的x86 CPU上的表现要好得多,而Intel Xeon E5-2609的表现则差得多。
总结来说,在SG2042多线 CPU进行比较时,在FP32和FP64上运行的所有基准类型测试中,其64核平均性能优于4核的Intel Xeon E5-2609。
研究人员表示,尽管当前有许多公司在开发高性能RISC-V硬件原型,但到目前为止,当希望在可商用的RISC-V软件上运行工作负载时,选择非常有限。
不管怎样,尽管这些解决方案能够对RISC-V进行实验,但它们并不能在体系结构上提供生产高性能工作负载所需的功能。因此,尽管HPC社区对RISC-V很感兴趣,但它还没有完全准备好迎接这项技术。
当然,作为世界上第一款广泛可用的针对HPC的多核RISC-V服务器芯片,SG2042可能会大大提高HPC社区对RISC-V的兴趣和采用率。然而,一个关键的问题是其与当前一代超级计算机中普遍存在的x86 CPU相比依然有着较大的差距。
不过,与目前可商用的RISC-V硬件相比,这是一款非常令人兴奋的RISC-V服务器芯片,它提供了一些重大的变化。
虽然性能还没有达到x86服务器CPU的水平,但应该强调的是,RISC-V供应商在短时间内取得了长足的进步。相比之下,x86 CPU有着悠久的历史,并从他们多年的开发中受益。
目前RISC-V进入服务器CPU市场的竞争对手主要还是Arm服务器CPU,毕竟其理论上RISC-V CPU可以拥有相比Arm CPU更低的成本、更高的定制化和可扩展性。
对于下一代高性能RISC-V处理器来说,研究人员认为,提供RVV v1.0将非常有用,因为这将提供使用用于编译矢量化代码的主线GCC和Clang。
此外,提供FP64矢量化、更宽的矢量寄存器、增加的L1高速缓存以及每个NUMA区域更多的存储器控制器也可能带来显着的性能优势,并有助于缩小与x86高性能处理器的差距。
更多相关资讯
推荐内容
MORE- (05-07) 线上音乐会好听又时尚
- (10-13) 2020全国双创周宁波鄞州分会场活动
- (12-28) 江夏区P(2021)176号177号地块打
- (09-13) 西安经开区文景东区社区:“我为群
- (03-31) 港交所主板新规今日生效特专科技公
- (01-24) NBA常规赛:热火胜湖人[组图
- (03-10) 一台有洁癖的洗衣机 云米EyeBot智
- (04-01) 国美零售(股票代号:493)公布202
- (08-10) 大连遇害女童母亲坚持要凶手道歉
- (12-11) 浪子心声口琴怎么解读?
- (11-27) 爱如指间沙靡宝怎么上了热搜?
- (03-13) 促进市场公平竞争 保护消费者权益
- (11-19) 咳李牧(mù)免(miǎn)到底是什么情
- (10-10) 国庆冰箱怎么选?凭口碑优势海尔依
- (07-01) 贾斯廷-霍勒迪确认将参加奥兰多的
- (03-08) 半场战报:詹皇3+5+6欧文遭雪藏 骑
- (01-23) 作品档案之番号PGD-794 高级时尚黄
- (08-05) 为孩子长高不顾一切的家长们注意”
- (02-22) 蒙牛打造百亿产业集群推动产业链高
- (04-02) 利亚德业绩说明会释放了哪些信号?
- (07-10) 象群改变方向和监测组相距仅20米
- (10-28) 又一轮大跌发改委已会议研究煤价干
- (07-30) 超强降雨来袭北京共有251个站雨量
- (11-25) 广西贵港:承办全区培训班着力破解
- (02-02) 我的黑帮大少看看网友是如何评论的
- (06-22) 拯救者Y9000PvsR9000P:10款游戏11
- (12-01) 妖孽殿下滥情妃是什么原因?
- (06-27) 中国一出手就直击七寸美加慌不慌?
- (12-11) 别唤醒死人是这样理解吗?
- (09-14) 延安必康子公司获数十家机构调研新
- (10-30) 张家口市公安局
- (11-07) NBA常规赛湖人又一次失利主场106-1
- (07-26) TVB视帝谈续约条件曝光加薪无望求
- (02-13) 步行者主场不敌小牛 德罗赞31分猛
- (09-15) 南稳贰号实时净值查询(南稳贰号)
- (06-19) 最后108秒关键2加1乔治37+16+5单核
- (05-08) 平行进口奔驰G63现车讲解广东最终
- (06-07) 买了这辆保有量少的车你知道意味着
- (10-26) 趣头条渗透新兴市场引领农村数字建
- (03-26) 加里纳利更新Ins为家乡意大利加油