ARM vs X86到底谁更好:英特尔ATOM处理器高能效的背后

2012-12-31 15:24:22来源:WPDang作者:

导言:英特尔近期公布了有关凌动SoC和英伟达Tegra 3的非常详细的能耗情况。如果您之前认为ARM架构在本质上能效更高,或许您低估了英特尔在制造和架构方面的优势。应对目前在智能手机和平板上普遍所采用的ARM架构处理

导言:英特尔近期公布了有关凌动SoC和英伟达Tegra 3的非常详细的能耗情况。如果您之前认为ARM架构在本质上能效更高,或许您低估了英特尔在制造和架构方面的优势。应对目前在智能手机和平板上普遍所采用的ARM架构处理器,英特尔所推出的全新ATOM“凌动”处理器,事实上在各个方面都不逊色于以Tegra 3为代表的ARM架构处理器。而知名硬件评测网站TomShardware通过深度的测试以及详细的数据,为我们展现了英特尔凌动处理背后的秘密。

移动设备的能耗:让数字说话

Andrew Ku一直在评测几款新的平板电脑:采用凌动Z2760处理器的三星ATIV Smart PC 500T以及采用高通APQ8060A处理器的三星ATIV Tab。我一直在使用基于凌动处理器的宏基Iconia W510,我将很快贴出我对它最初的看法。

让Andrew和我都印象深刻的是:这些基于凌动、运行完整版Windows 8的平板电脑在电池续航时间上完全可以媲美基于Tegra 3的微软Surface,特别是宏基W510配备26.6Wh电池而Surface配备31.5Wh电源。

\

就性能而言,凌动 Z2760(代号Clover Trail)在Geekbench测试得分上与英伟达(Nvidia)的Tegra 3互有胜负,但凌动 Z2760在网络浏览指标上则全面胜出。在运行x86应用方面,凌动拥有明显的优势。

对于更小的电池,如何在特定测试中获得更高的性能,以及在相同的负载中拥有更长的运行时间?回答这个问题是一个相当大的挑战。随后,我们要求英特尔向我们展示其实验室中让英特尔能够进行非常精细测量的先进设备。

上周在圣克拉拉,英特尔向我们展示了其性能分析团队生成的数据,并演示了这些信息是如何生成的,还让我们自己操作测试设备并深入探讨Clover Trail的优缺点。下面的数字来自英特尔的团队,而不是Tom的硬件实验室。我们确实确认了所有显示屏均标准化为200200 cd/m2(尼特,使用Gossen亮度计测量),能耗是50毫秒时间段的平均值。在本文中,我们将细化英特尔的数据并与我们在自己实验室中得到的结果进行对比,寻找关联。

\

对于微软Surface和宏基的W510,我们分别测试了Windows 8用户界面、Windows 8桌面和分屏(一边打开Windows 8应用,另一边打开桌面)模式。在这种情况下,Windows 8风格应用是主要屏幕,而桌面功能是侧边栏。

第一栏是每个CPU的使用情况。Tegra 3在Windows 8用户界面时的空闲处理器能耗仅为0.0038W,而凌动为0.02W。但在分屏模式下Tegra 3消耗更高的电力,达0.29W,超过了凌动的0.18W。

下面是GPU。现在,我们已经知道:英特尔芯片中的单核PowerVR SGX545在3D图形上的速度要低于Tegra 3。但至少在2D应用中,凌动更简单的图形引擎的能耗更低。

\

英特尔的能效优势的第一个线索来自内存一栏。第一眼看上去,凌动比Tegra要差。但值得注意的是,凌动Z2760采用支持LPDDR2-800的两个32位内存控制器,提供高达6.4 GB/s的带宽。大多数设备中常见的T30提供最高1500 MT/s的DDR3-L单通道控制器,提供高达6 GB/s的带宽。理论上,英特尔凌动要做更多工作,表明其内存子系统的能效更高。

平台的其他部分包括屏幕本身以及面板电子装置(例如LVDS传输器),以及无线电、音频编解码器、NAND等等。即使在宏基的背光消耗更多电力(分屏模式下)的情况,其平台的其它部分的能效也仅高0.10W。

英特尔视频播放测试结果VS.我们的测试结果

接着,我们有机会了解一下媒体播放时的功耗。

\

\

有趣的是,我们看到了向视频播放负载添加迈克菲防病毒软件对扫描的影响。由于Windows Media Player旧版本中的安全缺陷,软件必须自己扫描视频文件,发现恶意软件。在我们的宏基平板电脑上,我们在打开视频片段的同时看到一个初始的扫描残迹(由于正在被扫描,导致丢帧)。然而,在这之后,一切顺利运行。

关于平台的整体功耗,宏基W510比微软Surface更具优势。通过再一次对比处理器功耗,我们得知,由于其4+1架构,Tegra 3在空载时功耗成绩更好。但是运行负载时,凌动表现得更出色。

GPU功耗一栏的对比也很有趣。英特尔凌动在本地播放和HTML5视频播放期间耗电更少,如果是分屏,那么差别会更大。目前尚不清楚是否与H.264的固定功能硬件加速或其它一些变量(如驱动程序,预计英伟达在这方面有优势)有关。

我们在前面提到,似乎英特尔的内存控制器有魔法。从最好到最坏的案例使用场景(甚至包括不在Tegra 3上运行负载),凌动的功耗只提高了31%;而Tegra则几乎需要将功耗提高100%。随着负载变得越来越苛刻,并且平板电脑不是以纯线性的方式来读取内存,英特尔的两个32位控制器保持更低的功耗。以更高数据速度运行的英伟达单通道控制器无法效仿。

内部验证英特尔的数字

坦率地说,任何人都难以复制英特尔的实验室工作,因为我们已经看到了他们在圣克拉拉部署的高精尖设备。但是英特尔提出的数字似乎是合理的。通过宏基W510中更小的26.6 Wh电池,再加上键盘底座(约53.2 Wh),1080p视频应基于3.5 W数据播放15.2小时。我的1080p测试持续了15小时27分钟(以10%的量)。因此,这一结果也是可信的。

\

相比之下,微软Surface需要4.21 W。凭借其31.5 Wh电池,理论上最长播放时间为7.48小时。微软Surface的电池寿命、多显示器测试中,Andrew测量到,在最大亮度(4.4 W)下,播放时间为7小时10分钟,在200尼特、禁用Wi-Fi的情况下(3.15 W),播放时间为10小时。这真正体现了显示屏及其它平台组建对运行时间有多大影响,以及比特率对Tegra 3有多大影响。这是什么意思呢?好吧,我们的内部测试文件是一个以720p运行的6 Mb/s H.264编码的文件,而英特尔的测试文件是以1080p运行的20 Mb/s。

我们对iPad 2(25 Wh电池)和第三代iPad(42.5 Wh电池)的最高播放时间也进行了测试,分别是8.95小时和7.92小时。每台设备在最大亮度下的功耗分别是2.8 W和5.37 W。在200尼特下,iPad 2最高可播放12.35小时,第三代iPad可运行11.28小时,视频负载期间的功耗分别换算为2.02 W和3.77 W。这意味着第三代iPad播放6 Mb/s 720p视频片段消耗的功率似乎比凌动播放20 Mb/s 1080p视频文件锁消耗的功率更多。

在与Tom相同的硬件720p测试条件下,采用Tegra 3的华硕Transformer Prime (25 Wh battery)在最大亮度下(3.00 W)可播放8.33小时,在200尼特下(2.31 W)可播放10.8小时。与Surface直接对比,这表明Transformer Prime更省电,这可能是由于安卓与Windows RT的对比,以及两款设备屏幕的差别。

谷歌Nexus 10标榜自己能够通过一块33.75 Wh电池连续播放9小时视频,这可换算为400万像素显示的功耗为3.75 W。我们稍后将修订Nexus 10的数据。

网页浏览情境下的功耗测试

\

\

尽管这些超细致的数据是在英特尔实验室产生的,但是我们至少可以确认的是,在三星ATIV Smart PC 500T上使用Chrome、Safari或IE10浏览器,Windows 8上凌动的性能大大高于Windows RT上Tegra 3的性能。我们还没有公布对三星凌动平板电脑的测评,但是可以参考以下图表:

\

现在,考虑到这一点,采用凌动处理器的宏基也具有更好的功耗性能。此外,很明显的是:显示页面的复杂性会影响功耗,英特尔凌动处理器在GPU和内存方面具有优势,而英伟达的ARM内核在更复杂的网页上功耗稍微少一些。

这种差别也可在测试设备的原始结果中看到:

\

谷歌的主页:注意缺乏活动

\

MSN主页更忙碌一些

第一张截图显示了谷歌主页的功耗,第二张截图则显示了msn.com的功耗。看到这些图标及其对应的功耗水平,我们应该很清楚,当实际绘制波动得相当厉害的时候,只将一个数字分配到表格的功耗使用上有多难。在捕获MSN截图的刹那间,宏基W510碰巧使用2.56 W的功耗,而Surface碰巧使用4.29 W的功耗。二者的平均值被换算为2.94 W和3.39 W(这也是我们在表格中所报告的)。
有趣的是,这些结果接近每家制造商所宣传的规格。宏基表示其W510的电池续航能力为9小时。如果你将头两个测试案例的2.94 W和3.28 W功耗平均计算(3.11 W),你会得出8.6小时的平均值。微软表示其Surface的电池续航能力是8小时。如果你将Windows RT平板电脑的头两行平均计算,会得出3.91 W的平均值;31.5 Wh的电池应支持8小时。

\

现在,在我们自己校准的200尼特测试中(在背景中添加了MP3播放),Surface可运行8:03。华硕的Transformer Prime可运行8:01(与Surface相同),但是它采用的是25 Wh电池,而不是Surface的31.5 Wh电源。因此,Transformer Prime的功耗大约是3.12 W。我们在前文看到,与Surface相比,我们估计Transformer Prime比微软平板电脑更省电,我们再次倾向将其归功于Android与Windows RT的对比,以及每个平台的显示器。

关于续航的一些推断

现在,我们进行一点点推断。英特尔以全屏和分屏模式使用负载网页的决策似乎与平板电脑提供商评定电池续航能力的方式是相符的。我们将其称为非正式的“我们不想因虚假广告而被起诉”的标准。

在Surface测试期间Andrew自己生成的数据(具体来说,通过开启Wi-Fi而进行网络浏览,并以200尼特来播放MP3)表明我们将看到8小时3分钟的运行时间。换句话说,我们的负载非常接近于提供商的内部测试数据。我们的测试可能任务更繁重,因为我们测试的iPad运行时间是9小时,而不是广告中宣传的10小时;Kindle Fire HD的运行时间是10小时,而不是广告宣传的11小时;Nexus 7的运行时间是7小时,而不是广告宣传的10小时。

在iPad2上,我们得到的测试结果是25 Wh电池可支持运行9.08小时(换算为2.75 W)。对于第三代iPad,42.5 Wh电池可支持运行9.25小时,换算为平均功耗是4.59 W。在此,我们了解到,iPad 2具有的超高效率是苹果的竞争对手无法企及的。我们还未在第四代iPad上运行这些数字,但是功耗应该是相似的,因为iPad 4也使用的是支持10小时混合使用的42.5 Wh电池。

\

谷歌的Nexus 10配备33.75Wh电池(4.28W用于4MP点显示屏),声称可以支撑7小时的上网时间。三星的Series 3 XE3030C12 Chromebook配备30Wh电池(4.62W用于13×7显示屏),声称6个小时。如果这意味着4MP显示屏需要消耗额外的0.20W电力,我们上篇推测Nexus 10在视频播放时消耗3.75W电力,那么,Chromebook在标准分辨率显示屏上播放视频将需要3.55W电力。这表明,粗略计算,采用Swift的A6X的第四代iPad比A15的能效更高。

我敢打赌,Cortex-A15在视频等低功耗应用下与凌动相当。但在更高功率的应用(讽刺的是,网络浏览就是需要更高功率的应用)下,它的能耗比凌动高大约50%。在一定程度上必须是这样,因为谷歌在广告中实际上提到了网络浏览时的电池续航时间要低于观看视频时。这些数字还表明,Cortex-A9在特定条件下的能效高于Cortex-A15。即使A15提高了性能,我们仍需要看看在热阈值限度内可以完成多少实际工作。
高通似乎没有落后,我们或许可以质疑它的Snapdragon S4,因为它的广告宣称“戴尔XPS 10的28 Wh电池可以运行10个小时”。这是最好的3.11W,也就是我们平均前两个英特尔负载数字时宏基W510所需要的。

英特尔的数字是合理的。很明显,凌动与目前的顶级SoC相当。根据我们的Transformer Prime数据,至少在Windows 8下,它的能效要高于运行Windows RT的Tegra 3,与运行安卓的Tegra 3接近。

对于网络浏览,我们的最佳预测是:1、凌动与高通Snapdragon S4中的Krait架构在能耗方面相当。2、凌动的能耗要优于Cortex-A15。

Windows 8手势功能:延迟与能耗

\

\

最后,我们测试了触控手势下的能耗:在分屏配置下的Windows 8用户界面上测试了必应地图和维基百科。如果没有合适的设备,这些东西很难量化,但几乎肯定是顺次使用两个设备。

无需赘言,我们再看一下内存控制器数字。不管是何种负载,凌动的能耗保持稳定,而Tegra 3的能耗随着负载复杂性的提高而增加。宏基W510的能耗在其它方面要高于Surface。但由于其CPU、GPU和内存控制器的能效更高,因此整个平台的能耗低于微软的平台。

在有关宏基W510的下一篇文章中,我们将讨论英特尔对内存控制的某些优化,以整合基准测试性能为代价提高触控响应能力。在这种情况下,第一列表明:在检测手势的延迟方面,宏基平板电脑的速度每次都要快于微软的平板电脑。Surface的最佳表现仍慢于凌动上的测试的六分之五的手势。但是,Surface的帧速率通常更高。在维基百科上进行捏操作时,凌动让帧速率降低了3%,但延迟方面速度快两倍。在必应地图的捏操作中,Surface的速度快11%,但延迟高60%。

x86和ARM的硬指标对比

虽然我们今天看到的数据来自英特尔,但我们亲临现场观摩并使用了英特尔的测试设备,观察测试结果。我们在之前发表的评测中进行了足够的分析,确认这些数字是合理的。英特尔选择了一个最轻松的对手(采用Tegra 3和Windows RT的微软Surface平板电脑),但我们初步估计认为32纳米凌动大体上相当于ATIV Tab中高通的28纳米APQ8060A,并且比Chromebook Series 3 XE303C12中32纳米Exynos 5 Dual的能效要高。

过去一周,我们观看了英特尔工程师拆卸平板电脑并发现了关键点:其中,微焊点导致了特定SoC和平台子系统出现Fluke毫米能耗数据的有趣版本。英特尔不允许拍照,要求我们把相机放到具体房间之外。但我们确实亲身体验到,甚至能够测试加载Tom硬件频道主页的能耗要求。我们自己推算出的基准测试数据与英特尔的数据一致。在空闲时,英伟达Tegra 3的能耗与凌动相当。但当负载要求提升时,英特尔的领先幅度会扩大。

英特尔的数据是否会因为校准错误而不准确?当然,这是可能的。科学家也曾因为校准错误而认为自己发现了速度超过光速的粒子。因此,我们使用每个设备电池的Wh容量进行了粗略估算,对比电池续航时间并解出瓦特数,表明这些数字是可信的。

\

总结

细化采用两种架构的当前平台的能耗可以发现,x86 ISA的能效天然地低于ARM的传言是不准确的。它们在多数情况下都差不多。微软Surface与宏基W510对比结果显示,凌动平板电脑优于英伟达的Tegra 3。

总之,我们的分析表明:基于ARM的CPU在空闲时的表现非常好,但在计算密集型工作负载中开始需要更多的能源。即使在空闲情况下,宏基W510的能耗也低于微软Surface。在这种情况下,CPU内核不动,但图形内核仍在刷新屏幕并从内存中读取。持续的读取会消耗内存控制器,这是凌动保持低功耗的原因之一。在更繁重的负载下,Tegra 3受到双重打击——CPU能耗和内存控制器的使用快速增加。

制造技术是英特尔明显的优势之一,但其内存控制器的效率在能耗方面的优势也很明显。英特尔和AMD都指出了ARM在转向6位乱序执行时面临的挑战,因为两家公司多年来一直在优化其配置。优化内存控制也是英特尔和AMD的研发重点之一。需要进一步的证据?我们的计算(以及与多家公司的匿名工程师进行的交流)表明,苹果的CPU设计也拥有高效的内存控制器。Jim Keller在A4、A5和A6 SoC的开发过程中在苹果工作,并且也在AMD Athlon 64及集成内存控制器的开发中扮演关键角色。

凌动高能效背后的秘密很简单。CPU在空闲时的缺憾在有负载的情况下得到了弥补,而总是活跃的内存子系统也更加高效。在廉价上网本领域,虽然英特尔给很多人的形象仍然是低功耗计算和图形,但Z2760是与N450不同的芯片。

\

人们会仔细地审查英特尔工程师进行的基准测试。但随着我们亲身测试更多基于凌动的Windows 8平板电脑,我们能够获得自己的性能和能耗数据。英特尔细致的测量有助于我们把工作负载放到具体环境中并更好地解释我们在现实世界中看到的数据。

我们自己的结果和英特尔的结果对比表明,移动行业存在很多错误的信息。在我们在自己的实验室实际测试基于凌动的硬件之前,ARM比x86的能效更高的说法很容易接受。Cortex-A9内核的速度低于凌动,因此它的能效应当更高。当我们看到A15的性能数据以及其架构有多快时,x86似乎注定失败。但人们会一直质疑A15的能耗是否仍有优势,还是为了性能而提高了能耗。在开始测试给定容量下的电池续航时间时,我们开始考虑具体任务中的实际能耗。