麒麟980性能大揭秘：不負(fù)眾望

時(shí)間：2018-11-27 16:56:01

關(guān)鍵字： 20 mate 華為麒麟980

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]不久前外媒ChipRebel剛剛發(fā)布了華為Mate 20手機(jī)的拆解，并公布了麒麟980處理器的透視照片，讓我們有了一窺這款讓華為表示“穩(wěn)了”的處理器，并首次看到ARM全新Cortex A76 CPU和

不久前外媒ChipRebel剛剛發(fā)布了華為Mate 20手機(jī)的拆解，并公布了麒麟980處理器的透視照片，讓我們有了一窺這款讓華為表示“穩(wěn)了”的處理器，并首次看到ARM全新Cortex A76 CPU和全新Mali G76 GPU的真容。

當(dāng)高通和三星在2016年下半年發(fā)布驍龍835和Exynos 8895這兩款使用10nm LPE工藝的產(chǎn)品時(shí)，麒麟960卻只能選擇臺(tái)積電16nm FFC工藝，這種劣勢顯著的體現(xiàn)在芯片的能耗比方面。

麒麟970雖然縮小了制造工藝方面的差距，但由于其設(shè)計(jì)周期較早，錯(cuò)過了ARM當(dāng)時(shí)最新的Cortex A75架構(gòu)，只能基于Cortex A73架構(gòu)設(shè)計(jì)，而推出較晚的驍龍845則全面基于Cortex A75和Cortex A55設(shè)計(jì)。

在這次的麒麟980，華為終于再次集齊了最先進(jìn)的制造工藝和最新的架構(gòu)設(shè)計(jì)。從這方面來看，麒麟980背負(fù)著比麒麟970和麒麟960更大的期望和歷史任務(wù)，有望復(fù)制甚至超越幾年前麒麟950的成功。

濃縮的都是精品

雖然華為在此前公布麒麟980時(shí)表示其核心面積小于100mm²，但實(shí)際上麒麟980的硅片尺寸要比官宣還有要小得多，僅為74.13mm²。

在CPU、GPU、NPU及內(nèi)存等全面升級(jí)的情況下，麒麟980相比去年麒麟970的96.72mm²小了30％，可說是相當(dāng)驚人了。

芯片的左上角是全新的Mali G76 MP10 GPU集群，Mali G76達(dá)到Mali G72翻倍的性能只需132%的芯片面積，理論上單位面積性能提升了50%。華為將麒麟980的GPU面積維持在了11.97mm²，僅稍大于驍龍845中Adreno 630的10.69mm²，遠(yuǎn)小于Exynos 9810 Mali G72 MP18的24.53mm²和蘋果A12 GPU的14.88mm²。

GPU模塊右側(cè)是CPU模塊，Cortex A76架構(gòu)在核心尺寸方面仍然非常小巧，配備512KB L2緩存時(shí)的單核面積僅為1.26mm²，同樣遠(yuǎn)小于三星自研Exynos M3“貓鼬”架構(gòu)核心的3.5mm²，甚至比不含L2緩存的蘋果A12的Vortex架構(gòu)核心（2.07mm²）還要小。

此次華為充分利用了ARM的新DSU集群及異步CPU配置，將麒麟980中Cortex A76架構(gòu)的高性能CPU集群細(xì)分為兩組，高頻率的一組運(yùn)行在2.6GHz頻率上，另一組Cortex A76 CPU的運(yùn)行頻率為1.92GHz（這應(yīng)該是一個(gè)很好的能效比平衡點(diǎn)），各自運(yùn)行在不同的頻率和電壓上，可根據(jù)不同使用場景靈活調(diào)用，有效提升實(shí)際使用時(shí)的能效比。

緩存方面，所有Cortex A76都帶有推薦的512KB L2緩存配置，而CortexA55則采用128KB緩存。在最新的DynamIQ群集配置中，L2緩存是每個(gè)CPU核心獨(dú)占的。DSU中的L3緩存則為4MB共享式設(shè)計(jì)，容量為驍龍845和麒麟970的兩倍。

改進(jìn)的內(nèi)存延遲

SoC的存儲(chǔ)子系統(tǒng)對其性能表現(xiàn)至關(guān)重要，麒麟970便在這方面吃了一些虧，它在高頻率下運(yùn)行時(shí)似乎有些問題，這使得華為不得不在默認(rèn)情況下選擇降低其設(shè)備的頻率，導(dǎo)致了一些性能下降，尤其是在對內(nèi)存延遲敏感的工作負(fù)載中。

與麒麟970相比，麒麟980的內(nèi)存延遲得到了顯著改善。測試中使用的是完全隨機(jī)延遲，包括TLB未命中等在內(nèi)的所有可能的懲罰，但是這仍然是一個(gè)重要的性能指標(biāo)。

Cortex A76架構(gòu)的獨(dú)占L2緩存延遲非常出色，只有4ns，不到麒麟970中Cortex A73共享L2緩存延遲的一半。4MB共享L3緩存確實(shí)與CPU核心異步運(yùn)行，在測試中可以看到明顯的延遲懲罰，但仍然在合理范圍內(nèi)。

對比安卓陣營的幾款SoC，麒麟980的L3緩存看起來略慢于驍龍845，可能是由于華為略微降低了L3緩存的運(yùn)行頻率；Exynos 9810的緩存延遲最大，雖然在內(nèi)存延遲方面略有優(yōu)勢，但這是以很大的功耗代價(jià)沖擊高頻率換來的，當(dāng)核心運(yùn)行在合理的頻率上時(shí)，Exynos 9810的優(yōu)勢會(huì)喪失殆盡。

（PS：蘋果A12處理器在緩存和內(nèi)存延遲方面都遙遙領(lǐng)先，在所有指標(biāo)和深度上都展示了巨大的優(yōu)勢，讓安卓陣營的所有SoC都相形見絀。）

CPU性能和能耗比

華為在發(fā)布會(huì)上表示，麒麟980相比麒麟970可獲得75%的性能提升，能耗比則比麒麟970提高58％。演講中的PPT腳注顯示其能效數(shù)據(jù)基于Dhrystone，而Dhrystone非常專注于考驗(yàn)CPU核心，相對在內(nèi)存等其他方面不會(huì)給SoC帶來太大的壓力。

現(xiàn)在，使用麒麟980的Mate 20、Mate 20 Pro及Magic 2均已上市，SPECint2006和SPECfp2006的測試成績比華為的官宣更能體現(xiàn)這款處理器的真實(shí)性能水平。

下圖顯示了完成測試中的電能消耗量及平均功耗，左邊的條形表示消耗的能量，以J（焦耳）為單位，條形越短代表耗能越少，相應(yīng)的平臺(tái)的效率越高；右邊的條代表性能分?jǐn)?shù)，條形越長代表性能越強(qiáng)。

測試成績出人意料，麒麟980的SPEC2006性能達(dá)到了麒麟970的2倍，甚至超過了此前基于ARM Cortex A76架構(gòu)的預(yù)測。

CPU的能耗比則相比麒麟970只提升了28%，全新Cortex A76架構(gòu)和麒麟980的內(nèi)存子系統(tǒng)耗電量更大，SPECint測試中平均達(dá)到2.14W，SPECfp測試中達(dá)到2.65W，比麒麟970的1.38W和1.72W有顯著增加。

從這方面來看，ARM的新架構(gòu)是在以線性的方式提升功耗和性能，包括驍龍845的Cortex A75。當(dāng)然，只要控制好性能和功耗的關(guān)系，這樣的提升方式并不能說是消極的。

麒麟980的CPU性能是蘋果A12的57%~62%，功耗是蘋果A12的59%~62%，二者處理相同任務(wù)消耗的能量基本相同，這有什么不對的呢？

相比之下，Exynos 9810是個(gè)典型的反例，在沖擊高頻時(shí)付出了極大的功耗代價(jià)，卻沒有表現(xiàn)出與之相匹配的性能提升，能效比極差。

在SPECint2006測試中，麒麟980或者說Cortex A76同樣在各方面都表現(xiàn)出了相當(dāng)均衡的性能，在403.gcc測試項(xiàng)中的成績相比麒麟970提高了2.67倍。而456.hmmer和464.h264ref是SPECint2006測試中兩個(gè)最強(qiáng)的后端綁定測試中，Cortex A76也展示了與其時(shí)鐘頻率及亂序4發(fā)射前端相符的分?jǐn)?shù)。

在這一測試中，驍龍845的內(nèi)存延遲表現(xiàn)不太好，因?yàn)樗腖4系統(tǒng)緩存塊在規(guī)格上確實(shí)有一點(diǎn)缺陷。

在SPECfp2006的結(jié)果中，麒麟980同樣展現(xiàn)出了大幅度的進(jìn)步。

總而言之，麒麟980在所有測試中都有著全面改進(jìn)，在性能和能耗方面的表現(xiàn)都非常出色。麒麟980以及ARM的Cortex A76都兌現(xiàn)了他們的承諾，甚至超過了此前人們根據(jù)官方消息所做的預(yù)測。

當(dāng)然，麒麟980的絕對性能還無法與蘋果的A12相比，而且這種情況很可能在接下來的幾代中不會(huì)發(fā)生太大變化，至少在安卓陣營的這些SoC廠商設(shè)計(jì)出更好、更健壯的內(nèi)存子系統(tǒng)之前都會(huì)是這樣。

GPU性能和能耗比

GPU的性能和能耗比一直是麒麟960和麒麟970的一大痛點(diǎn)，而麒麟980是世界上第一款使用了ARM全新Mali G76 GPU的SoC，華為表示麒麟980的GPU性能相比麒麟970提升46％，能耗比則大幅提升178%。

在3DMark Sling Shot Extreme Unlimited的圖形測試中，Mate 20和Mate 20 Pro都展現(xiàn)出了可觀的峰值性能值，與麒麟970相比提升相當(dāng)顯著，但在達(dá)到熱平衡之前仍然有較大的波動(dòng)。

在GFXBench測試最新的Aztec Ruins Vulkan場景中，高質(zhì)量模式下，Mate 20和Mate 20 Pro的性能表現(xiàn)在安卓陣營里獨(dú)樹一幟：峰值性能并不是特別高，但持續(xù)性能幾乎與峰值性能相同。而在普通質(zhì)量模式下，Mate 20 Pro則表現(xiàn)出比Mate 20更高的持續(xù)性能。

在GFXBench測試的曼哈頓3.1場景中，麒麟980的峰值性能和持續(xù)性能也均有可觀的提升。與Aztec Ruins Vulkan場景相比，Mate 20和Mate 20 Pro在曼哈頓3.1場景中的峰值性能和持續(xù)性能表現(xiàn)出了正常的差異，性能與大多數(shù)驍龍845設(shè)備相當(dāng)。

遺憾的是，麒麟980的性能表現(xiàn)和此前的預(yù)測非常吻合，但能耗比與預(yù)測相差較大，功耗要比此前預(yù)測的3.5瓦高出1W，最終麒麟980的能耗比相比麒麟970提高了100％，仍然是相當(dāng)大的代際改進(jìn)。

外媒Anandtech表示，此前華為官宣的178％能耗比提升，可能是指麒麟980在與麒麟970相同的性能時(shí)的比較。

而在T-Rex測試場景中，麒麟980相比麒麟970的峰值性能提升幅度要小得多，在Mate 20 Pro上的持續(xù)性能只提升了50%。但T-Rex測試場景已經(jīng)比較老舊，在現(xiàn)代SoC上的幀速率普遍非常高，通?？蛇_(dá)到一二百幀，因此在許多方面都會(huì)受到制約，很難搞清楚瓶頸究竟在哪里，參考價(jià)值遠(yuǎn)不如更加現(xiàn)代的曼哈頓3.1和Aztec Ruins Vulkan測試場景。

第二代NPU

在去年1月測試麒麟970的NPU性能時(shí)，可選的測試軟件只有魯大師的AI測試，但它不支持華為的HiAI API，相關(guān)運(yùn)算均依靠CPU實(shí)現(xiàn)進(jìn)行處理。不幸的是，到了麒麟980和Mate 20上依然如此。

“AI-Benchmark”是由瑞士ETH蘇黎世計(jì)算機(jī)視覺實(shí)驗(yàn)室的Andrey Ignatov開發(fā)的新基準(zhǔn)測試程序，也是第一個(gè)廣泛使用Android 8.1新NNAPI，而不依賴于每個(gè)SoC供應(yīng)商自己的SDK工具和API的基準(zhǔn)測試程序。AI-Benchmark應(yīng)該能夠更好地準(zhǔn)確地表示從使用NNAPI的應(yīng)用程序所預(yù)期的最終NN性能。

需要記住的一點(diǎn)是，NNAPI不僅僅是一些能夠在NPU上運(yùn)行神經(jīng)網(wǎng)絡(luò)模型的通用轉(zhuǎn)換層，而且API和SoC供應(yīng)商的底層驅(qū)動(dòng)程序必須能夠支持公開的函數(shù)，并且能夠在IP塊上運(yùn)行它。這里的區(qū)別在于，使用NNAPI尚未支持的特性（必須退回到CPU上運(yùn)算）的模型和能夠硬件加速并對量化的INT8或FP16數(shù)據(jù)進(jìn)行操作的模型。還有一些模型依賴于FP32數(shù)據(jù)，這里同樣依賴于底層驅(qū)動(dòng)程序，它可以在CPU上運(yùn)行，也可以在GPU上運(yùn)行。

前三個(gè)CPU測試項(xiàng)使用了NNAPI尚未支持的函數(shù)的模型，影響性能的僅僅是CPU性能以及性能響應(yīng)時(shí)間，這意味著DVFS和調(diào)度器響應(yīng)等機(jī)制可能對結(jié)果產(chǎn)生巨大影響，比如Galaxy S9上的表現(xiàn)就要明顯優(yōu)于同為Exynos 9810處理器的Note9。

盡管如此，將麒麟970與麒麟980進(jìn)行對比，依然展示了Cortex A76強(qiáng)大的性能，以及華為的DVFS/調(diào)度器方面可能的改進(jìn)。

接下來的測試項(xiàng)基于8位整數(shù)量化的NN模型。不幸的是，華為手機(jī)的NNAPI驅(qū)動(dòng)程序似乎仍未提供硬件加速，這些測試沒有使用麒麟處理器上的NPU，測試結(jié)果展示的依然是CPU性能，華為表示計(jì)劃在未來版本的驅(qū)動(dòng)中修正這個(gè)問題。

在使用驍龍845的設(shè)備中，一加6和Pixel 3在性能上遙遙領(lǐng)先，甚至相比同為驍龍845的Galaxy S9+也是如此，原因是這兩款手機(jī)都使用了高通公司最新更新的NNAPI驅(qū)動(dòng)程序，該驅(qū)動(dòng)程序與Android 9/P BSP一起發(fā)布，可通過HVX DSP加速NN應(yīng)用。

接下來的FP16測試項(xiàng)終于啟用了麒麟處理器的NPU，并且在新老兩代處理器上都取得了領(lǐng)先的成績。在這里麒麟980的雙核NPU終于得以體現(xiàn)，Mate 20展現(xiàn)出了碾壓性的巨大領(lǐng)先優(yōu)勢。不過一加6似乎在其NNAPI驅(qū)動(dòng)程序中出現(xiàn)了一些非常奇怪的問題，使得它的性能比其他平臺(tái)差一個(gè)數(shù)量級(jí)，不知道這項(xiàng)測試是跑在了其CPU上還是GPU上。

而在最后的FP32測試項(xiàng)中，大多數(shù)手機(jī)都再次回到CPU上進(jìn)行運(yùn)算，麒麟980的改進(jìn)有限。

總體而言，AI-Benchmark至少驗(yàn)證了華為對NPU性能的宣傳并非虛言，不過從這些測試結(jié)果中得出的真正結(jié)論是，大多數(shù)具有NNAPI驅(qū)動(dòng)程序的設(shè)備目前本身尚不成熟且功能仍然非常有限，與蘋果如今的CoreML生態(tài)系統(tǒng)相比相差甚遠(yuǎn)。

總結(jié)

麒麟980的CPU性能表現(xiàn)應(yīng)該在很大程度上可以代表下一代驍龍8150的情況，高通或許會(huì)在CPU頻率上稍稍提升一些，但最大的問題在于內(nèi)存子系統(tǒng)方面，高通能不能解決L4系統(tǒng)緩存引入的延遲懲罰問題。

Cortex A76對于三星來說就實(shí)在是太可怕了，如果Exynos 9820所用的Exynos M4架構(gòu)只是一次常規(guī)迭代，說實(shí)話在Cortex A76面前是沒什么競爭力的。三星需要在性能和能耗比兩個(gè)方面均作出重大改進(jìn)，才能與麒麟980相匹敵。

GPU方面，能耗比方面與此前的預(yù)測存在差距，這恐怕不能直接甩鍋給華為的芯片設(shè)計(jì)，因?yàn)锳RM玩GPU確實(shí)比從桌面端過來的Imagination和高通（GPU團(tuán)隊(duì)來自ATI）差得遠(yuǎn)。

雖然三星Exynos SoC的GPU能耗比要好于麒麟SoC，Exynos 9810的能耗比甚至非常接近于驍龍845，但這是三星犧牲了相當(dāng)大的芯片面積來堆砌GPU核心數(shù)換來的。雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))經(jīng)過思考和對比后認(rèn)為，華為之所以選擇“少核高頻”的策略，很可能是為了在有限的空間內(nèi)給NPU騰地方不得已而為之。

Exynos 9810的GPU面積很大（24.53mm²），使其可以將頻率壓低到只有560MHz左右，以此換來了尚可的功耗表現(xiàn)。之所以這樣操作，是因?yàn)槿怯凶约旱陌雽?dǎo)體工廠，且Exynos 9810既沒有集成NPU，也不是麒麟970這樣動(dòng)輒出貨量三五千萬的走量主力產(chǎn)品，更多的是作為一款產(chǎn)品象征性地存在，最終才能以118.94mm²這樣一個(gè)屬于平板級(jí)的巨大芯片面積問世。

根據(jù)不久前公布的消息，三星下一代集成NPU的Exynos 9820也只采用了Mali G76 MP12的配置，遠(yuǎn)不如以前動(dòng)輒MP18或MP20那么豪邁了，自然頻率也不可能像此前一樣低至560MHz左右，很可能達(dá)到與麒麟980相仿或更高的水平，具體參數(shù)以及實(shí)際表現(xiàn)如何，只有等Exynos 9820的具體參數(shù)和測試成績公布后才能得知了。

移動(dòng)SoC帶上NPU越來越成為廠商的趨勢，未來隨著越來越多的APP開始使用到它，擁有先發(fā)優(yōu)勢華為將可把它轉(zhuǎn)化成更大的市場優(yōu)勢。

via：AnandTech