Arm v9:十年來首個新架構(gòu)加倍關(guān)注人工智能和安全性,介紹第一部分
Arm 推出了重大架構(gòu)修訂版 Arm v9,它為安全、機密計算和人工智能提供了額外的功能,并提高了整體性能。Arm 表示,預計 v9 將在接下來的兩代移動和基礎設施中實現(xiàn) 30% 以上的性能提升。迄今為止,最常見于 GPU 的 AI 功能將在公司的 GPU、CPU 和 NPU 中提供。
Arm 之前的架構(gòu) v8 是十年前推出的,Arm 預計 v9 將在未來 10 年主導從物聯(lián)網(wǎng)到超級計算應用的計算芯片。
“即使我仍然對我們的技術(shù)變得如此普遍感到驚訝,”Arm 首席執(zhí)行官西蒙·塞格斯 (Simon Segars) 說。“一年后,我們的合作伙伴將累計出貨2000億顆芯片。把它放在上下文中,這個數(shù)字的一半,第一個 1000 億需要 26 年才能進入市場。如果我們的預測是正確的,那么第二個 1000 億芯片將在短短五年內(nèi)出貨。我們的目標是讓最廣泛的開發(fā)人員能夠在 Arm 上快速編寫和運行?!?
Arm 強調(diào),v9 將是一個長達十年的項目,v9.1、v9.2 等預計將從現(xiàn)在開始以每年的節(jié)奏推出。首次發(fā)布時宣布的主要功能主要涉及兩個領域:Arm 的響應全球?qū)o處不在的專業(yè)計算的需求,并努力提高每個應用程序的安全性。
“Arm v9 是一個滾動計劃,對我們將在未來幾年部署的架構(gòu)進行了重大改進,提高了數(shù)字信號處理和機器學習等廣泛應用領域的計算能力,并提高了我們的安全性和穩(wěn)健性。系統(tǒng),”高級副總裁、首席架構(gòu)師兼 Arm 研究員 Richard Grisenthwaite 說。
CPU 性能
Arm 研究員兼技術(shù)副總裁 Peter Greenhalgh 描述了為未來計算機開發(fā)處理器 IP 的挑戰(zhàn),包括移動、汽車和基礎設施市場中日益復雜、不斷發(fā)展的異構(gòu)工作負載。先進的工藝節(jié)點可以彌補一些不足,但成本高昂并且會延長生產(chǎn)時間。
“要求新芯片必須為人們今天關(guān)心的傳統(tǒng)計算工作負載以及人們明天關(guān)心的未來工作負載提供出色的投資回報率,”他說。“鑒于在絕對成本和市場窗口影響方面流片失敗的高成本,還需要使用經(jīng)過驗證的高質(zhì)量 IP。在 Arm v9 的十年中,我們將提供能夠?qū)崿F(xiàn)市場所需性能和質(zhì)量的技術(shù)?!?
轉(zhuǎn)向 Arm v9 預計將在接下來的兩代移動和基礎設施中實現(xiàn) 30% 以上的性能提升。Arm 正在研究最大化頻率、帶寬、緩存大小和減少內(nèi)存延遲的技術(shù),以最大限度地發(fā)揮 CPU 的性能。
Greenhalgh 補充說,雖然關(guān)于專用加速器的優(yōu)點存在一些爭論,但視頻處理器和 AI/ML 加速器“將繼續(xù)存在”。然而,當今商業(yè)工作負載的需求意味著加速器必須是可編程的——這包括從庫和 C 編譯到虛擬化的所有內(nèi)容,以便它們可以在云環(huán)境中輕松使用,一直到調(diào)試和性能分析。加上對安全性的要求,你的加速器設計突然變得更像 CPU,他說。
“從這個角度來看,我們的信念是,我們應該繼續(xù)擴展 CPU 架構(gòu),以便我們的 CPU 可以加速更多的工作負載,并以可編程、受保護、普及和經(jīng)過驗證的方式來加速,”Greenhalgh 說。“如今,無法忽視移動市場中一些 AI 和 DSP 工作負載的碎片化程度,以及它們?nèi)绾螐暮喜⒌?CPU 環(huán)境中受益。這就是我們想要推動我們的架構(gòu)和計算設計的地方。”
AI/ML 擴展
Arm v9 將引入許多專用于 AI 的新功能,包括在其整個 CPU、GPU 和 NPU 產(chǎn)品組合中增加對 AI 的硬件支持。這是基于 Arm 的信念,即所有處理器都需要處理 AI 工作負載,從超級計算到云再到端點設備。
“我們相信,專門構(gòu)建的系統(tǒng)設計將成為所有形式計算創(chuàng)新的關(guān)鍵,”格里森斯韋特說。“不同的計算問題需要不同的計算組件組合。許多物聯(lián)網(wǎng)設備需要解釋他們的世界,而 M profile 內(nèi)核與 Ethos-U55 microNPU 的組合是完美的。在汽車系統(tǒng)中,合作伙伴將越來越多地將許多大大小小的 CPU 與 GPU、NPU 和他們自己的 IP 相結(jié)合,為這些自主系統(tǒng)生成正確的計算解決方案。”
Arm Fellow、公司機器學習小組副總裁兼總經(jīng)理 Jem Davies 描述了這些不同的計算組件組合如何在 VR 耳機(大型 NPU 和 GPU 以及小型 NPU 和 CPU)、智能手機(大型 CPU 和 GPU 以及小型CPU 和 NPU)和物聯(lián)網(wǎng)設備(小 CPU 和 NPU)。
“對于這三個用例,理想情況下,您應該使用三種不同類型和大小的處理器構(gòu)建三個不同的片上系統(tǒng),”戴維斯說?!捌胶忮e誤,你有一個芯片太慢或成本太高,因為你投資了你不需要的處理,或者一個使用錯誤的處理器來處理工作負載并殺死你的電池或綠色能源等級......在選擇時人工智能的硬件,我們絕對看到一種尺寸并不適合所有人。適合一個合作伙伴、一種設備或一個用例的選擇根本不適用于其他地方?!?
Arm v8 引入了對 AI 處理中流行的 FP16 和 BFloat 算法的支持,以及稱為可擴展向量擴展 (SVE) 的功能。SVE 是與富士通等公司合作開發(fā)的 Fugaku 超級計算機處理器;它增加了矢量處理功能以提高 AI 和 DSP 性能。
“[SVE] 以可擴展的方式設計,因此用于超級計算機的概念可以應用于更廣泛的產(chǎn)品,”Grisenthwaite 說。“我們增加了創(chuàng)建 SVE2 的功能,即增強的可擴展矢量擴展,可以很好地適用于 5G 系統(tǒng)和許多其他用例,例如虛擬和增強現(xiàn)實,以及 CPU 內(nèi)的機器學習。在接下來的幾年里,我們將通過在 CPU 中執(zhí)行基于矩陣的計算方面的顯著增強來進一步擴展這一點?!?