最近魯大師公布了2020年第一季度的手機AI芯片排行榜,其中高通驍龍865以112309的得分排名第一,蘋果A13排名第二,得分為59050;華為麒麟990排名第三,得分為58014。
同時,排名前十的AI芯片中,有六款來自高通的驍龍移動平臺,除了驍龍865之外,還有驍龍855/855+、驍龍765G、驍龍845和驍龍670AIE。
以手機為中心的智能硬件產(chǎn)業(yè)在這些年的發(fā)展量變過程中,一個重要的前進方向一定是“越來越智能”,這個智能不僅僅是能幫你在拍照的時候變個臉,或者通話的時候變個聲,亦或是對和語音助手說“明天晚上提醒我看的直播”然后它照做,而是真正能“變成你肚子里的蛔蟲”,隨時都能知道你想要干什么,然后提供相關(guān)的服務。
想要實現(xiàn)這個“理想”,不僅需要軟件算法層面的創(chuàng)新,更基礎(chǔ)的,還需要硬件上的支持,這里的硬件,主要就是指AI芯片。
從上面AI芯片的榜單中,我們能夠看到目前主流的移動端芯片制造商都在大力加碼AI芯片的布局,而這其中,來自高通的驍龍移動平臺在AI方面的表現(xiàn)可以說很搶眼,那么這背后又有哪些值得你去了解的知識點呢?
強大AI性能表現(xiàn)背后的獨特架構(gòu)如果僅用上文魯大師手機AI芯片排行的一紙榜單來介紹驍龍移動平臺在AI方面的表現(xiàn),或許有些蒼白。這里不妨通過市售驍龍865手機的兩個AI用例來進行說明。
我們知道,高通驍龍移動平臺的AI能力主要由AI Engine人工智能引擎提供支持,到驍龍865就是第五代AI Engine。而在這第五代AI Engine的加持下,驍龍865手機能夠?qū)崿F(xiàn)過去無法想象的AI功能特性。
例如有一個比較實用的,就是AI的實時翻譯,這在vivo NEX 3S手機上有著重要應用。在這款手機自帶的App中,通過“對話”功能,就可以實現(xiàn)對語言的實時翻譯。
錄制了一段實時翻譯的演示視頻,大家可以看一下:
可以看到,vivo NEX 3S的確可以將一段英語的朗讀內(nèi)容實時地翻譯成中文,翻譯的結(jié)果也能夠讓人滿意,盡管難免有局部不準確的地方,但至少可以讓人看懂這段語音講了什么內(nèi)容。
我們知道,實時翻譯對于智能手機來說不是一件簡單的任務,它需要模擬人腦的思維方式,實時處理接受到的語音信息,并將之翻譯為文本或語音,對神經(jīng)網(wǎng)絡(luò)運算的運算量、速度都有極為嚴苛的要求,需要極為強大的算力支撐。
另一個用例是游戲的實時插幀。這個用例我們用今年3月推出的努比亞紅魔5G手機來演示。這款手機在第五代AI Engine的加持下,做出了Touch Choreographer游戲插幀技術(shù),支持不少游戲的實時插幀。在測試時,選擇了這款游戲。
實測在進行游戲時,紅魔5G手機運行的平均幀率可以達到141.5fps,幀率波動大約9幀左右,畢竟是插幀效果,幀率波動大一些可以理解,由于本身已經(jīng)是如此高的幀率,這種波動在游玩過程中是絲毫察覺不到的。
幀率對游戲體驗的重要性不言而喻,而通過高通驍龍移動平臺的AI Engine,可以實現(xiàn)游戲中實時插幀,無疑可以大大提升游戲體驗。
上面這兩個用例存在一些共性,這些共性恰恰能夠體現(xiàn)驍龍移動平臺AI Engine的特性和優(yōu)勢。
首先,這兩個用例都需要CPU、GPU等手機處理器的核心運算部件的參與才能實現(xiàn),其次,這兩個用例都需要強大的AI算力的支撐,還有就是,這些AI用例的實現(xiàn)都是在終端上進行的。
對于移動終端上的AI應用來說,因為手機自身的計算能力、電量和存儲空間的限制,想要滿足這些需求,對處理器的AI性能就有著很高的要求。而高通驍龍的AI Engine正好以滿足移動終端的AI需求為基礎(chǔ)進行設(shè)計的。
此前已經(jīng)為大家做過很多詳細介紹,驍龍AI Engine人工智能引擎,就是利用異構(gòu)并行計算的解決方案,調(diào)用采用CPU、GPU,以及獨家的面向AI處理的硬件核心Hexagon處理器,合理利用三大硬件核心各自的運算優(yōu)勢和特性,在底層AI框架(Caffe等)以及系統(tǒng)、軟件(SDK等)的調(diào)配下,來進行AI運算。這就充分運用了移動設(shè)備各個運算核心的性能。
在第五代AI Engine中,高通更是集成了更多運算核心,包括CPU、GPU、Hexagon處理器、ISP、Qualcomm傳感器中樞(Sensing Hub)、安全處理單元、調(diào)制解調(diào)器,甚至Quick Charge等等,這些核心共同為AI運算提供支持,特別是其中主要運算核心性能的提升,驅(qū)動AI Engine整體算力大幅上漲。其中,驍龍865的Adreno? 650 GPU改善了浮點運算和AI性能,TOPS提升了2倍,Hexagon 698處理器通過全新張量加速器將TOPS提升4倍,Kryo? 585 CPU的性能相比上代提升了25%,能效提升25%。
在這些因素的驅(qū)動下,驍龍865移動平臺的第五代AI Engine的AI性能相比上一代提升了2倍多,具體到體運算力上,可以達到15 TOPS,也就是每秒15萬億次運算的水平。
除了性能的提升,第五代AI Engine還對每個內(nèi)核進行大幅優(yōu)化和提升,更重視整體芯片架構(gòu)面向AI計算的高效率和靈活性。
以Hexagon 698處理器為例,它采用了可執(zhí)行多維度的數(shù)據(jù)架構(gòu),包括零階張量(標量)、一階張量(向量)、二階張量(矩陣),以及更高階張量。
因為在終端側(cè)運行的一些神經(jīng)網(wǎng)絡(luò),有適合在標量處理器上運行的,也有適合整個在向量處理器上進行的,還有的則需要通過張量處理器來處理。高通AI Engine的異構(gòu)架構(gòu),則可以根據(jù)不同需求,靈活調(diào)度處理核心,對于移動終端而言功耗更低、效率更高。
終端側(cè)AI的高效優(yōu)勢5G,將引領(lǐng)我們進入一個新的時代,一個萬物互聯(lián)的時代,5G時代就像一張大網(wǎng),將電視機、汽車、冰箱、洗衣機、空調(diào)、音箱、甚至電表水表等等海量設(shè)備,無數(shù)終端,都網(wǎng)羅在內(nèi)。這些海量終端彼此通信連接,就需要進行AI運算。那么這時候就不得不考慮一個問題了:這些AI運算是放在云端進行,還是在終端進行?
終端側(cè)AI,就是針對這個問題產(chǎn)生的,顧名思義,它的意思就是數(shù)據(jù)的采集、計算、決策都在前端設(shè)備本地進行。
我們的答案是,終端側(cè)更符合5G萬物互聯(lián)時代的發(fā)展大勢。因為如果是在云端進行AI運算,要考慮到,目前全球已有數(shù)十億的聯(lián)網(wǎng)終端,未來只會越來越多,海量終端彼此互連并感知周圍環(huán)境。產(chǎn)生的海量數(shù)據(jù)全部傳給云端進行處理和管理,不容易,也不現(xiàn)實,更影響體驗。
而相較于云端AI,終端側(cè)AI擁有更好的隱私性、更高的可靠性和更低的時延,同時高效利用網(wǎng)絡(luò)帶寬。
當然,把AI運算放在終端,不等于解決了一切問題。以智能手機為例,AI運算本身需要反復、高強度的運算環(huán)境,智能手機的計算能力、電池、存儲空間等方面都可能是個問題,所以終端側(cè)AI首先要解決的問題就是怎樣在消耗資源最少的情況下,實現(xiàn)性能或是結(jié)果的最優(yōu)化。
這也是高通在AI Engine中引入Hexagon 張量加速器的原因,因為Hexagon支持的是8位和16位的定點運算,而定點運算有助于模型更快的運行,同時能耗也更低。這對于無法高效進行浮點運算的移動終端和嵌入式應用尤其重要。Hexagon 張量處理器的加入,可以大大提高AI Engine的整體運算效率,降低功耗。
同時,移動端很多AI用例都是并行用例,在處理這些用例的時候,往往有大量數(shù)據(jù)進入到終端,處理這些海量數(shù)據(jù),一定會對手機的性能資源、功耗造成不小壓力。
針對這個問題,高通在AI Engine中開發(fā)了一項全新的專用技術(shù),叫做深度學習帶寬壓縮。這項技術(shù)能夠?qū)@些海量數(shù)據(jù)進行高達50%的壓縮,從而將需要進入到芯片處理的數(shù)據(jù)壓縮一半,以節(jié)省電能、降低功耗。這是一項完全無損的壓縮技術(shù),也就是說所有數(shù)據(jù)的精度不會有任何損失。在處理一些對AI性能要求極高的用例時,LPDDR5內(nèi)存可以釋放更大帶寬,同時傳輸更多數(shù)據(jù)。
通過這些技術(shù),高通提升了AI Engine不斷提升在終端側(cè)進行AI運算的效率,功耗也不斷降低,這為未來移動端更深入、更全面的AI用例夯實了基礎(chǔ)??梢韵胂螅磥韺⒊霈F(xiàn)的狀態(tài):集中式的云端AI在大數(shù)據(jù)訓練以及支持時延不敏感的內(nèi)容和存儲中發(fā)揮著重要作用,而AI的具體執(zhí)行卻會越來越多的在無線邊緣的海量終端上,兩者相輔相成,互為補充。
從這一角度來說,高通AI Engine無疑是終端側(cè)AI的重要推動者,驅(qū)動未來由各個智能終端構(gòu)建的智慧化場景。
總結(jié):AI Engine表現(xiàn)出色的關(guān)鍵通過上面的介紹,我們可以總結(jié)出高通驍龍移動平臺的AI Engine人工智能引擎能夠有出色的AI表現(xiàn)的關(guān)鍵,首先是整合CPU、GPU、DSP、ISP、傳感器中樞等各個硬件的異構(gòu)并行計算的架構(gòu)在AI運算方面天然契合的優(yōu)勢,換句話說就是系統(tǒng)級硬件設(shè)計的優(yōu)勢;其次,是高通AI Engine采用了靈活的架構(gòu)設(shè)計,能夠滿足不同的AI用例的需求;第三,就是在終端側(cè)層面提高AI運算能效的努力,對高能效AI運算有著深刻的理解。
由此,AI Engine被打造成運算速度更快,運算精度更高、功耗更低、支持的用例更多的AI運算平臺,對于當前移動終端AI應用體驗的提升,以及未來全場景智慧化服務的構(gòu)建,都大有裨益。