網(wǎng)紅CNN技術(shù)也要玩移動(dòng)端了 但沒有專門DSP可不行
網(wǎng)紅級(jí)別的CNN(卷積神經(jīng)網(wǎng)絡(luò)技術(shù))已經(jīng)開始應(yīng)用在車載、監(jiān)控安防、無人機(jī)和移動(dòng)/可穿戴設(shè)備中,以提升這些設(shè)備的圖像識(shí)別能力。傳統(tǒng)的解決方案是由圖像DSP加硬件加速器來完成,但效率低下且耗能較高,新的技術(shù)因此呼之欲出。
近日,Cadence公司正式公布業(yè)界首款獨(dú)立完整的神經(jīng)網(wǎng)絡(luò)DSP —Cadence®Tensilica® Vision C5 DSP,面向?qū)ι窠?jīng)網(wǎng)絡(luò)計(jì)算能力有極高要求的視覺設(shè)備、雷達(dá)/光學(xué)雷達(dá)和融合傳感器等應(yīng)用量身優(yōu)化,可以勝任目前的CNN計(jì)算任務(wù)。
CNN是兩位科學(xué)家在上世紀(jì)60年代研究貓大腦時(shí)所提出的概念,經(jīng)過多年演化,已經(jīng)進(jìn)入了實(shí)用領(lǐng)域。去年人機(jī)大戰(zhàn)的勝者阿法狗就是CNN結(jié)合深度學(xué)習(xí)的產(chǎn)物。目前,CNN正以“令人難以置信”的速度飛快演進(jìn)。“不僅每隔幾個(gè)月就會(huì)誕生新的神經(jīng)網(wǎng)絡(luò)算法,而且在2012-2015年這短短的3年時(shí)間內(nèi),神經(jīng)網(wǎng)絡(luò)算法的復(fù)雜度也增加了16倍,遠(yuǎn)遠(yuǎn)超過摩爾定律的發(fā)展速度”,Cadence公司Tensilica事業(yè)部市場高級(jí)總監(jiān)Steve Roddy說。
CNN 的應(yīng)用領(lǐng)域非常廣泛,主要包括圖像和模式識(shí)別、語音識(shí)別、自然語言處理,以及視頻分析。從智能手機(jī)到智能手表,從高級(jí)駕駛輔助系統(tǒng)(ADAS)到虛擬現(xiàn)實(shí)游戲機(jī),再到無人機(jī)控制和安防設(shè)備,依賴高分辨率成像(1080p,4K,甚至更高)的應(yīng)用領(lǐng)域正在快速發(fā)展。
通用CPU/GPU是CNN主流的應(yīng)用平臺(tái),不過這種方法更適合于數(shù)據(jù)中心。Steve Roddy認(rèn)為,CPU/GPU有強(qiáng)大的計(jì)算能力,但是功耗、體積都限制了它們在移動(dòng)端的應(yīng)用。還有重要的一點(diǎn),前方采集的數(shù)據(jù)回傳到數(shù)據(jù)中心是需要時(shí)間的,這就影響了應(yīng)用端面對(duì)復(fù)雜情況的處理能力。
就像Google開發(fā)自己的TPU一樣,前端設(shè)備也需要自己的專用處理器,這也是Vision C5 DSP誕生的原因。我們來看看這顆處理器的能力:
• 不到1mm2的芯片面積可以實(shí)現(xiàn)1TMAC/秒的計(jì)算能力(吞吐量較Vision P6 DSP提高4倍),為深度學(xué)習(xí)內(nèi)核提供極高的計(jì)算吞吐量;
• 1024 8-bit MAC或512 16-bit MAC 確保8-bit 和16-bit精度的出色性能;
• 128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構(gòu);
• 專為多核設(shè)計(jì)打造,以極少的資源代價(jià)獲得NxTMAC的處理能力;
• 內(nèi)置iDMA和AXI4總線接口;
• 使用與Vision P5和P6 DSP一致的經(jīng)驗(yàn)證軟件工具包;
基于業(yè)界知名的AlexNet CNNBenchmark,Vision C5 DSP的計(jì)算速度較業(yè)界的GPU最快提高6倍;Inception V3 CNN benchmark,有9倍的性能提升。
下面這張圖比較了Vision C5 DSP與其他幾種方案的特點(diǎn)。從圖中可以看出,在易于開發(fā)、能效、升級(jí)空間和單核運(yùn)算能力方面,Vision C5 DSP都處于絕對(duì)的優(yōu)勢。
Steve Roddy指出,通用CPU/GPU加硬件加速器有一個(gè)重大的弊病。那就是,通用CPU/GPU與硬件加速器執(zhí)行CNN運(yùn)算時(shí)會(huì)進(jìn)行海量數(shù)據(jù)傳輸,這樣不但會(huì)占用相當(dāng)?shù)馁Y源,并且會(huì)帶來驚人的能耗。
另外,硬件加速器屬于ASIC,從設(shè)計(jì)到投產(chǎn)會(huì)有很長時(shí)間,完全趕不上技術(shù)發(fā)展的速度,Steve Roddy補(bǔ)充。
以基于攝像頭的視覺系統(tǒng)為例,目前此類系統(tǒng)在汽車、無人機(jī)和安防領(lǐng)域最為常見。這種架構(gòu)需要兩種最基礎(chǔ)的視覺優(yōu)化計(jì)算模式:首先,利用傳統(tǒng)視覺算法對(duì)攝像頭捕捉到的照片或圖像進(jìn)行增強(qiáng);其次,使用基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知算法對(duì)物體進(jìn)行檢測和識(shí)別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴與圖像DSP連接的硬件加速器,神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運(yùn)行在DSP上,卷積層則運(yùn)行在硬件加速器上,直接導(dǎo)致架構(gòu)效率低下,且耗能較高。
Vision C5 DSP是專門針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的DSP,可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像DSP能力得以釋放,獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用,Vision C5 DSP則負(fù)責(zé)執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過移除神經(jīng)網(wǎng)絡(luò)DSP和主視覺/圖像DSP之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時(shí),Vision C5 DSP還提供針對(duì)神經(jīng)網(wǎng)絡(luò)的單核編程模型。
Steve Roddy表示,Vision C5 DSP是一款靈活前瞻的永不過時(shí)(future-proof)解決方案,支持各類內(nèi)核尺寸、深度和輸入規(guī)格。Vision C5 DSP采用多項(xiàng)系數(shù)壓縮/解壓技術(shù),支持未來添加的新計(jì)算層。與之相反,CNN硬件加速器由于程序重編能力有限,擴(kuò)展能力較差。
據(jù)悉,目前已有客戶正在利用C5 DSP核心開發(fā)下一代支持神經(jīng)網(wǎng)絡(luò)算法的SoC芯片。第一顆內(nèi)建VISION C5 DSP 內(nèi)核的SoC產(chǎn)品會(huì)在2018年量產(chǎn)出貨。