當前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 基于FPGA的通用CNN加速設(shè)計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務(wù)深度學習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢,為業(yè)務(wù)構(gòu)建最強勁的實時AI服務(wù)能力

基于FPGA的通用CNN加速設(shè)計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務(wù)深度學習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢,為業(yè)務(wù)構(gòu)建最強勁的實時AI服務(wù)能力。

WHEN?深度學習異構(gòu)計算現(xiàn)狀

隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領(lǐng)域的興起,對計算能力的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。

異構(gòu)計算被認為是現(xiàn)階段解決此計算溝壑的關(guān)鍵技術(shù),目前 “CPU+GPU”以及“CPU+FPGA” 是最受業(yè)界關(guān)注的異構(gòu)計算平臺。它們具有比傳統(tǒng)CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場,科技行業(yè)大量企業(yè)投入了大量的資金和人力,異構(gòu)編程的開發(fā)標準也在逐漸成熟,而主流的云服務(wù)商更是在積極布局。

WHY?通用CNN FPGA加速

業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AI inference加速,F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢?

Flexibility:可編程性天然適配正在快速演進的ML算法

DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹等等

任意精度動態(tài)支持

模型壓縮、稀疏網(wǎng)絡(luò)、更快更好的網(wǎng)絡(luò)

Performance:構(gòu)建實時性AI服務(wù)能力

相較于GPU/CPU數(shù)量級提升的低延時預(yù)測能力

相較于GPU/CPU數(shù)量級提升的單瓦特性能能力

Scale

板卡間高速互聯(lián)IO

Intel CPU-FPGA構(gòu)架

與此同時,F(xiàn)PGA的短板也非常的明顯,F(xiàn)PGA使用HDL硬件描述語言來進行開發(fā),開發(fā)周期長,入門門檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例,針對一個模型進行定制的加速開發(fā),往往需要數(shù)月的時間。業(yè)務(wù)方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。

一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時高性能服務(wù),一方面需要FPGA的開發(fā)周期跟上深度學習算法的迭代周期,基于這兩點我們設(shè)計開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設(shè)計,以編譯器產(chǎn)生指令的方式來驅(qū)動模型加速,可以短時間內(nèi)支持模型切換;同時,對于新興的深度學習算法,在此通用基礎(chǔ)版本上進行相關(guān)算子的快速開發(fā)迭代,模型加速開發(fā)時間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內(nèi)。

HOW?通用CNN FPGA架構(gòu)

基于FPGA的通用CNN加速器整體框架如下,通過Caffe/Tensorflow/Mxnet等框架訓(xùn)練出來的CNN模型,通過編譯器的一系列優(yōu)化生成模型對應(yīng)的指令;同時,圖片數(shù)據(jù)和模型權(quán)重數(shù)據(jù)按照優(yōu)化規(guī)則進行預(yù)處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅(qū)動工作,加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計算加速工作。每個功能模塊各自相對獨立,只對每一次單獨的模塊計算請求負責。加速器與深度學習模型相抽離,各個layer的數(shù)據(jù)依賴以及前后執(zhí)行關(guān)系均在指令集中進行控制。

簡單而言,編譯器的主要工作就是對模型結(jié)構(gòu)進行分析優(yōu)化,然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導(dǎo)思想是:更高的MAC dsp計算效率以及更少的內(nèi)存訪問需求。

接下來我們以Googlenet V1模型為例,對加速器的設(shè)計優(yōu)化思路做簡單的分析。IncepTIon v1的網(wǎng)絡(luò),將1x1、3x3、5x5的conv和3x3的pooling stack在一起,一方面增加了網(wǎng)絡(luò)的width,另一方面增加了網(wǎng)絡(luò)對尺度的適應(yīng)性。下圖為模型中IncepTIon的基本結(jié)構(gòu)。

數(shù)據(jù)依賴關(guān)系分析

此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設(shè)計可以提高加速器中的計算單元利用率,并行化的計算可以在同一時刻利用盡量多的計算單元。

關(guān)于流水,分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水,通過此項優(yōu)化將內(nèi)存訪問的時間overlap;DSP計算整列的計算控制過程,保證DSP利用率的提升。

關(guān)于并行,需要重點分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關(guān)系,如何確定好數(shù)據(jù)依賴關(guān)系以及防止沖突是此處設(shè)計關(guān)鍵。在IncepTIon中,可以從其網(wǎng)絡(luò)結(jié)構(gòu)中看到,branch a/b/c的1x1的卷積計算與branch d中的pooling是可以并行計算的,兩者之間并不存在數(shù)據(jù)依賴關(guān)系。通過此處優(yōu)化,3x3 max pooling layer的計算就可以被完全overlap。

模型優(yōu)化

在設(shè)計中主要考慮兩個方面:尋找模型結(jié)構(gòu)優(yōu)化以及支持動態(tài)精度調(diào)整的定點化。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉