Achronix告訴你,新一代人工智能硬件需要具備哪些特質(zhì)
【導(dǎo)讀】:如今AI的觸角已經(jīng)伸向了市場(chǎng)各個(gè)領(lǐng)域,AI離不開硬件,新一代人工智能硬件相較于之前的硬件有什么不一樣的呢?Achronix給出了答案。
AI應(yīng)用覆蓋了不同的市場(chǎng),如自主駕駛、醫(yī)療診斷、家用電器、工業(yè)自動(dòng)化、自適應(yīng)網(wǎng)站和金融分析等等;甚至是將這些系統(tǒng)連接在一起的通信基礎(chǔ)設(shè)施也正朝著自動(dòng)化的自我修復(fù)和優(yōu)化發(fā)展。這些全新的架構(gòu)將執(zhí)行諸如負(fù)載平衡等功能,還有根據(jù)以往經(jīng)驗(yàn)來進(jìn)行預(yù)測(cè)來分配資源,如無(wú)線通道和網(wǎng)絡(luò)端口等資源。這些應(yīng)用要求高性能,并且在許多情況下,要有低延遲以成功地響應(yīng)條件和需求的變化。它們還要求功耗要盡可能的低,其結(jié)果是無(wú)法在本地完成,機(jī)器學(xué)習(xí)解決方案往往被放在電能和散熱器充足的云服務(wù)器中。對(duì)這些嵌入式系統(tǒng)進(jìn)一步的要求是:即使在網(wǎng)絡(luò)不能連接至云端的情況下,也要始終處于待命狀態(tài),并且隨時(shí)準(zhǔn)備響應(yīng)。這些因素結(jié)合起來就要求改變硬件設(shè)計(jì)的方式。
讓我們來了解一下通常被用于執(zhí)行這類計(jì)算任務(wù)的一些主要硬件器件種類,并分析與它們每種器件相關(guān)的優(yōu)缺點(diǎn):
中央處理器(Central Processing Unit,CPU)CPU幾乎是達(dá)到了半導(dǎo)體器件所能擁有的最高靈活性,被構(gòu)想為一種完全通用的器件,它們也很容易被編程。然而,這種靈活性自然是要付出代價(jià)的,在一個(gè)通用架構(gòu)中移動(dòng)數(shù)據(jù)和指令所涉及到的大量開銷,使CPU相對(duì)低效且耗電。其結(jié)果是,為了滿足當(dāng)今的計(jì)算需求,CPU很快就被淘汰了。因此,設(shè)計(jì)人員就順理成章地選擇探討用其它架構(gòu)來補(bǔ)充這種通用功能。
圖形處理器(Graphics Processing Unit,GPU)根據(jù)任務(wù)要求,另一條途徑是考慮圖形處理器(GPU)來解決這個(gè)問題。GPU從上世紀(jì)90年代起就開始進(jìn)入了興盛時(shí)期,那個(gè)時(shí)期它們通常被用來幫助個(gè)人電腦(PC)中的CPU完成圖形處理任務(wù),為此它們還在架構(gòu)上進(jìn)行了優(yōu)化。事實(shí)上,憑借其擁有的許多計(jì)算內(nèi)核和數(shù)不清的算數(shù)邏輯單元,GPU可被用來加速許多不同類型的高度并行功能。然而,其代價(jià)是不能執(zhí)行通用計(jì)算任務(wù),并且還相對(duì)耗電。
專用集成電路(ApplicaTIon Specific Integrated Circuits,ASICs)在解決方案組合中,最遙遠(yuǎn)的一端是專用集成電路(ASIC)。它們被專門制造用來支持其目標(biāo)應(yīng)用,ASIC可被設(shè)計(jì)成不在任何其他計(jì)算上浪費(fèi)時(shí)間或能耗。然而,正如大多數(shù)設(shè)計(jì)人員證實(shí)的一樣,ASIC的設(shè)計(jì)和生產(chǎn)是昂貴的,并對(duì)數(shù)量有限的功能進(jìn)行了高的承諾;ASIC在設(shè)計(jì)和制造完成之后,幾乎沒有能力去提供更通用的計(jì)算或適用其它用途。
我們的很大一部分客戶已經(jīng)到達(dá)這個(gè)階段了——設(shè)計(jì)高性能ASIC來作為解決他們所面臨的密集計(jì)算需求的唯一方法。然而即便是采用這種方案,許多與我們交流的客戶已經(jīng)在不得不考慮其他可選擇方案,以支持他們以更低的整體成本去生產(chǎn)性能更高的器件,以及集成一定程度的功能靈活性。
那么,其它的可選方案是什么呢?FPGA
還有另一種方法。FPGA可提供接近CPU所擁有的靈活性,以及接近ASIC所擁有的效率。與ASIC一樣,F(xiàn)PGA允許設(shè)計(jì)人員實(shí)現(xiàn)邏輯算法,提供巨大的并行和硬件優(yōu)化的解決方案。與ASIC不同的是,F(xiàn)PGA可以在眨眼間用一個(gè)新的設(shè)計(jì)進(jìn)行重新編程。與CPU或GPU相比,當(dāng)今FPGA的能效非常高,能夠比基于處理器的解決方案每瓦提供遠(yuǎn)遠(yuǎn)更多的運(yùn)算。
但是,還有一種更具吸引力的解決方案。
Speedcore嵌入式FPGA(eFPGA)知識(shí)產(chǎn)權(quán)( IP)
Achronix已經(jīng)先行采取了進(jìn)一步的措施。與其簡(jiǎn)單地提倡使用分立的FPGA芯片,為什么不將該架構(gòu)引入到您的CPU或SoC之中呢?并同時(shí)仍可享受更多的性能提高呢?
一款eFPGA消除了芯片與芯片之間通信的需求,例如通過PCI-Express這樣帶寬有限的連接需求,消除了對(duì)數(shù)據(jù)進(jìn)行串行化和解串行化的需求,并提供了一個(gè)極大容量的、直達(dá)為FPGA陣列結(jié)構(gòu)的片上互連。這意味著與獨(dú)立的FPGA芯片相比,可提供高達(dá)100倍的性能改善,同時(shí)將功耗降低高達(dá)50%,并縮小了片芯晶粒的面積,降低系統(tǒng)成本高達(dá)90%,及減少了對(duì)如穩(wěn)壓電源、元器件和散熱器等其它組件的需求。
Achronix的SpeedcoreTM嵌入式FPGA(eFPGA)IP產(chǎn)品可以被集成到ASIC或者SoC之中,以提供定制的可編程陣列結(jié)構(gòu)??蛻敉ㄟ^細(xì)化其所需的邏輯功能、存儲(chǔ)器和DSP資源,然后Achronix將配置Speedcore IP,以滿足其個(gè)性化的需求。Speedcore的查找表(LUT)、存儲(chǔ)器(RAM)單元和DSP64單元都可以像積木一樣組裝起來,從而為任何特定應(yīng)用創(chuàng)建最優(yōu)化的可編程功能陣列結(jié)構(gòu)。Speedcore eFPGA目前已經(jīng)在臺(tái)積電(TSMC)的16nm工藝上驗(yàn)證量產(chǎn),并在開發(fā)用于TSMC的7nm工藝的產(chǎn)品。Speedcore eFPGA由Achronix的經(jīng)過實(shí)際芯片驗(yàn)證的ACE設(shè)計(jì)工具提供支持。
在其他幾個(gè)優(yōu)勢(shì)之外,Speedcore eFPGA解決方案可提供緩存一致性、共享存儲(chǔ)資源,以實(shí)現(xiàn)更快速地導(dǎo)入和導(dǎo)出數(shù)據(jù),且能在2ms內(nèi)對(duì)每10萬(wàn)個(gè)查找表重新配置其整個(gè)架構(gòu)。
諸如多核CPU、通用圖形處理器GPGPU和獨(dú)立FPGA芯片等現(xiàn)有解決方案都可被用來支持如深度學(xué)習(xí)等先進(jìn)的人工智能算法;但隨著機(jī)器學(xué)習(xí)架構(gòu)的發(fā)展,它們的局限無(wú)法滿足開發(fā)人員對(duì)硬件不斷攀升的要求。Achronix的Speedcore eFPGA是基于經(jīng)過驗(yàn)證的技術(shù),并可為設(shè)計(jì)人員提供一條途徑,去實(shí)現(xiàn)更快速、更小巧的、成本更低且更節(jié)能的解決方案,從而支持設(shè)計(jì)人員根據(jù)快速升級(jí)的市場(chǎng)需求繼續(xù)增加他們的計(jì)算能力。
Achronix半導(dǎo)體公司是一家提供高性能,高密度FPGA方案的美國(guó)高科技公司。Achronix半導(dǎo)體公司跟Intel的合作讓其可以用業(yè)界最先進(jìn)的22nm 3D FinFET 技術(shù)發(fā)展新一代的FPGA器件。