SoC芯片設(shè)計+“互聯(lián)網(wǎng)思維”+AI 結(jié)果出乎意料!
“依靠NetSpeed Orion AI的幫助,特斯拉自動駕駛芯片從設(shè)計到流片只花了9個月的時間,這在以前是完全不可想象的。”在NetSpeed Systems大中華區(qū)銷售總監(jiān)黃啓弘所列出的客戶案例中,除了特斯拉,還包括3家來自中國的頂級人工智能公司:地平線機器人、寒武紀(jì)和百度。
NetSpeed Systems大中華區(qū)銷售總監(jiān)黃啓弘
在芯片上布一張互聯(lián)網(wǎng)
可能很多人對NetSpeed并不熟悉。這是一家專為移動設(shè)備、網(wǎng)絡(luò)系統(tǒng)和高性能計算市場提供高擴展性的緩存一致性片上網(wǎng)絡(luò)IP的新銳公司,2011年成立于美國硅谷,核心技術(shù)團隊來自思科與華為,投資方則包括英特爾、Imagination、華登國際等知名企業(yè)。2016年,根據(jù)技術(shù)、目標(biāo)市場、財務(wù)能力和投資情況、成熟度和高級管理人員的資歷等標(biāo)準(zhǔn),NetSpeed被EETimes列入“Silicon 60—2016年全球60家值得注意的新創(chuàng)科技公司”名單之中。
與其它競爭方案不同的是,NetSpeed的片上系統(tǒng)總線設(shè)計理念是將互聯(lián)網(wǎng)的網(wǎng)絡(luò)拓?fù)渌枷胗成涞叫酒瑑?nèi)部的設(shè)計中。即采用數(shù)據(jù)路由和分組交換技術(shù)替代傳統(tǒng)總線結(jié)構(gòu),旨在從架構(gòu)上解決由于地址空間有限導(dǎo)致的傳統(tǒng)總線結(jié)構(gòu)可擴展性差,分時通訊引起的通訊效率低下,以及全局時鐘同步引起的功耗和面積較大等問題。
通俗的講,“以前,我們可以把SoC中的視頻功能關(guān)掉,但總線是無論如何不能關(guān)的。但現(xiàn)在在Orion AI方案中,即便關(guān)掉一部分總線也沒問題,芯片仍然能夠正常工作。”黃啓弘說NetSpeed的做法,就是放棄傳統(tǒng)的總線理論,把所有的數(shù)據(jù)通過橋接模塊的形式分成數(shù)據(jù)包,然后再用互聯(lián)網(wǎng)的方法分發(fā)出去。
他將這種片上網(wǎng)絡(luò)(NoC)理念比喻成“在芯片上布了一張互聯(lián)網(wǎng)”。也就是說,傳統(tǒng)的方法傾向于孤立地優(yōu)化各個子系統(tǒng),從而導(dǎo)致瓶頸問題和采用過度的系統(tǒng)設(shè)計來處理最極端的情景,這對當(dāng)前在視頻、語音、預(yù)測、機器人及診斷等應(yīng)用中正漸入佳境的人工智能技術(shù)來說尤其不利。因為這些新興應(yīng)用對處理能力提出了進(jìn)階需求,推動計算架構(gòu)發(fā)生天翻地覆的變化,并急劇改變著SoC的設(shè)計模式。用NetSpeed首席執(zhí)行官Sundari Mitra的話來說,就是這些新SoC內(nèi)部體現(xiàn)出的是一種新的數(shù)據(jù)流。
“以自動駕駛為例,這是人類第一次如此堅決的把身家性命交給半導(dǎo)體芯片來做決斷。”黃啓弘對《電子工程專輯》說,芯片設(shè)計師為此需要大量的計算單元來實現(xiàn)快速有效的點對點數(shù)據(jù)交換,需要保證信號回路沒有任何阻斷和延遲,再加上人工智能系統(tǒng)需要任意位置數(shù)據(jù)交換和支持長突發(fā)傳輸,采用中央存儲作為數(shù)據(jù)交換系統(tǒng)的傳統(tǒng)總線架構(gòu)在這些需求面前幾乎處于完敗的境地。
用人工智能來優(yōu)化SoC設(shè)計
于是,Orion AI出現(xiàn)了。
它是NetSpeed在AI SoC設(shè)計領(lǐng)域內(nèi)的最新嘗試,因為NetSpeed認(rèn)為這是一個展示自身優(yōu)勢的絕佳的時間節(jié)點。
按照官方給出的說法,Orion AI是業(yè)界首款以人工智能為基礎(chǔ)的SoC芯片內(nèi)部互連解決方案,由經(jīng)過硅驗證的Orion IP構(gòu)建而成。支持多播與廣播等先進(jìn)特性,能極大提升人工智能SoC與加速器ASIC的性能與效率,可廣泛應(yīng)用于數(shù)據(jù)中心、自動駕駛、AR/VR,以及先進(jìn)視頻分析。
Orion AI架構(gòu)
從技術(shù)角度來看,當(dāng)一顆芯片內(nèi)部集成了數(shù)百甚至上千個運算單元時,傳統(tǒng)總線架構(gòu)需要針對不同的系統(tǒng)需求單獨進(jìn)行設(shè)計,當(dāng)系統(tǒng)功能擴展時,需要對現(xiàn)有設(shè)計方案重新設(shè)計,研發(fā)成本與設(shè)計周期均比較長,在性能、功耗、全局時鐘同步、信號完整性及可靠性等方面面臨的挑戰(zhàn)也將呈指數(shù)型增長。
NetSpeed的解決方案采用分層堆疊方式將網(wǎng)絡(luò)架構(gòu)解耦,具有良好的可擴展性。當(dāng)SoC片內(nèi)網(wǎng)絡(luò)中節(jié)點數(shù)量增加時,僅需要按照相應(yīng)拓?fù)浣Y(jié)構(gòu)規(guī)則繼續(xù)增大網(wǎng)絡(luò)規(guī)模即可,縮短了產(chǎn)品的設(shè)計周期,節(jié)約了研發(fā)成本。另外,傳統(tǒng)總線架構(gòu),每次信息交互都需要驅(qū)動全局互連線,因此總線結(jié)構(gòu)所消耗的功耗將隨SoC規(guī)模增加而顯著增加,而在NetSpeed方案中,可以將一部分信號通路關(guān)掉,從而實現(xiàn)低功耗。
授權(quán)費用方面,盡管黃啓弘不能透露具體數(shù)字,但他承諾說“絕對低于arm的費用”,但也肯定高于普通接口IP的費用,通常是根據(jù)定制的復(fù)雜度來決定該怎么收費。NetSpeed一般會在授權(quán)完成之后對客戶進(jìn)行1-2天的培訓(xùn),因為無論簡單還是復(fù)雜的工具,最后都是由AI工具自動生成RTL,所以商業(yè)模式相對比較靈活。
Orion AI由NetSpeed的圖靈機器學(xué)習(xí)引擎提供支持,該引擎使用監(jiān)督學(xué)習(xí)來探索和優(yōu)化SoC設(shè)計與架構(gòu)。據(jù)稱這也是當(dāng)前市場上唯一采用機器學(xué)習(xí)方法的產(chǎn)品,能在多次迭代之后慢慢收斂,精確地進(jìn)行整體系統(tǒng)建模,以實現(xiàn)最優(yōu)的應(yīng)用性能。中國最牛的幾家互聯(lián)網(wǎng)公司之所以愿意與NetSpeed合作,也是看上了這一核心技術(shù)。
除了通過人工智能進(jìn)行SoC設(shè)計之外,Orion AI的片上帶寬高達(dá)萬億字節(jié)每秒(TB/s),并具備支持?jǐn)?shù)千計算引擎的底層架構(gòu)。它提供超寬數(shù)據(jù)通路,接口位寬高達(dá)1024位,可支持高達(dá)4K字節(jié)的長突發(fā)傳輸,并可定制更高位寬。此外,為優(yōu)化對自動駕駛應(yīng)用的支持,Orion AI還通過了ISO 26262標(biāo)準(zhǔn),可支持ASIL D級別安全要求。
Linley Group首席分析師Linley Gwennap對這種以人工智能為核心的設(shè)計方法給予了極高的評價,稱“就像有一位隨時在線的建筑大師給出設(shè)計建議。處理器架構(gòu)師可以采納圖靈的建議,然后花時間去解決SoC設(shè)計中的其他難題。”
Turn-Key模式不適合我們
把人工智能技術(shù)從云端引入到終端,會遇到一些挑戰(zhàn)。首先,云端追求的是極致性能,對功耗沒有太多要求。但對終端設(shè)備而言,能耗卻是非常重要的指標(biāo),芯片需要滿足系統(tǒng)低功耗的要求。其次,是通用性與特殊性如何平衡。當(dāng)一個終端產(chǎn)品從通用產(chǎn)品變成專用產(chǎn)品的時候,市場規(guī)模會小很多,例如做血液檢查的終端產(chǎn)品就只能做血液檢查,不能做別的事情。因此,對那些有志于從事嵌入式人工智能的人士來說,黃啓弘的建議是需要綜合考慮公司是否能做?怎么做?如何在性能、功耗和通用性三者之間找到平衡點等關(guān)鍵問題。
“我拜訪過很多人工智能公司,留給我的印象是如果不開發(fā)出幾款A(yù)I芯片,都不好意思說自己是這個行業(yè)里的人。”黃啓弘說從理論上來講,開發(fā)芯片永遠(yuǎn)比賣算法要好,因為如果只有算法,對知識產(chǎn)權(quán)的保護還是相對比較弱的,一篇論文就可以讓天下人皆知。但很多公司此前之所以不愿意研發(fā)芯片,主要的顧慮在于芯片研發(fā)周期比較長,一旦出錯,上億的資金付之東流是常見的事情,代價太大。然而隨著中國政府對集成電路產(chǎn)業(yè)支持力度和對知識產(chǎn)權(quán)保護力度的不斷加強,AI公司看到了實現(xiàn)自主可控的希望,獨立開發(fā)芯片的意愿也更加強烈。
但“一千個人眼里有一千個哈姆雷特”,即便是同一個應(yīng)用場景,不同客戶間也存在著不同的理解,導(dǎo)致芯片設(shè)計的復(fù)雜度也各不相同。因此,無論用戶采用通用還是定制化計算平臺,都可以在SoC設(shè)計中使用Orion AI解決方案,縮短研發(fā)周期,快速完成設(shè)計迭代,自然成為了NetSpeed的使命。
AI時代,傳統(tǒng)的SoC芯片高度集成,一家獨大的模式正在發(fā)生變化,由于不同場景對芯片、算法的需求各不相同,導(dǎo)致定制化計算平臺需求旺盛。黃啓弘說自己認(rèn)同這樣的看法,的確是同一顆芯片,在不同的算法和應(yīng)用中,也會產(chǎn)生不同的價值。但這是否就意味著以往的Turn-Key模式走向衰落?他認(rèn)為并不一定。“因為很多做系統(tǒng)的人對芯片設(shè)計并不了解,這時要能給他一個Turn-Key的方案,說不定他就會借此把市場做大。但NetSpeed設(shè)計的是總線,不會參與到客戶最核心的神經(jīng)網(wǎng)絡(luò)設(shè)計之中,因此Turn-Key這種模式不適合我們。”