中國最強(qiáng)AI芯片問世, 今年底量產(chǎn)已是板上釘釘!
AI芯片也被稱為AI加速器或計算卡,即專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé))。當(dāng)前,AI芯片主要分為 GPU 、FPGA 、ASIC。
AI的許多數(shù)據(jù)處理涉及矩陣乘法和加法。大量并行工作的GPU提供了一種廉價的方法,但缺點是更高的功率。具有內(nèi)置DSP模塊和本地存儲器的FPGA更節(jié)能,但它們通常更昂貴。AI芯片該使用什么方法原理去實現(xiàn),仍然眾說紛紜,這是新技術(shù)的特點,探索階段百花齊放,這也與深度學(xué)習(xí)等算法模型的研發(fā)并未成熟有關(guān),即AI的基礎(chǔ)理論方面仍然存在很大空白。這是指導(dǎo)芯片如何設(shè)計的基本前提。
因此,集中在如何更好的適應(yīng)已有的數(shù)據(jù)流式處理模式進(jìn)行的芯片優(yōu)化設(shè)計。技術(shù)手段方面AI市場的第一顆芯片包括現(xiàn)成的CPU,GPU,F(xiàn)PGA和DSP的各種組合。雖然新設(shè)計正在由諸如英特爾、谷歌、英偉達(dá)、高通,以及IBM等公司開發(fā),但還不清楚哪家的方法會勝出。似乎至少需要一個CPU來控制這些系統(tǒng),但是當(dāng)流數(shù)據(jù)并行化時,就會需要各種類型的協(xié)處理器。
近日在蘇州舉行的中國人工智能產(chǎn)業(yè)2020年年會上發(fā)布的《2020年中國人工智能發(fā)展報告》顯示,在過去10年里,全球人工智能專利申請超過52萬件。其中,我國人工智能專利申請量近39萬件(38.9571萬件),占全球總量的近3 / 4(74.7%),居世界第一。全球數(shù)字經(jīng)濟(jì)加速發(fā)展,人工智能逐漸形成商業(yè)化規(guī)模。作為人工智能產(chǎn)業(yè)的核心硬件,AI芯片以高效的數(shù)據(jù)處理能力著稱,彌補(bǔ)了CPU在計算能力上的不足。近年來,人工智能處于爆發(fā)式發(fā)展階段,大批優(yōu)秀企業(yè)紛紛涌入,越來越多的AI應(yīng)用落地。7月7日,酷芯攜多款人工智能方案亮相2021 世界人工智能大會,并推出全新一代高性能AI SoC。
自2018年,酷芯發(fā)布第一款A(yù)I芯片之后,對接的客戶已有上百家,全面助力人工智能芯片應(yīng)用落地。沈泊表示,本次推出的AR9341芯片可以說是恰逢其時,鑒于目前市場對中高端智能相機(jī)芯片的需求十分迫切,該芯片將會在高端智能IPC、車載輔助駕駛、邊緣計算盒子、智能機(jī)器人等領(lǐng)域大放異彩。沈泊透露,AR9341預(yù)計將在今年9月份提供工程樣片,12月量產(chǎn)。
在不少芯片創(chuàng)業(yè)企業(yè)追求最新的工藝以實現(xiàn)最佳性能時,AI芯片廠商燧原科技兩代芯片卻采用了相同的工藝。
7月7日,騰訊投資的國內(nèi)AI芯片初創(chuàng)企業(yè)燧原科技發(fā)布第二代人工智能訓(xùn)練產(chǎn)品——“邃思2.0”芯片、基于邃思2.0的“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組,全面升級的“馭算TopsRider”軟件平臺以及全新的“云燧集群”。
燧原科技創(chuàng)始人、CEO趙立東在接受第一財經(jīng)專訪時表示,“邃思2.0”和第一代產(chǎn)品均由格芯的12nm FinFET工藝打造,“邃思2.0”將于年底量產(chǎn)。
為了獲得高的性能,大部分AI云端芯片廠商都采用最新的制程,為何燧原科技第二代產(chǎn)品沒有使用更先進(jìn)工藝?
具體而言,燧原科技新一代全自研的GCU-CARA全域計算架構(gòu),針對人工智能計算的特性進(jìn)行深度優(yōu)化,支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8,單精度FP32峰值算力達(dá)40 TFLOPS,單精度張量TF32峰值算力達(dá)到160 TFLOPS。
其實成本也是影響工藝選擇的重要因素。趙立東表示,從設(shè)計到流片,12納米制程和7納米制程成本完全不同,“一個3億多人民幣,一個7億多,公司的商業(yè)本質(zhì)還是要考慮成本。”
此外,同時改架構(gòu)和工藝的風(fēng)險太大,他介紹稱,“如果最后有問題不知道是工藝造成的還是架構(gòu)造成的。先進(jìn)制程的性能、功耗會更好,但是綜合考慮成本、風(fēng)險和供應(yīng)商產(chǎn)能,我們選擇改架構(gòu)。”
TF32代表的是張量單精度32位數(shù)據(jù)類型,相比傳統(tǒng)的FP32,TF32在位寬更大的同時,消耗的帶寬以及計算資源顯著更小,被業(yè)界視為能夠取代全尺寸單精度數(shù)據(jù)的革新性數(shù)據(jù)精度。
AI芯片的比拼上升到系統(tǒng)級
“客戶并不會直接關(guān)心芯片層面的理論參數(shù),AI落地的時候,他們更看重的是包括硬件、軟件、互聯(lián)的整體解決方案的有效利用率。所以我們已經(jīng)從單芯片的維度升級到了更高的系統(tǒng)層面。這也是燧原推出整機(jī)多卡、多卡互聯(lián)、分布式軟件、云端部署的一整套交鑰匙解決方案的原因?!睆垇喠终f道,“我們也更強(qiáng)調(diào)通過低碳綠色化的云燧智算集群服務(wù)客戶?!?
AI芯片的比拼要升級到AI系統(tǒng)的比拼,從用戶角度,對比AI系統(tǒng)的維度就會包含五個:軟硬件一體的性價比、能效比、易用性、遷移成本、范化性。
視覺AI芯片發(fā)展至今,仍然存在著很多痛點和難題。在很多環(huán)境條件惡劣的場景,比如,在光照條件不佳或逆光情況下,AI成像的畫質(zhì)較差,導(dǎo)致AI算法準(zhǔn)確度大幅降低。此外,從應(yīng)用層面來看,市場需求算力強(qiáng)大的芯片來應(yīng)對大模型系統(tǒng)的挑戰(zhàn),而目前市面上很多芯片算力不足。另一方面,在AI視覺芯片實際落地過程中,嵌入式芯片的AI工具鏈?zhǔn)褂美щy,軟件、硬件和算法整合難度大,極大拖延了算法落地周期,增加了成本。
高性能ISP在2D/3D降噪、HDR、去霧、EIS等方面表現(xiàn)優(yōu)異;
AI處理器將深度學(xué)習(xí)與機(jī)器視覺算法相結(jié)合,通用性強(qiáng)、擴(kuò)展性能好;完整易用的工具鏈,使得浮點、定點網(wǎng)絡(luò)的導(dǎo)入更加方便,且不會降低精度;一站式Turnkey解決方案,完整的應(yīng)用參考方案。
在生物識別、安防監(jiān)控、汽車輔助駕駛、智能無人機(jī)等領(lǐng)域,基于本次發(fā)布的AI相機(jī)芯片,酷芯也提供了完整的智能解決方案。長期以來,酷芯始終以技術(shù)為核心,不斷經(jīng)過銳意創(chuàng)新,加速AI視覺芯片的更新迭代,拓展AI芯片應(yīng)用場景,推動人工智能市場發(fā)展,聯(lián)合合作伙伴共同打造完整的AI芯片應(yīng)用生態(tài)系統(tǒng)。
AI技術(shù)的革新,其從計算構(gòu)架到應(yīng)用,都和傳統(tǒng)處理器與算法有巨大的差異,這給創(chuàng)業(yè)者和資本市場無限的遐想空間,這也是為什么資本和人才對其趨之若鶩的原因。
但是,產(chǎn)業(yè)發(fā)展還是要遵循一定的產(chǎn)業(yè)規(guī)律,筆者認(rèn)為,絕大多數(shù)AI芯片公司都將成為歷史的炮灰,最后,在云端和終端只剩下為數(shù)極少的幾個玩家。
作為AI和芯片兩大領(lǐng)域的交差點,AI芯片已經(jīng)成了最熱門的投資領(lǐng)域,各種AI芯片如雨后春筍冒出來,但是AI芯片領(lǐng)域生存環(huán)境惡劣,能活下來的企業(yè)將是鳳毛麟角。
谷歌在I/O大會發(fā)布了其第三代TPU,并宣稱其性能比去年的TUP 2.0提升8倍之多,達(dá)到每秒1000萬億次浮點計算,同時谷歌展示了其一系列基于TPU的AI應(yīng)用。
可以說,AI已經(jīng)成為科技行業(yè)除了區(qū)塊鏈之外最熱門的話題。AI芯片作為AI時代的基礎(chǔ)設(shè)施,也成為目前行業(yè)最熱門的領(lǐng)域。