中國最強(qiáng)AI芯片問世，今年底量產(chǎn)已是板上釘釘！

時間：2021-07-13 11:15:28

關(guān)鍵字： AI芯片 AI 芯片

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]AI芯片也被稱為AI加速器或計算卡，即專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé))。當(dāng)前，AI芯片主要分為 GPU 、FPGA 、ASIC。

AI芯片也被稱為AI加速器或計算卡，即專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé))。當(dāng)前，AI芯片主要分為 GPU 、FPGA 、ASIC。

AI的許多數(shù)據(jù)處理涉及矩陣乘法和加法。大量并行工作的GPU提供了一種廉價的方法，但缺點是更高的功率。具有內(nèi)置DSP模塊和本地存儲器的FPGA更節(jié)能，但它們通常更昂貴。AI芯片該使用什么方法原理去實現(xiàn)，仍然眾說紛紜，這是新技術(shù)的特點，探索階段百花齊放，這也與深度學(xué)習(xí)等算法模型的研發(fā)并未成熟有關(guān)，即AI的基礎(chǔ)理論方面仍然存在很大空白。這是指導(dǎo)芯片如何設(shè)計的基本前提。

因此，集中在如何更好的適應(yīng)已有的數(shù)據(jù)流式處理模式進(jìn)行的芯片優(yōu)化設(shè)計。技術(shù)手段方面AI市場的第一顆芯片包括現(xiàn)成的CPU，GPU，F(xiàn)PGA和DSP的各種組合。雖然新設(shè)計正在由諸如英特爾、谷歌、英偉達(dá)、高通，以及IBM等公司開發(fā)，但還不清楚哪家的方法會勝出。似乎至少需要一個CPU來控制這些系統(tǒng)，但是當(dāng)流數(shù)據(jù)并行化時，就會需要各種類型的協(xié)處理器。

近日在蘇州舉行的中國人工智能產(chǎn)業(yè)2020年年會上發(fā)布的《2020年中國人工智能發(fā)展報告》顯示，在過去10年里，全球人工智能專利申請超過52萬件。其中，我國人工智能專利申請量近39萬件(38.9571萬件)，占全球總量的近3 / 4(74.7%)，居世界第一。全球數(shù)字經(jīng)濟(jì)加速發(fā)展，人工智能逐漸形成商業(yè)化規(guī)模。作為人工智能產(chǎn)業(yè)的核心硬件，AI芯片以高效的數(shù)據(jù)處理能力著稱，彌補(bǔ)了CPU在計算能力上的不足。近年來，人工智能處于爆發(fā)式發(fā)展階段，大批優(yōu)秀企業(yè)紛紛涌入，越來越多的AI應(yīng)用落地。7月7日，酷芯攜多款人工智能方案亮相2021 世界人工智能大會，并推出全新一代高性能AI SoC。

自2018年，酷芯發(fā)布第一款A(yù)I芯片之后，對接的客戶已有上百家，全面助力人工智能芯片應(yīng)用落地。沈泊表示，本次推出的AR9341芯片可以說是恰逢其時，鑒于目前市場對中高端智能相機(jī)芯片的需求十分迫切，該芯片將會在高端智能IPC、車載輔助駕駛、邊緣計算盒子、智能機(jī)器人等領(lǐng)域大放異彩。沈泊透露，AR9341預(yù)計將在今年9月份提供工程樣片，12月量產(chǎn)。

在不少芯片創(chuàng)業(yè)企業(yè)追求最新的工藝以實現(xiàn)最佳性能時，AI芯片廠商燧原科技兩代芯片卻采用了相同的工藝。

7月7日，騰訊投資的國內(nèi)AI芯片初創(chuàng)企業(yè)燧原科技發(fā)布第二代人工智能訓(xùn)練產(chǎn)品——“邃思2.0”芯片、基于邃思2.0的“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組，全面升級的“馭算TopsRider”軟件平臺以及全新的“云燧集群”。

燧原科技創(chuàng)始人、CEO趙立東在接受第一財經(jīng)專訪時表示，“邃思2.0”和第一代產(chǎn)品均由格芯的12nm FinFET工藝打造，“邃思2.0”將于年底量產(chǎn)。

為了獲得高的性能，大部分AI云端芯片廠商都采用最新的制程，為何燧原科技第二代產(chǎn)品沒有使用更先進(jìn)工藝?

具體而言，燧原科技新一代全自研的GCU-CARA全域計算架構(gòu)，針對人工智能計算的特性進(jìn)行深度優(yōu)化，支持全面的計算精度，涵蓋從FP32、TF32、FP16、BF16到INT8，單精度FP32峰值算力達(dá)40 TFLOPS，單精度張量TF32峰值算力達(dá)到160 TFLOPS。

其實成本也是影響工藝選擇的重要因素。趙立東表示，從設(shè)計到流片，12納米制程和7納米制程成本完全不同，“一個3億多人民幣，一個7億多，公司的商業(yè)本質(zhì)還是要考慮成本。”

此外，同時改架構(gòu)和工藝的風(fēng)險太大，他介紹稱，“如果最后有問題不知道是工藝造成的還是架構(gòu)造成的。先進(jìn)制程的性能、功耗會更好，但是綜合考慮成本、風(fēng)險和供應(yīng)商產(chǎn)能，我們選擇改架構(gòu)。”

TF32代表的是張量單精度32位數(shù)據(jù)類型，相比傳統(tǒng)的FP32，TF32在位寬更大的同時，消耗的帶寬以及計算資源顯著更小，被業(yè)界視為能夠取代全尺寸單精度數(shù)據(jù)的革新性數(shù)據(jù)精度。

AI芯片的比拼上升到系統(tǒng)級

“客戶并不會直接關(guān)心芯片層面的理論參數(shù)，AI落地的時候，他們更看重的是包括硬件、軟件、互聯(lián)的整體解決方案的有效利用率。所以我們已經(jīng)從單芯片的維度升級到了更高的系統(tǒng)層面。這也是燧原推出整機(jī)多卡、多卡互聯(lián)、分布式軟件、云端部署的一整套交鑰匙解決方案的原因?！睆垇喠终f道，“我們也更強(qiáng)調(diào)通過低碳綠色化的云燧智算集群服務(wù)客戶?！?

AI芯片的比拼要升級到AI系統(tǒng)的比拼，從用戶角度，對比AI系統(tǒng)的維度就會包含五個：軟硬件一體的性價比、能效比、易用性、遷移成本、范化性。

視覺AI芯片發(fā)展至今，仍然存在著很多痛點和難題。在很多環(huán)境條件惡劣的場景，比如，在光照條件不佳或逆光情況下，AI成像的畫質(zhì)較差，導(dǎo)致AI算法準(zhǔn)確度大幅降低。此外，從應(yīng)用層面來看，市場需求算力強(qiáng)大的芯片來應(yīng)對大模型系統(tǒng)的挑戰(zhàn)，而目前市面上很多芯片算力不足。另一方面，在AI視覺芯片實際落地過程中，嵌入式芯片的AI工具鏈?zhǔn)褂美щy，軟件、硬件和算法整合難度大，極大拖延了算法落地周期，增加了成本。

高性能ISP在2D/3D降噪、HDR、去霧、EIS等方面表現(xiàn)優(yōu)異;

AI處理器將深度學(xué)習(xí)與機(jī)器視覺算法相結(jié)合，通用性強(qiáng)、擴(kuò)展性能好;完整易用的工具鏈，使得浮點、定點網(wǎng)絡(luò)的導(dǎo)入更加方便，且不會降低精度;一站式Turnkey解決方案，完整的應(yīng)用參考方案。

在生物識別、安防監(jiān)控、汽車輔助駕駛、智能無人機(jī)等領(lǐng)域，基于本次發(fā)布的AI相機(jī)芯片，酷芯也提供了完整的智能解決方案。長期以來，酷芯始終以技術(shù)為核心，不斷經(jīng)過銳意創(chuàng)新，加速AI視覺芯片的更新迭代，拓展AI芯片應(yīng)用場景，推動人工智能市場發(fā)展，聯(lián)合合作伙伴共同打造完整的AI芯片應(yīng)用生態(tài)系統(tǒng)。

AI技術(shù)的革新，其從計算構(gòu)架到應(yīng)用，都和傳統(tǒng)處理器與算法有巨大的差異，這給創(chuàng)業(yè)者和資本市場無限的遐想空間，這也是為什么資本和人才對其趨之若鶩的原因。

但是，產(chǎn)業(yè)發(fā)展還是要遵循一定的產(chǎn)業(yè)規(guī)律，筆者認(rèn)為，絕大多數(shù)AI芯片公司都將成為歷史的炮灰，最后，在云端和終端只剩下為數(shù)極少的幾個玩家。

作為AI和芯片兩大領(lǐng)域的交差點，AI芯片已經(jīng)成了最熱門的投資領(lǐng)域，各種AI芯片如雨后春筍冒出來，但是AI芯片領(lǐng)域生存環(huán)境惡劣，能活下來的企業(yè)將是鳳毛麟角。

谷歌在I/O大會發(fā)布了其第三代TPU，并宣稱其性能比去年的TUP 2.0提升8倍之多，達(dá)到每秒1000萬億次浮點計算，同時谷歌展示了其一系列基于TPU的AI應(yīng)用。

可以說，AI已經(jīng)成為科技行業(yè)除了區(qū)塊鏈之外最熱門的話題。AI芯片作為AI時代的基礎(chǔ)設(shè)施，也成為目前行業(yè)最熱門的領(lǐng)域。