邁向智能時(shí)代 人工智能催生新一代專用計(jì)算芯片
深度學(xué)習(xí)作為新一代計(jì)算模式,近年來,其所取得的前所未有的突破掀起了人工智能新一輪發(fā)展熱潮。深度學(xué)習(xí)本質(zhì)上是多層次的人工神經(jīng)網(wǎng)絡(luò)算法,即模仿人腦的神經(jīng)網(wǎng)絡(luò),從最基本的單元上模擬了人類大腦的運(yùn)行機(jī)制。由于人類大腦的運(yùn)行機(jī)制與計(jì)算機(jī)有著鮮明的不同,深度學(xué)習(xí)與傳統(tǒng)計(jì)算模式有非常大的差別。
深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)算法與傳統(tǒng)計(jì)算模式不同,它能夠從輸入的大量數(shù)據(jù)中自發(fā)的總結(jié)出規(guī)律,從而舉一反三,泛化至從未見過的案例中。因此,它不需要人為的提取所需解決問題的特征或者總結(jié)規(guī)律來進(jìn)行編程。人工神經(jīng)網(wǎng)絡(luò)算法實(shí)際上是通過大量樣本數(shù)據(jù)訓(xùn)練建立了輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的映射關(guān)系,其最直接的應(yīng)用是在分類識(shí)別方面。例如訓(xùn)練樣本的輸入是語音數(shù)據(jù),訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的功能就是語音識(shí)別,如果訓(xùn)練樣本輸入是人臉圖像數(shù)據(jù),訓(xùn)練后實(shí)現(xiàn)的功能就是人臉識(shí)別。
傳統(tǒng)計(jì)算機(jī)軟件是程序員根據(jù)所需要實(shí)現(xiàn)的功能原理編程,輸入至計(jì)算機(jī)運(yùn)行即可,其計(jì)算過程主要體現(xiàn)在執(zhí)行指令這個(gè)環(huán)節(jié)。而深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)算法包含了兩個(gè)計(jì)算過程:
1、用已有的樣本數(shù)據(jù)去訓(xùn)練人工神經(jīng)網(wǎng)絡(luò);
2、用訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò)去運(yùn)行其它數(shù)據(jù)。 這種差別提升了對(duì)訓(xùn)練數(shù)據(jù)量和并行計(jì)算能力的需求,降低了對(duì)人工理解功能原理的要求。
傳統(tǒng)計(jì)算架構(gòu)無法支撐深度學(xué)習(xí)的海量數(shù)據(jù)并行運(yùn)算
根據(jù)上文的分析我們可以看到,深度學(xué)習(xí)與傳統(tǒng)計(jì)算模式最大的區(qū)別就是不需要編程,但需要海量數(shù)據(jù)并行運(yùn)算。
傳統(tǒng)處理器架構(gòu)(包括x86 和ARM 等)往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理,因此無法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求。
為什么傳統(tǒng)計(jì)算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求?因?yàn)閭鹘y(tǒng)計(jì)算架構(gòu)計(jì)算資源有限。
傳統(tǒng)計(jì)算架構(gòu)一般由中央運(yùn)算器(執(zhí)行指令計(jì)算)、中央控制器(讓指令有序執(zhí)行)、內(nèi)存 (存儲(chǔ)指令)、輸入(輸入編程指令)和輸出(輸出結(jié)果)五個(gè)部分構(gòu)成,其中中央運(yùn)算器和中央控制器集成一塊芯片上構(gòu)成了我們今天通常所講的 CPU。
我們從CPU 的內(nèi)部結(jié)構(gòu)可以看到:實(shí)質(zhì)上僅單獨(dú)的 ALU 模塊(邏輯運(yùn)算單元)是用來完成指令數(shù)據(jù)計(jì)算的,其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,同時(shí)可以通過提升CPU 主頻(提升單位時(shí)間執(zhí)行指令速度)來提升計(jì)算速度。
但對(duì)于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求,這種結(jié)構(gòu)就顯得非常笨拙。尤其是在目前功耗限制下無法通過提升CPU 主頻來加快指令執(zhí)行速度,這種矛盾愈發(fā)不可調(diào)和。因此,深度學(xué)習(xí)需要更適應(yīng)此類算法的新的底層硬件來加速計(jì)算過程,也就是說,新的硬件對(duì)我們加速深度學(xué)習(xí)發(fā)揮著非常重要的作用。目前主要的方式是使用已有的GPU、FPGA 等通用芯片。
新計(jì)算平臺(tái)生態(tài)正在建立
GPU 因其并行計(jì)算優(yōu)勢(shì)最先被引入深度學(xué)習(xí)
GPU作為應(yīng)對(duì)圖像處理需求而出現(xiàn)的芯片,其海量數(shù)據(jù)并行運(yùn)算的能力與深度學(xué)習(xí)需求不謀而合,因此,被最先引入深度學(xué)習(xí)。
2011 年吳恩達(dá)率先將其應(yīng)用于谷歌大腦中便取得驚人效果,結(jié)果表明12 顆NVIDIAD 的GPU 可以提供相當(dāng)于2000 顆CPU 的深度學(xué)習(xí)性能,之后紐約大學(xué)、多倫多大學(xué)以及瑞士人工智能實(shí)驗(yàn)室的研究人員紛紛在GPU 上加速其深度神經(jīng)網(wǎng)絡(luò)。
英偉達(dá)(Nvidia)是全球可編程圖形處理技術(shù)的領(lǐng)軍企業(yè),公司的核心產(chǎn)品是GPU 處理器。
英偉達(dá)通過GPU 在深度學(xué)習(xí)中體現(xiàn)的出色性能迅速切入人工智能領(lǐng)域,又通過打造NVIDIA CUDA 平臺(tái)大大提升其編程效率、開放性和豐富性,建立了包含CNN、DNN、深度感知網(wǎng)絡(luò)、RNN、LSTM 以及強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)等算法的平臺(tái)。
根據(jù)英偉達(dá)公開宣布的消息來看,在短短兩年里,與NVIDIA 在深度學(xué)習(xí)方面展開合作的企業(yè)便激增了近35 倍,增至3,400 多家企業(yè),涉及醫(yī)療、生命科學(xué)、能源、金融服務(wù)、汽車、制造業(yè)以及娛樂業(yè)等多個(gè)領(lǐng)域。
英偉達(dá)針對(duì)各類智能計(jì)算設(shè)備開發(fā)對(duì)應(yīng)GPU,使得深度學(xué)習(xí)可以滲透各種類型的智能機(jī)器
IT 巨頭爭(zhēng)相開源人工智能平臺(tái)
深度學(xué)習(xí)系統(tǒng)一方面需要利用龐大的數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,另一方面系統(tǒng)中存在上萬個(gè)參數(shù)需要調(diào)整。
IT 巨頭開源人工智能平臺(tái),旨在調(diào)動(dòng)更多優(yōu)秀的工程師共同參與發(fā)展其人工智能系統(tǒng)。開放的開發(fā)平臺(tái)將帶來下游應(yīng)用的蓬勃發(fā)展。最典型的例子就是谷歌開源安卓平臺(tái),直接促成下游移動(dòng)互聯(lián)網(wǎng)應(yīng)用的空前繁榮。
開源人工智能平臺(tái)可以增強(qiáng)云計(jì)算業(yè)務(wù)的吸引力和競(jìng)爭(zhēng)力
以谷歌為例,用戶使用開源的TensorFlow 平臺(tái)訓(xùn)練和導(dǎo)出自己所需要的人工智能模型,然后就可直接把模型導(dǎo)入TensorFlow Serving 對(duì)外提供預(yù)測(cè)類云服務(wù),相當(dāng)于TensorFlow 系列把整個(gè)用深度學(xué)習(xí)模型對(duì)外提供服務(wù)的方案全包了。
實(shí)質(zhì)上是將開源深度學(xué)習(xí)工具用戶直接變?yōu)槠湓朴?jì)算服務(wù)的用戶,包括阿里、亞馬遜在內(nèi)的云計(jì)算服務(wù)商都將機(jī)器學(xué)習(xí)平臺(tái)嵌入其中作為增強(qiáng)其競(jìng)爭(zhēng)實(shí)力和吸引更多用戶的方式。
2015 年以來,全球人工智能頂尖巨頭均爭(zhēng)向開源自身最核心的人工智能平臺(tái),各種開源深度學(xué)習(xí)框架層出不窮,其中包括:Caffe、CNTK、MXNet、Neon、TensorFlow、Theano 和 Torch等。
人工智能催生新一代專用計(jì)算芯片
回顧計(jì)算機(jī)行業(yè)發(fā)展史,新的計(jì)算模式往往催生新的專用計(jì)算芯片。人工智能時(shí)代新計(jì)算的強(qiáng)大需求,正在催生出新的專用計(jì)算芯片。
GPU 及其局限性目前以深度學(xué)習(xí)為代表的人工智能新計(jì)算需求,主要采用GPU、FPGA 等已有適合并行計(jì)算的通用芯片來實(shí)現(xiàn)加速。
在產(chǎn)業(yè)應(yīng)用沒有大規(guī)模興起之時(shí),使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn),但是,由于這類通用芯片設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),因而,天然存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問題將日益突出。
GPU 作為圖像處理器,設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中需要大規(guī)模并行計(jì)算。因此,其在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)方面的局限性:
第一, 應(yīng)用過程中無法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié),GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理, 并行度的優(yōu)勢(shì)不能完全發(fā)揮。
第二, 硬件結(jié)構(gòu)固定不具備可編程性。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU 無法像FPGA 一樣可以靈活的配置硬件結(jié)構(gòu)。
第三, 運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于FPGA。學(xué)術(shù)界和產(chǎn)業(yè)界研究已經(jīng)證明,運(yùn)行深度學(xué)習(xí)算法中實(shí)現(xiàn)同樣的性能,GPU 所需功耗遠(yuǎn)大于FPGA,例如國(guó)內(nèi)初創(chuàng)企業(yè)深鑒科技基于FPGA 平臺(tái)的人工智能芯片在同樣開發(fā)周期內(nèi)相對(duì)GPU 能效有一個(gè)數(shù)量級(jí)的提升。
FPGA 及其局限性
FPGA,即現(xiàn)場(chǎng)可編輯門陣列,是一種新型的可編程邏輯器件。其設(shè)計(jì)初衷是為了實(shí)現(xiàn)半定制芯片的功能,即硬件結(jié)構(gòu)可根據(jù)需要實(shí)時(shí)配置靈活改變。
研究報(bào)告顯示,目前的FPGA市場(chǎng)由Xilinx 和Altera 主導(dǎo),兩者共同占有85%的市場(chǎng)份額,其中Altera 在2015 年被intel以167 億美元收購(此交易為 intel 有史以來涉及金額最大的一次收購案例),另一家Xilinx則選擇與IBM 進(jìn)行深度合作,背后都體現(xiàn)了 FPGA 在人工智能時(shí)代的重要地位。
盡管 FPGA 倍受看好,甚至新一代百度大腦也是基于FPGA 平臺(tái)研發(fā),但其畢竟不是專門為了適用深度學(xué)習(xí)算法而研發(fā),實(shí)際仍然存在不少局限:
第一,基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性,F(xiàn)PGA 內(nèi)部有大量極細(xì)粒度的基本單元,但是每個(gè)單元的計(jì)算能力(主要依靠LUT 查找表)都遠(yuǎn)遠(yuǎn)低于CPU 和GPU 中的ALU模塊。
第二,速度和功耗相對(duì)專用定制芯片(ASIC)仍然存在不小差距。
第三,F(xiàn)PGA 價(jià)格較為昂貴,在規(guī)模放量的情況下單塊FPGA 的成本要遠(yuǎn)高于專用定制芯片。
人工智能定制芯片是大趨勢(shì),從發(fā)展趨勢(shì)上看,人工智能定制芯片將是計(jì)算芯片發(fā)展的大方向:
第一, 定制芯片的性能提升非常明顯。例如 NVIDIA 首款專門為深度學(xué)習(xí)從零開始設(shè)計(jì)的芯片Tesla P100 數(shù)據(jù)處理速度是其2014 年推出GPU 系列的12 倍。
谷歌為機(jī)器學(xué)習(xí)定制的芯片TPU 將硬件性能提升至相當(dāng)于按照摩爾定律發(fā)展7 年后的水平。需要指出的是這種性能的飛速提升對(duì)于人工智能的發(fā)展意義重大。
中國(guó)科學(xué)院計(jì)算所研究員、 寒武紀(jì)深度學(xué)習(xí)處理器芯片創(chuàng)始人陳云霽博士在《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》上撰文指出:通過設(shè)計(jì)專門的指令集、微結(jié)構(gòu)、人工神經(jīng)元電路、存儲(chǔ)層次,有可能在3~5 年內(nèi)將深度學(xué)習(xí)模型的類腦計(jì)算機(jī)的智能處理效率提升萬倍(相對(duì)于谷歌大腦)。
提升萬倍的意義在于,可以把谷歌大腦這樣的深度學(xué)習(xí)超級(jí)計(jì)算機(jī)放到手機(jī)中,幫助我們本地、實(shí)時(shí)完成各種圖像、語音和文本的理解和識(shí)別;更重要的是,具備實(shí)時(shí)訓(xùn)練的能力之后,就可以不間斷地通過觀察人的行為不斷提升其能力,成為我們生活中離不開的智能助理。
第二, 下游需求量足夠攤薄定制芯片投入的成本。
人工智能的市場(chǎng)空間將不僅僅局限于計(jì)算機(jī)、手機(jī)等傳統(tǒng)計(jì)算平臺(tái),從無人駕駛汽車、無人機(jī)再到智能家居的各類家電,至少數(shù)十倍于智能手機(jī)體量的設(shè)備需要引入感知交互能力。
而出于對(duì)實(shí)時(shí)性的要求以及訓(xùn)練數(shù)據(jù)隱私等考慮,這些能力不可能完全依賴云端,必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐。僅從這一角度考慮,人工智能定制芯片需求量就將數(shù)十倍于智能手機(jī)。
第三, 通過算法切入人工智能領(lǐng)域的公司希望通過芯片化、產(chǎn)品化來盈利。
目前通過算法切入人工智能領(lǐng)域的公司很多,包括采用語音識(shí)別、圖像識(shí)別、ADAS(高級(jí)駕駛輔助系統(tǒng)) 等算法的公司。由于它們提供的都是高頻次、基礎(chǔ)性的功能服務(wù),因此,僅僅通過算法來實(shí) 現(xiàn)商業(yè)盈利往往會(huì)遇到瓶頸。通過將各自人工智能核心算法芯片化、產(chǎn)品化,則不但提升了原有性能,同時(shí)也有望為商業(yè)盈利鋪平道路。
目前包括 Mobileye、商湯科技、地平線機(jī)器人等著名人工智能公司都在進(jìn)行核心算法芯片化的工作。
目前為人工智能專門定制芯片的大潮已經(jīng)開始逐步顯露,英偉達(dá)在今年宣布研發(fā)投入超過20億美元用于深度學(xué)習(xí)專用芯片,而谷歌為深度學(xué)習(xí)定制的TPU 芯片甚至已經(jīng)秘密運(yùn)行一年,該芯片直接支撐了震驚全球的人機(jī)圍棋大戰(zhàn)。我國(guó)的寒武紀(jì)芯片也計(jì)劃于今年開始產(chǎn)業(yè)化。人機(jī)圍棋大戰(zhàn)中的谷歌“阿爾法狗”(AlphaGo) 使用了約 170 個(gè)圖形處理器(GPU)和 1200 個(gè)中央處理器(CPU),這些設(shè)備需要占用一個(gè)機(jī)房,還要配備大功率的空調(diào),以及多名專家進(jìn)行系統(tǒng)維護(hù)。AlphaGo 目前用的芯片數(shù)量,將來如果換成中國(guó)人研制的“寒武紀(jì)”架構(gòu)的芯片,估計(jì)一個(gè)小盒子就全裝下了。這意味著“阿爾法狗”將可以跑得更快些。
人工智能專用芯片的涌現(xiàn)表明從芯片層面開啟的新一輪計(jì)算模式變革拉開帷幕,是人工智能產(chǎn)業(yè)正式走向成熟的拐點(diǎn)。
人工智能芯片發(fā)展路線圖設(shè)計(jì)芯片的目的是從加速深度學(xué)習(xí)算法到希望從底層結(jié)構(gòu)模擬人腦來更好實(shí)現(xiàn)智能。
目前人工智能芯片涵蓋了基于FPGA 的半定制、針對(duì)深度學(xué)習(xí)算法的全定制、類腦計(jì)算芯片三個(gè)階段。
基于FPGA 的半定制人工智能芯片在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下,利用具備可重構(gòu)特性的FPGA 芯片來實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇。這類芯片中的杰出代表是國(guó)內(nèi)初創(chuàng)公司深鑒科技,該公司設(shè)計(jì)了“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU)的芯片,希望以ASIC 級(jí)別的功耗來達(dá)到優(yōu)于GPU 的性能,其第一批產(chǎn)品就是基于FPGA 平臺(tái)。這種半定制芯片雖然依托于FPGA 平臺(tái),但是利用抽象出了指令集與編譯器,可以快速開發(fā)、快速迭代,與專用的FPGA 加速器產(chǎn)品相比,也具有非常明顯的優(yōu)勢(shì)。
針對(duì)深度學(xué)習(xí)算法的全定制人工智能芯片
這類芯片是完全采用ASIC 設(shè)計(jì)方法全定制,性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法都做到了最優(yōu)。谷歌的TPU 芯片、我國(guó)中科院計(jì)算所的寒武紀(jì)深度學(xué)習(xí)處理器芯片就是這類芯片的典型代表。
以寒武紀(jì)處理器為例,目前寒武紀(jì)系列已包含三種原型處理器結(jié)構(gòu):
寒武紀(jì)1 號(hào)(英文名DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu))、寒武紀(jì)2 號(hào)(英文名 DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò))、寒武紀(jì)3 號(hào)(英文名 PuDianNao,面向多種深度學(xué)習(xí)算法)。
其中寒武紀(jì)2 號(hào)在28nm 工藝下主頻為606MHz,面積67.7 mm2,功耗約16W。其單芯片性能超過了主流GPU 的21 倍,而能耗僅為主流GPU 的1/330。64 芯片組成的高效能計(jì)算系統(tǒng)較主流GPU 的性能提升甚至可達(dá)450 倍,但總能耗僅為1/150。
第三階段:類腦計(jì)算芯片這類芯片的設(shè)計(jì)目的不再局限于僅僅加速深度學(xué)習(xí)算法,而是在芯片基本結(jié)構(gòu)甚至器件層面上希望能夠開發(fā)出新的類腦計(jì)算機(jī)體系結(jié)構(gòu),比如會(huì)采用憶阻器和 ReRAM 等新器件來提高存儲(chǔ)密度。
這類芯片的研究離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù)還有很大的差距,甚至有很大的風(fēng)險(xiǎn),但是長(zhǎng)期來看類腦芯片有可能會(huì)帶來計(jì)算體系的革命。這類芯片的典型代表是IBM 的TrueNorth 芯片。
TrueNorth 處理器由54 億個(gè)連結(jié)晶體管組成,構(gòu)成了包含100 萬個(gè)數(shù)字神經(jīng)元陣列,這些神經(jīng)元又可通過2.56 億個(gè)電突觸彼此通信。該芯片采用跟傳統(tǒng)馮諾依曼不一樣的結(jié)構(gòu),將內(nèi)存、處理器單元和通信部件完全集成在一起,因此信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動(dòng)作電位),這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作實(shí)現(xiàn)事件驅(qū)動(dòng)的異步電路特性。由于不需要同步時(shí)鐘該芯片功耗極低:16 個(gè)TrueNorth 芯片的功耗僅為2.5 瓦,僅與平板電腦相當(dāng)。
類腦計(jì)算芯片市場(chǎng)空間巨大
據(jù)預(yù)測(cè),包含消費(fèi)終端的類腦計(jì)算芯片市場(chǎng)將在2022 年以前達(dá)到千億美元的規(guī)模,其中消費(fèi)終端是最大市場(chǎng),占整體98.17%,其它需求包括工業(yè)檢測(cè)、航空、軍事與國(guó)防等領(lǐng)域。
核心芯片是人工智能時(shí)代的戰(zhàn)略制高點(diǎn)
核心芯片將決定一個(gè)新的計(jì)算時(shí)代的基礎(chǔ)架構(gòu)和未來生態(tài),因此,谷歌、微軟、IBM、Facebook等全球IT 巨頭都投巨資加速人工智能核心芯片的研發(fā),旨在搶占新計(jì)算時(shí)代的戰(zhàn)略制高點(diǎn),掌控人工智能時(shí)代主導(dǎo)權(quán)。
回顧在PC 和移動(dòng)互聯(lián)網(wǎng)時(shí)代分別處于霸主地位的X86 架構(gòu)和ARM 架構(gòu)的發(fā)展歷程,可以看到:從源頭上掌控核心芯片架構(gòu)取得先發(fā)優(yōu)勢(shì),對(duì)于取得一個(gè)新計(jì)算時(shí)代主導(dǎo)權(quán)有多么重要。
英特爾X86 處理器芯片壟斷PC 時(shí)代
計(jì)算機(jī)指令集架構(gòu)可以分為復(fù)雜指令集(CISC)和精簡(jiǎn)指令集(RISC)兩種。PC 時(shí)代處于壟斷地位的X86 架構(gòu)就是屬于復(fù)雜指令集。復(fù)雜指令集在處理復(fù)雜指令上具備先天優(yōu)勢(shì),但同時(shí)也存在設(shè)計(jì)復(fù)雜、難以流水作業(yè)、高功耗的問題。實(shí)質(zhì)上精簡(jiǎn)指令集正是上世紀(jì)80 年代 針對(duì)復(fù)雜指令集缺點(diǎn)設(shè)計(jì)出來的,學(xué)術(shù)界當(dāng)時(shí)一致認(rèn)為精簡(jiǎn)指令集更為領(lǐng)先。
但是PC 時(shí)代的芯片霸主英特爾早在精簡(jiǎn)指令集發(fā)明之前的處理器芯片8086 就采用了復(fù)雜指令集的X86架構(gòu),在后續(xù)的80286、80386 等系列處理器芯片繼續(xù)采用兼容的X86 架構(gòu),同時(shí)加強(qiáng)每一代處理器對(duì)上層軟件的兼容,并與微軟建立了 Wintel 聯(lián)盟牢牢支撐整個(gè)PC 的應(yīng)用生態(tài)。
習(xí)慣了使用英特爾X86 處理器的軟件公司不再愿意使用其他架構(gòu)的處理器,即使它們的性能更好。其結(jié)果就是:上世紀(jì)90 年代幾乎只有英特爾一家公司堅(jiān)持開發(fā)X86 架構(gòu)的處理器,卻戰(zhàn)勝了MIPS、PowerPC、IBM、HP、DEC 等及其他各家精簡(jiǎn)指令集的處理器,X86 架構(gòu)牢牢掌控了PC 時(shí)代的主導(dǎo)權(quán)。
ARM 成為移動(dòng)互聯(lián)網(wǎng)時(shí)代的霸主
移動(dòng)互聯(lián)網(wǎng)時(shí)代,英特爾并沒有延續(xù)其在PC 時(shí)代的優(yōu)勢(shì),而是一家此前名不見經(jīng)傳的英國(guó)芯片設(shè)計(jì)公司ARM 成為壟斷移動(dòng)處理器芯片的新霸主。
ARM 的成功有三方面的原因:第一, ARM 在20 世紀(jì)90 年代初為蘋果公司設(shè)計(jì)CPU 起家(ARM 是由 Acorn、蘋果和VLSI Technology 聯(lián)合出資成立),因而其在智能手機(jī)革命開啟之初就進(jìn)入了這個(gè)快速成長(zhǎng)的市場(chǎng),與蘋果的關(guān)系奠定了其架構(gòu)在移動(dòng)處理器市場(chǎng)先發(fā)優(yōu)勢(shì)。
第二, ARM 處理器隸屬于精簡(jiǎn)指令架構(gòu),相對(duì)于復(fù)雜指令架構(gòu)的X86 處理器天然具備低功耗優(yōu)勢(shì),而這在移動(dòng)市場(chǎng)極為重要。
第三, ARM 創(chuàng)造了只授權(quán)核心設(shè)計(jì)IP 不生產(chǎn)芯片的商業(yè)模式,迅速拉攏各大芯片巨頭建立自己的生態(tài)聯(lián)盟。
ARM 的成功給我們的啟示是:
一、新的計(jì)算時(shí)代來臨之時(shí)往往是新興企業(yè)彎道超車的絕佳機(jī)遇,再強(qiáng)勢(shì)的傳統(tǒng)巨頭也難免面臨重新洗牌的局面。
二、把握核心芯片架構(gòu)的先發(fā)優(yōu)勢(shì),在此基礎(chǔ)上迅速建立生態(tài)體系是在一個(gè)新計(jì)算變革時(shí)代來臨時(shí)的成功關(guān)鍵。
三、目前使用的GPU、FPGA 均非人工智能定制芯片,天然存在局限性,人工智能專用芯片對(duì)于巨頭和初創(chuàng)企業(yè)都同一起跑線的藍(lán)海。
我們正處在從信息時(shí)代邁向智能時(shí)代的重要拐點(diǎn),人工智能將推動(dòng)新一輪計(jì)算革命,而芯片行業(yè)作為產(chǎn)業(yè)最上游,是人工智能時(shí)代的開路先鋒:
一方面具備行業(yè)先導(dǎo)指標(biāo)的意義,另一方面也是在人工智能產(chǎn)業(yè)發(fā)展初期率先啟動(dòng)、彈性最大的行業(yè)。信息時(shí)代產(chǎn)生了英特爾這樣的千億市值的芯片巨頭,擁有更大應(yīng)用市場(chǎng)的人工智能時(shí)代必將孕育出更多的“英特爾”。