1000倍提升!未來芯片、計算、編程將這樣發(fā)展
“未來早已到來,只是分布不均?!?——William Gibson
如何讓算力在低功耗的情況下提升1000倍?乍一聽似乎有些荒唐,但實際上利用量子疊加和量子糾纏概念的量子計算早已步入所有人的視線之中,看似遙遠(yuǎn)而又科幻的目標(biāo)其實離現(xiàn)實越來越近。
英特爾作為一家圍繞數(shù)據(jù)為中心的企業(yè),目前正在逐步強(qiáng)化異構(gòu)計算方面對算力和功耗的優(yōu)化。實際上,英特爾的目標(biāo)是讓每個人都能獲得百億億級次計算,英特爾研究院正在實現(xiàn)這一目標(biāo)。
英特爾這家公司對“5”這個數(shù)字似乎情有獨(dú)鐘,不僅從5年前就開始布局xPU+oneAPI的軟硬件生態(tài)超異構(gòu)計算,還在近期展示了5年后的CPU路線圖。但事實上,英特爾還規(guī)劃了5年、十幾年甚至更久才能達(dá)成的超前沿技術(shù)項目,充分釋放數(shù)據(jù)的價值。
在近期的英特爾研究院開放日上,英特爾“秀”出其超前沿的技術(shù),目標(biāo)是追求1000倍提升。英特爾實現(xiàn)1000倍提升主要是聚焦在集成光電、神經(jīng)擬態(tài)計算、量子計算、保密計算和機(jī)器編程五大領(lǐng)域。
需要注意的是,雖然英特爾在明碼數(shù)字上標(biāo)注的是追求1000倍提升,但實際上神經(jīng)擬態(tài)計算早已超過千倍提升,機(jī)器編程的提升更是從0到無窮大。
本次展示新技術(shù)既是一種布局,也是一種互補(bǔ),將與現(xiàn)行的異構(gòu)計算相輔相成,最終實現(xiàn)新技術(shù)架構(gòu)和傳統(tǒng)架構(gòu)依據(jù)不同應(yīng)用實施。
尺寸小1000倍:集成光電
英特爾首先展示的1000倍提升的技術(shù)是集成光電,主要目的是將光科學(xué)與大規(guī)模芯片生產(chǎn)的成本效益相結(jié)合,這也是業(yè)界首次被提出來的概念。利用光互連I/O直接集成到服務(wù)器和封裝中,可以對數(shù)據(jù)中心進(jìn)行革新,實現(xiàn)1000倍提升,同時降低成本。
根據(jù)英特爾的介紹,雖然英特爾研究院經(jīng)過幾代的改進(jìn),從單鏈路多I/O協(xié)議架構(gòu)演進(jìn)為Thunderbolt和USB Type-C電氣I/O,性能性能有了顯著提升,但電氣性能擴(kuò)展速度較慢仍然較慢,因此英特爾探索是否通過光互連解決這一挑戰(zhàn)。
英特爾認(rèn)為現(xiàn)在是從電氣I/O遷移到光互連I/O的重要拐點(diǎn),究其原因是電氣性能正在快速逼近物理極限,另外電氣性能擴(kuò)展的速度跟不上帶寬需求的三年翻一番的需求,這就會產(chǎn)生I/O功耗墻,I/O功耗會逐漸高于所有現(xiàn)有插接電源導(dǎo)致無法計算。
光互連技術(shù)主要涉及五個技術(shù)要素,包括光產(chǎn)生、光放大、光檢測、光調(diào)制、CMOS 接口電路和封裝集成,而英特爾近期在幾大技術(shù)構(gòu)建模塊上實現(xiàn)重大創(chuàng)新,并展示了集成光子學(xué)原型。
1、光調(diào)制:傳統(tǒng)硅調(diào)制器體積巨大,占據(jù)空間過多,因此IC封裝成本很高。英特爾開發(fā)了微型微射線調(diào)制器,其體積縮小1000倍,因此在服務(wù)器封裝上可以放置幾百個這種器件。
2、光探測:幾十年來,業(yè)界一直認(rèn)為硅幾乎不具備光探測能力,但英特爾證明事實并非如此。英特爾開發(fā)了全硅光電探測器,這項技術(shù)可以降低成本。
3、光放大:如若想要降低總功耗,集成半導(dǎo)體光學(xué)放大器是不可或缺的技術(shù),在此方面英特爾推出了集成半導(dǎo)體光學(xué)放大器。
4、協(xié)同集成:集成非常重要,不僅可以降低成本還可以優(yōu)化功耗,也是集成光電最核心的工藝。英特爾主要利用3D堆疊CMOS電路與光子直連,這主要憑借的是英特爾強(qiáng)大的封裝集成技術(shù)。
根據(jù)英特爾的介紹,目前還沒有其他公司展示過將集成激光器、半導(dǎo)體光學(xué)放大器、全硅光電探測器和微型環(huán)調(diào)制器集成在一個與CMOS硅緊密集成的單個技術(shù)平臺上的解決方案。
實際上,這得益于英特爾在硅光子上的長久研發(fā),早在2016年,英特爾就推出了一款全新的硅光子產(chǎn)品“100G PSM4”能夠在獨(dú)立的硅芯片上實現(xiàn)近乎光速的數(shù)據(jù)傳輸,目前英特爾已經(jīng)為客戶提供超過400萬個100G的硅光子產(chǎn)品。
筆者認(rèn)為,行業(yè)已經(jīng)意識到“以光代電”的重要性,行業(yè)對于光的高帶寬、抗干擾特性有了越來越深的理解。英特爾英特爾展示的這一整套方案,最為重要的便是集成,也是最大的突破。
英特爾中國研究院院長宋繼強(qiáng)表示,集成光電主要突破和進(jìn)展就是把很多原來分離的尺寸比較大的模塊,用新的技術(shù)集成到一起去了。值得一提的是,這種技術(shù)目前已經(jīng)開始應(yīng)用了,已有客戶板內(nèi)已開始利用這種設(shè)計。
速度功耗提升1000倍:新型計算
英特爾在高效計算方面追求1000倍提升主要依托三種前沿計算技術(shù),分別是神經(jīng)擬態(tài)計算、量子計算和保密計算,這三種方式分別擁有不同的專長:
1、神經(jīng)擬態(tài)計算:計算和內(nèi)存混合的全新架構(gòu)
神經(jīng)擬態(tài)計算靈感來源于大腦,英特爾用無人機(jī)和玄鳳鸚鵡進(jìn)行舉例說明:無人機(jī)板載處理器要消耗18W的電力,利用最先進(jìn)的AI技術(shù),無人機(jī)只能勉強(qiáng)以步行速度通過預(yù)先編程在幾扇門間自主飛行。反觀玄鳳鸚鵡,大腦僅僅2克重,能耗相當(dāng)于50mW,體重比無人機(jī)輕20倍,能耗低350倍,但卻可以順利完成飛行、覓食甚至學(xué)習(xí)人類語言的能力。
英特爾方面則在2015年開始以現(xiàn)代神經(jīng)科學(xué)理解作為靈感開發(fā)了一種新型架構(gòu),這種架構(gòu)可以利用標(biāo)準(zhǔn)計算+并行計算+神經(jīng)擬態(tài)計算的方式進(jìn)行不同計算的分工。
神經(jīng)擬態(tài)計算相比傳統(tǒng)計算機(jī)架構(gòu)來說,完全模糊了內(nèi)存和處理之間的界限,處理就發(fā)生在信息達(dá)到之時,如同大腦中的神經(jīng)元一樣。換言之,就是把計算和內(nèi)存混合在一起的一種全新架構(gòu)模式。
2017年,英特爾發(fā)布了首款神經(jīng)擬態(tài)芯片“Loihi”,這款芯片沒有片外內(nèi)存接口,通過二進(jìn)制脈沖信息和低精度信號直接在芯片上計算,另外這款芯片還具有片上學(xué)習(xí)功能,遠(yuǎn)超目前所有芯片。2020年初發(fā)布,英特爾發(fā)布Pohoiki Springs 系統(tǒng),該系統(tǒng)采用768個Loihi芯片,并包含1億個神經(jīng)元。
之后,英特爾成立英特爾神經(jīng)擬態(tài)研究社區(qū)(INRC),目前已吸納超過100個團(tuán)體,擁有十幾家500強(qiáng)企業(yè)成員,如埃森哲、空中客車、通用電氣等。
根據(jù)本次會議上報告顯示,INRC 已經(jīng)發(fā)表了40 多篇經(jīng)過同行評審的論文,其中許多論文中都記錄了量化結(jié)果,證明這項技術(shù)能夠帶來有效的性能提升。
部分機(jī)器人工作負(fù)載顯示,Loihi的功耗比傳統(tǒng)解決方案低40-100倍;大規(guī)模PohoikiSprings系統(tǒng)上相比CPU實施方法,功耗降低45倍,運(yùn)行速度快100多倍;Loihi還可以解決較難的優(yōu)化問題,如約束滿足和圖形搜索,運(yùn)行速度比CPU快100倍,但功耗比CPU低1000多倍。
值得一提的是,雖然英特爾研究院開放日的主題是圍繞1000倍提升展開,但實際上對于神經(jīng)擬態(tài)計算研究1000倍已經(jīng)一個很低的標(biāo)準(zhǔn)了,某些情況下英特爾的能效和計算速度是超過千倍的。
宋繼強(qiáng)強(qiáng)調(diào),神經(jīng)擬態(tài)計算的應(yīng)用最適合的是在邊緣,因為這項技術(shù)可以以很高的能效比去完成以前高功耗的GPU模型算法才能做的事。
另外,英特爾宣布聯(lián)想、羅技、梅賽德斯-奔馳和機(jī)器視覺傳感器公司Prophesee加入英特爾神經(jīng)擬態(tài)研究社區(qū),共同探索神經(jīng)擬態(tài)計算在商業(yè)用例上的價值。同時將在2021年第一季度,發(fā)布下一代“Lava”軟件開發(fā)框架的開源版本,服務(wù)更多軟件開發(fā)人員。
2、量子計算:自旋量子技術(shù)、低溫控制技術(shù)、全棧創(chuàng)新助力構(gòu)建商用量子計算機(jī)
量子計算作為全新的計算模式已經(jīng)逐漸成為許多企業(yè)和國家的發(fā)展重點(diǎn),這一詞語已經(jīng)時常刷屏,但具體該怎么理解呢?
英特爾用硬幣對這個概念進(jìn)行了解釋:傳統(tǒng)的數(shù)字計算需要把數(shù)據(jù)編碼為二進(jìn)制數(shù)字,只有0或1兩種狀態(tài),就像硬幣的正面和反面。而量子計算使用量子位,可以同時處于多個狀態(tài),就像一枚旋轉(zhuǎn)中的硬幣,可以同時是正面和反面。
2個糾纏的量子位就可以表示同時混合的4種狀態(tài),而n個量子位就可以代表2的n次方種狀態(tài)——50個糾纏的量子位所獲得的狀態(tài)數(shù)量就將超過任何超級計算機(jī)。如果有300個糾纏的量子位,那能夠同時表示的狀態(tài)就比宇宙中原子的數(shù)量還要多。
英特爾此前一直強(qiáng)調(diào)的都是量子的實用性上,這是因為量子位非常脆弱,目前僅僅有幾百或數(shù)千量子位是沒有辦法造出一臺商用級量子計算機(jī)。英特爾的量子計算擁有自旋量子技術(shù)、低溫控制技術(shù)、全棧創(chuàng)新的特點(diǎn),為構(gòu)建商用量子計算機(jī)提供了堅實的基礎(chǔ)。
另外,英特爾推出了第二代低溫控制芯片Horse Ridge II,這款芯片是相比2019年推出的第一代產(chǎn)品擁有更高的集成度,支持操縱和讀取量子位態(tài)的能力,支持多個量子位糾纏所需的多個柵極電位的控制能力。
3、保密計算:聯(lián)邦學(xué)習(xí)、完全同態(tài)加密讓安全更進(jìn)一步
在保密計算上英特爾主要依靠聯(lián)邦學(xué)習(xí)和完全同態(tài)加密實現(xiàn)1000倍提升。既然算力被神經(jīng)擬態(tài)計算和量子計算提升數(shù)千倍,背后隱含的是龐大的安全問題。英特爾認(rèn)為,保密計算需要提供數(shù)據(jù)數(shù)據(jù)保密性、執(zhí)行完整性和認(rèn)證功能,防止機(jī)密泄露、防止計算篡改、驗證軟硬件真實性。
所謂聯(lián)邦學(xué)習(xí),主要是保護(hù)分屬不同所有者的多個系統(tǒng)和數(shù)據(jù)。英特爾表示,在零售、制造、醫(yī)療、金融服務(wù)等許多行業(yè),最大的數(shù)據(jù)集往往都被限制在多方手里的數(shù)據(jù)孤島中。這阻礙了使用機(jī)器學(xué)習(xí)工具從數(shù)據(jù)中獲得洞察。通過聯(lián)邦學(xué)習(xí),英特爾將計算進(jìn)行了拆分,這樣就可以用各方本地的數(shù)據(jù)訓(xùn)練本地的算法,然后將獲取的信息發(fā)送至中央聚合站點(diǎn),數(shù)據(jù)不共享,價值仍釋放。
完全同態(tài)加密則是一種全新的加密系統(tǒng),它允許應(yīng)用在不暴露數(shù)據(jù)的情況下,直接對加密數(shù)據(jù)執(zhí)行計算操作。該技術(shù)已逐漸成為委托計算中用于保護(hù)數(shù)據(jù)隱私的主要方法。
根據(jù)宋繼強(qiáng)的介紹,具體的原理就是,原本明文的算法模型用同臺加密的方法處理后,變成了一個1000倍大的數(shù)據(jù)流,將數(shù)據(jù)流訓(xùn)練后再返還為訓(xùn)練好的模型。很多情況下, 這一數(shù)據(jù)流最好擴(kuò)大到萬倍以上才擁有實用性。
但與此同時,內(nèi)存存儲、計算量、網(wǎng)絡(luò)通訊都被放大了很多倍,這會導(dǎo)致開銷增加,因此這一技術(shù)尚未廣泛應(yīng)用,未來新一代的硬件支持便可實用化。另外,英特爾希望普及這項技術(shù),目前正在研究新的軟硬件方法,并與生態(tài)系統(tǒng)和標(biāo)準(zhǔn)機(jī)構(gòu)開展合作。
從0到無窮大倍的提升:機(jī)器編程
除了在硬件上的1000倍提升,英特爾還著重提出在機(jī)器編程效率上的提升。誠然,強(qiáng)悍的硬件必然能夠獲得出色的表現(xiàn),但編碼效率提升意味著更快的上市速度和更少的成本。而這種提升就不僅僅是用1000這種數(shù)字進(jìn)行量化了,實際對于未來業(yè)界的幫助是無窮大的。
英特爾為此提出了機(jī)器編程的概念,AI的誕生使得各行各業(yè)都變得越來越自動化,而未來機(jī)器本身也將會為自己構(gòu)筑程序。機(jī)器編程與機(jī)器學(xué)習(xí)的不同之處就是計算機(jī)可以自動編寫軟件的軟件。
“機(jī)器編程”這一詞在英特爾研究院和麻省理工學(xué)院聯(lián)合發(fā)布的《機(jī)器編程的三大支柱》論文中首次提出,論文中認(rèn)為機(jī)器編程的三大支柱是意圖(Intention)、創(chuàng)造(Invention)和適應(yīng)(Adaptation),開發(fā)機(jī)器編程的主要目的在于通過自動化工具提升開發(fā)效率。
根據(jù)英特爾的介紹,異構(gòu)計算的到來,使得編碼的難度越來越高,未來神經(jīng)擬態(tài)計算、量子計算、保密計算成為主流也會使得編碼越來越復(fù)雜。數(shù)據(jù)顯示,全球78億任重,只有2700萬人會編寫程序,占比不到1%。很多不懂得編程的農(nóng)業(yè)、生物、建筑、醫(yī)療、金融等專家其實非常清楚地知道想要軟件做什么,但市面又缺乏類似的軟件。利用機(jī)器編程便可以讓每個人都能創(chuàng)建軟件,英特爾的愿望是將1%變?yōu)?span>100%。
另一方面,數(shù)據(jù)顯示程序員在編寫程序時,50%的時間都用在Debug上。利用機(jī)器編程可以可以自動識別、分析、糾正bug,提高程序員2倍的開發(fā)效率。
文行至此,可能很多人會疑問編程人員是否會被替代,程序員是否會失業(yè)?根據(jù)英特爾的介紹,實際上機(jī)器編程不僅不會取代專業(yè)程序員,還會創(chuàng)造數(shù)千萬到數(shù)億個就業(yè)機(jī)會。這是因為,機(jī)器編程需要大量的數(shù)據(jù)基礎(chǔ),而這些專業(yè)數(shù)據(jù)仍然需要由專業(yè)程序員編寫,因此高技能程序員需求將會持續(xù)增加,專業(yè)程序員寫的程序越多,機(jī)器編程就更先進(jìn);對于不會編程的人員來說,只需向機(jī)器表達(dá)自己的想法就能創(chuàng)造相應(yīng)的軟件,可以降低行業(yè)準(zhǔn)入門檻。
總結(jié)
“未來10年是架構(gòu)創(chuàng)新的黃金10年”,宋繼強(qiáng)表示,提出追求1000倍提升這一主題,是英特爾研究院設(shè)立項目目標(biāo)提出的一個要求,最終將要追求千倍級的改變。
英特爾之所以強(qiáng)大的原因便是不斷的研發(fā)和投入。此前,筆者曾經(jīng)介紹英特爾正在布局超異構(gòu)計算,并在硬件上擁有CPU、獨(dú)立GPU、FPGA、eASIC、ASIC、VPU、內(nèi)存和存儲等,在軟件上擁有統(tǒng)一開發(fā)平臺oneAPI。
英特爾本次“秀”出的全新技術(shù),都是需要5年甚至十幾年才能實現(xiàn)的超前沿技術(shù)。英特爾此前曾經(jīng)說過:“作為一家高科技公司,永遠(yuǎn)要站在最前端,看到別人看不到的東西,不斷創(chuàng)新技術(shù)去抓住每一次增長的機(jī)會,同時也必須要有駕馭危機(jī)的能力。”通過布局全新產(chǎn)業(yè),相信產(chǎn)業(yè)將會迎來新的變革。