如何解決數(shù)據(jù)中心內(nèi)存瓶頸,提高不同AI加速器芯片和DRAM之間的數(shù)據(jù)搬運效率?——專訪Rambus杰出發(fā)明家Steven Woo和安全研究員Helena Handschuh
所謂AI加速器,是指專門用于特定應(yīng)用程序的芯片,在其設(shè)計上采用了更適合目標(biāo)特定任務(wù)代碼的硬件架構(gòu)。在摩爾定律失效之后,轉(zhuǎn)而尋求新的算力增長曲線是一個問題。而近年來人工智能的崛起,無疑對于算力提出了更高的要求,而也正是一系列專門的AI加速器的出現(xiàn),推動著大模型的持續(xù)發(fā)展。
在數(shù)據(jù)中心,追求通用的靈活性和專用的高能效的需求同時存在,也就促使我們開始構(gòu)建一種全面異構(gòu)計算的架構(gòu)。除了CPU和GPU外,各種專用ASIC、FPGA、DPU、TPU等新的專用加速計算芯片也被部署進(jìn)了數(shù)據(jù)中心里。
AI算力需求的提升,進(jìn)一步推升了AI加速器市場。據(jù)調(diào)研數(shù)據(jù)顯示,全球數(shù)據(jù)中心加速器市場2022年為334 億美元,預(yù)計到2030 年將達(dá)到3515億美元,復(fù)合年增長率為34.2%。
但只有足夠高的算力就夠了嗎?并不是。在各種加速器芯片和DRAM之間的數(shù)據(jù)搬運帶寬也要跟得上,才能讓算力發(fā)揮出來。而在當(dāng)前的每個服務(wù)器中,有幾十個不同類型的處理器;為了突破內(nèi)存瓶頸問題,也有了多種的內(nèi)存技術(shù)和標(biāo)準(zhǔn)。如何解決數(shù)據(jù)中心各種不同的加速器和內(nèi)存之間的數(shù)據(jù)搬運問題?Rambus提供了一套全面的IP解決方案,包括速率高達(dá)8.4GbpsHBM3的內(nèi)存子系統(tǒng),內(nèi)置業(yè)界領(lǐng)先零延遲IDE安全模塊的最新CXL 2.0控制器,以及面向下一代數(shù)據(jù)中心的PCIe 6.0控制器。
在近日我們有幸采訪到了Rambus研究員、杰出發(fā)明家Steven Woo,以及Rambus安全研究員Helena Handschuh。兩位就AI加速器和數(shù)據(jù)安全問題進(jìn)行了深入的分享。
21ic:當(dāng)前PC和計算市場正在經(jīng)歷下行周期,汽車、工業(yè)市場還保持較好增長勢頭。這種態(tài)勢會對AI加速器市場造成多大影響?
Steven Woo:無論終端市場的周期性影響如何,AI這一長期趨勢正在推動行業(yè)增長。根據(jù)IDC數(shù)據(jù),全球人工智能(AI)支出,包括以AI為中心的系統(tǒng)的軟件、硬件和服務(wù),將在2022年達(dá)到近1180億美元,在2026年突破3000億美元。
AI加速器能夠在更加接近數(shù)據(jù)源的邊緣進(jìn)行AI計算,有助于減少此類場景中的AI系統(tǒng)延遲并提高其可靠性,其需求將隨著自動駕駛汽車、智慧城市和其他邊緣計算場景等領(lǐng)域AI應(yīng)用需求的增加而不斷增長。
隨著各個行業(yè)對AI解決方案的需求日益增加,支持這些AI應(yīng)用的硬件加速器的需求也將相應(yīng)增加,AI加速器市場也將持續(xù)增長,進(jìn)一步推動AI產(chǎn)業(yè)的發(fā)展。
21ic:對于促進(jìn)AI加速器市場的發(fā)展,半導(dǎo)體IP解決方案有多重要?
Steven Woo:半導(dǎo)體IP解決方案在促進(jìn)AI加速器市場方面發(fā)揮了至關(guān)重要的作用。成熟的半導(dǎo)體IP解決方案可以幫助降低芯片設(shè)計的復(fù)雜性和成本,并縮短將產(chǎn)品推向市場的時間,幫助廠商更快獲得收入,進(jìn)而加快后續(xù)產(chǎn)品的開發(fā)。縮短AI處理器的上市時間和收入實現(xiàn)時間有助于加快AI加速器市場的發(fā)展、增長和成熟。
使用內(nèi)存接口(如HBM和GDDR6)和芯片互連(如PCIe)半導(dǎo)體IP的AI加速器企業(yè)也可以集中開發(fā)計算引擎給產(chǎn)品帶來差異化優(yōu)勢。
21ic:如何看待當(dāng)下數(shù)據(jù)中心中百花齊放的加速器方案?這種局面對于加速器廠商的產(chǎn)品研發(fā)、數(shù)據(jù)中心廠商的部署上帶來了哪些機遇和挑戰(zhàn)?
Steven Woo:隨著各類數(shù)據(jù)中心應(yīng)用的不斷涌現(xiàn)和完善,更多領(lǐng)域開始采用AI解決方案。數(shù)量日益增加的AI應(yīng)用推動行業(yè)加快開發(fā)更好、更容易使用的AI加速器。我們認(rèn)為這一趨勢將在未來持續(xù)。
這一強勁的需求為加速器提供商帶來了充足的動力和廣闊的市場前景。為了使自己的加速器產(chǎn)品具有更強大的性能、更高的能效和更低的擁有成本等,他們不斷探索先進(jìn)的技術(shù)/解決方案和設(shè)計創(chuàng)新。
不斷發(fā)展的加速器應(yīng)用已成為數(shù)據(jù)中心的重要組成部分,并將在未來變得越來越重要,推動云計算、AI/ML、邊緣計算等各種用例的發(fā)展。專門用于這些應(yīng)用的處理引擎將逐漸實現(xiàn)新的和更好的用例。
為了將加速器集成到數(shù)據(jù)中心用例中,需要建立加速器解決方案的標(biāo)準(zhǔn)、規(guī)范和互操作性;另外,還需要來自數(shù)據(jù)中心的軟硬件支持,以盡可能高效地利用加速器為數(shù)據(jù)中心本身帶來更好的性能。
為了不斷提高加速器的處理能力,需要為它們提供更高性能的內(nèi)存和互連以支持先進(jìn)的計算引擎。提高這些重要子系統(tǒng)的性能和功率效率既是一項重大的挑戰(zhàn),也是一個巨大的機遇。
Rambus相信面對這些挑戰(zhàn)和機遇,IP提供商、組件制造商、加速器公司和數(shù)據(jù)中心服務(wù)提供商將更加密切地合作,一同推動更加強大的計算解決方案的部署和發(fā)展。
21ic:Rambus在信號完整性上頗有造詣,請問設(shè)計人員如何應(yīng)對當(dāng)前數(shù)據(jù)速率提升帶來的信號完整性挑戰(zhàn)?有什么建議?
Steven Woo:數(shù)據(jù)傳輸速率的不斷上升為確保整個系統(tǒng)的良好信號完整性帶來了許多挑戰(zhàn)。其中的一個重大挑戰(zhàn)是準(zhǔn)確模擬從發(fā)射器到接收器的整個數(shù)據(jù)路徑,以便在制造芯片和系統(tǒng)之前確認(rèn)數(shù)據(jù)傳輸?shù)目煽啃?,?jié)省成本和時間。
我們過去在內(nèi)存接口建模和開發(fā)方面積累的經(jīng)驗告訴了我們分析從處理器物理層到內(nèi)存這條完整路徑的重要性,包括電路板、連接器和封裝的影響等。這些建模能力也適用于其他類型的互連。建模對設(shè)計流程的重要性將隨著速率的增加而提高。
作為信號完整性(SI)和電源完整性(PI)領(lǐng)域久負(fù)盛名的領(lǐng)導(dǎo)者,Rambus 30多年來一直在提供市場上性能最強大的系統(tǒng)。借助像Rambus這樣的公司的專業(yè)知識和幫助,設(shè)計人員可以更好地應(yīng)對不斷提高的數(shù)據(jù)傳輸速率所帶來的信號完整性挑戰(zhàn)。
21ic:Rambus為加速器提供了全面的半導(dǎo)體IP解決方案組合。這種全面的組合能夠給客戶提供什么獨特的價值?
Steven Woo:Rambus的IP解決方案旨在提供高性能和高帶寬,幫助客戶的產(chǎn)品更好滿足AI/ML等計算密集型應(yīng)用日益增長的需求。成熟可靠的半導(dǎo)體IP解決方案可以幫助客戶縮短產(chǎn)品上市時間和收入實現(xiàn)時間、節(jié)省開發(fā)時間和成本并降低風(fēng)險。
Rambus為HBM3和GDDR6這些AI/ML加速器的首選存儲器提供了任何IP供應(yīng)商可提供的最高性能解決方案。這些解決方案包括物理層和內(nèi)存控制器,并且經(jīng)證明具有出色的協(xié)同性。憑借完整的子系統(tǒng)解決方案,客戶無須使用多家IP解決方案提供商,也無須自行驗證互操作性。綜合全面的Rambus產(chǎn)品組合讓客戶能夠靈活選擇他們最需要的IP解決方案,使他們能夠為自己的產(chǎn)品建立獨特的競爭優(yōu)勢。
數(shù)據(jù)安全在加速器中越發(fā)重要。為此,Rambus提供豐富、強大的信任根解決方案組合,包括用于云和AI/ML應(yīng)用的RT-630、用于汽車的RT-640/641以及用于FPGA的RT-630/660??蛻艨梢愿鶕?jù)自己的需求選擇合適的信任根解決方案來確保其AI加速器的數(shù)據(jù)安全。
21ic:量子計算讓某些加密算法變得不再安全。如何應(yīng)對量子計算時代的安全挑戰(zhàn)?整個安全的機制應(yīng)該如何設(shè)計,安全I(xiàn)P需要添加哪些新的加密功能?
Helena Handschuh:全世界的密碼學(xué)家多年來一直在研究如何在量子計算機時代提供密碼保護(hù)并把重點放在“后量子密碼學(xué)”的部署上。后量子密碼學(xué)(PQC)依靠可在芯片上運行的普通算法密碼學(xué),但作為基礎(chǔ)的算法類在本質(zhì)上對量子計算機并不脆弱。
在開發(fā)PQC的過程中,必須考慮兩點:
1-部署任何安全解決方案都需要時間。芯片與軟件相比,其固有的開發(fā)時間較長,因此基于芯片的安全變得更加緊迫。
2-在部署PQC的第0日之前已被量子破解算法加密保護(hù)的數(shù)據(jù),很可能需要在第0日之后的幾年內(nèi)保持安全,在某些情況下甚至需要保持幾十年的安全。
2016年12月,美國商務(wù)部下屬的國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)啟動了一項規(guī)范后量子安全密鑰封裝機制(KEM)和數(shù)字簽名算法的公共進(jìn)程。NIST已公布了將在未來一兩年內(nèi)實現(xiàn)標(biāo)準(zhǔn)化的入選算法組合,同時還宣布了增加第4輪提交。
作為密碼學(xué)的領(lǐng)導(dǎo)者,Rambus從一開始就密切參與了NIST PQC的標(biāo)準(zhǔn)化進(jìn)程。現(xiàn)在,Rambus可以為選擇軟件升級途徑的客戶提供三個有用的建議:
1-選擇內(nèi)存盡可能大的配置
2-選擇包括AES、SHA-2和SHA-3 / SHAKE硬件加速器的配置。
3-選擇為基于格的方案留出額外硬件加速空間的配置。
善于利用對稱密碼加速器將被證明是提高性能的關(guān)鍵,這些加速器在大多數(shù)后量子密碼算法中的作用遠(yuǎn)大于今天的RSA和ECC加速器。
隨著量子計算機從研究階段進(jìn)入到部署階段,安全問題也伴隨性能的提高而擴(kuò)大。為確保量子計算世界中的信息安全,多年來密碼學(xué)家們一直在共同創(chuàng)建后量子密碼學(xué)標(biāo)準(zhǔn)和算法。Rambus是這項PQC運動的領(lǐng)跑者,不斷開發(fā)算法、為標(biāo)準(zhǔn)的制定作出貢獻(xiàn)并提供符合標(biāo)準(zhǔn)的產(chǎn)品,確??蛻魯?shù)據(jù)和設(shè)備的安全。
Rambus正在積極開發(fā)安全解決方案,運用我們在安全I(xiàn)P方面的長期經(jīng)驗和專業(yè)知識,將抗量子算法整合到解決方案中。