網(wǎng)絡交換機:超大規(guī)模數(shù)據(jù)中心的無名英雄
雖然我們通常將低功耗與智能手機、智能手表和筆記本電腦等電池供電的設備聯(lián)系起來,但還有其他一些不太明顯的應用,其中低功耗對我們的日常生活產(chǎn)生了重大影響。一個這樣的例子是所有“管道”和通信基礎設施,通常被稱為高性能計算,由現(xiàn)代超大規(guī)模數(shù)據(jù)中心內的網(wǎng)絡交換機管理。
隨著在家工作推動的在線活動的爆炸式增長,許多行業(yè)部門都報告了互聯(lián)網(wǎng)使用和電子商務的巨大增長。我們在家工作、學習、玩耍,同時擁抱電子商務和在線交付、遠程醫(yī)療、虛擬健身以及許多其他虛擬活動和體驗。而這一切似乎都轉移到了云端。
在 2010 年代初期,近 40% 的接受調查的大公司表示,他們預計將在兩年內超過其 IT 能力。近十年后,幾乎所有企業(yè),無論規(guī)?;蛐袠I(yè),都嚴重依賴技術來擴展和簡化其運營。比以往任何時候都更重要的是,訪問大量數(shù)據(jù)對于他們的成功至關重要。為了提高他們快速處理所有這些數(shù)據(jù)的能力,這些企業(yè)必須從云提供商那里獲得更多的計算和存儲容量,這些云提供商正在構建大規(guī)模數(shù)據(jù)中心,同時加速下一代技術的部署。
超大規(guī)模技術
當我們想到超大規(guī)模數(shù)據(jù)中心時,通常首先想到的是可信賴的服務器 CPU。性能和功耗節(jié)省來自非常可預測的 x86 擴展。我們還見證了處理能力向 FPGA、GPU 以及最近由互聯(lián)網(wǎng)巨頭內部設計的定制片上系統(tǒng) (SoC) 的遷移。隨著每一次后續(xù)技術的發(fā)展,處理器在歷史上都以摩爾定律定義的非??深A測的方式進行了改進。超大規(guī)模數(shù)據(jù)中心的其他基本組件是有線和無線連接、網(wǎng)絡和存儲。這些還通過最新的以太網(wǎng)和網(wǎng)絡標準以及最新的內存、高速連接和存儲技術展現(xiàn)出自然的改進進展。
涌向云端的熱潮集中在服務器 CPU、人工智能、高級存儲器和多芯片封裝。通常,性能限制不是 CPU 性能或采用的高級內存技術類型。相反,網(wǎng)絡和連接性是瓶頸。數(shù)據(jù)在機架內的服務器之間、機架之間、建筑物之間、校園之間以及最終傳輸?shù)交ヂ?lián)網(wǎng)的速度有多快也是關鍵因素。
支撐這一關鍵基礎設施的無名英雄是網(wǎng)絡交換機。在短短五年內,我們看到網(wǎng)絡交換機主機速度每兩年翻一番——從 2015 年的 3.2 Tb 到 2019 年的 12.8 Tb 到 2020 年的 25.6 Tb。
我們離 51.2 Tb 的部署不遠了,尤其是隨著高速 SerDes 開發(fā)的進步導致單通道 112 G 長距離能力。這意味著模塊帶寬趨勢從 2015 年的 100 G 到 2019 年的 200/400 G。我們現(xiàn)在正處于未來兩到三年內主要的 400 G 到 800 G 速度部署的風口浪尖。這與從 2019 年開始從 28 Gbaud 光學過渡到 56 Gbaud 光學器件的改進相結合。所有這些變化都與從不歸零編碼到更高調制 PAM4(脈沖幅度調制,4 級)的過渡相吻合編碼效率更高。
對商業(yè)市場上可用產(chǎn)品的快速調查顯示,大多數(shù) 12.8 Tb SoC 是在 16 納米工藝節(jié)點上制造的。對于 25.6 Tb,SoC 從 2019 年底開始轉向 7 nm,并于 2020 年進入量產(chǎn)階段。第一代 25.6 Tb SoC 使用 50 G SerDes,這是當時可用的最佳技術。最近的公告表明 100 G SerDes 芯片終于到來,預計從 50 G 到 100 G SerDes 的過渡以及從 7 納米到 5 納米工藝技術的遷移。
好處是相當顯著的。考慮一個 25.6 Tbps 的交換機:如果它依賴于 50 G SerDes,則該設備將需要 512 個通道。使用 100 G SerDes,通道數(shù)減少到 256 個。通道數(shù)的顯著減少導致芯片面積和功耗的減少是顯著的。這些網(wǎng)絡交換 ASIC 芯片中的每一個都消耗大量功率,超過 300 W!
下一個平臺是 51.2 Tb。那么,我們如何到達那里?
新的設計范式
預計 51.2 Tb 開關 ASIC 制造將從 5 nm 開始,最終遷移到 3 nm。這主要受較長的開發(fā)周期和與代工廠先進工藝部署計劃的一致性的影響。它還取決于 112 G SerDes 相對于 56 G SerDes 的可用性和采用情況,以改善“通道數(shù)與裸片尺寸與功率”的考慮。
另一種可能性是下一代網(wǎng)絡交換機將采用分解的方法,而是使用多個裸片而不是大型單片裸片。這種方法將在兩個方面有所幫助。芯片越小,它們的良率就越高,尤其是當芯片尺寸被推到光刻/光罩限制時。提高產(chǎn)量意味著降低成本。以小芯片形式重復使用經(jīng)過硅驗證的高速 SerDes 的能力將有助于加快上市時間并提高 51.2-Tb 開關 ASIC 早期部署的成功率。
然而,這種轉變將需要重新思考設計方法。從單芯片設計到多芯片設計的轉變需要更加關注芯片、基板和封裝設計的約束和邊界。這些復雜 SoC 的高速特性將帶來額外的設計和驗證負擔。在 100 G 及以上,它不再是 SPICE 仿真。設計人員必須考慮各種材料和 s 參數(shù)的電感、寄生、傳輸線效應(終端)、串擾和介電系數(shù)的影響,并確保應用程序可以訪問通道模型。
這導致更復雜的熱設計。這不再是管理芯片內部溫度的問題。還需要監(jiān)控芯片上的溫度梯度和熱點的位置?,F(xiàn)在必須從管芯到中介層再到封裝基板再到散熱器整體解決溫度問題。甚至為散熱器選擇芯片連接材料和導熱硅脂也是設計考慮因素。在這種設計復雜性水平上,沒有反復試驗。
如果沒有大量技術創(chuàng)新,就不可能實現(xiàn)高速網(wǎng)絡交換機 SoC。除了明顯的高速 I/O (SerDes),還需要一組基本的硬 IP 才能成功。其他支持創(chuàng)新包括高性能處理器內核、高密度片上存儲器、高速互連(結構)和存儲器帶寬以及 SoC 集成。
SoC 設計平臺還必須包括 IP 內核,例如 112G-LR PHY、56G-LR PHY、高帶寬存儲器 Gen 2/3 PHY 和 PCI Express 5.0/4.0 PHY。此外,需要低功耗 die-to-die PHY IP 來支持多芯片集成、邏輯和 I/O 分解,以實現(xiàn)多芯片實現(xiàn)。為了管理向 25.6 Tb/s 交換機以及最終向 51.2 Tb/s 交換機的必要過渡,我們需要一種新的設計方法。這些包括人工智能驅動的設計工具、先進的封裝和芯片設計的其他方面長期以來被認為是理所當然的。
現(xiàn)在是時候提升一個檔次并啟動我們的創(chuàng)新引擎了。