平頭哥首顆自研企業(yè)級SSD主控芯片“鎮(zhèn)岳510”揭秘:更懂云計算,更懂云上應(yīng)用
數(shù)據(jù)中心可以看作是一臺大號的計算機,而云計算同樣也符合馮諾依曼結(jié)構(gòu):數(shù)據(jù)從存儲設(shè)備中取出,通過網(wǎng)絡(luò)傳送到計算單元,運算結(jié)果通過網(wǎng)絡(luò)傳輸至存儲設(shè)備中保存。 因此要實現(xiàn)更高性能的運算,更高效地支持LLM等新興應(yīng)用,算力、網(wǎng)力和存力,三者缺一不可。
當(dāng)算力向著異構(gòu)計算方向發(fā)展,實現(xiàn)指數(shù)級的增加、網(wǎng)絡(luò)向著更快速方向演進(jìn),進(jìn)入400GE、800GE時代時,作為寸力代表的SSD,又有什么樣的技術(shù)趨勢?平頭哥在2023年阿里云棲大會上給出了答案——旗下首顆自研SSD主控芯片“鎮(zhèn)岳510”正式發(fā)布。
云計算應(yīng)用追新逐日,數(shù)據(jù)基座面臨存力挑戰(zhàn)
存力指的是存儲設(shè)備的能力,主要有性能、能效、可靠性和時延四個方面的指標(biāo)。對于SSD而言,性能通常指的是讀寫帶寬和讀寫IOPS;能效比指的是每消耗一瓦功耗可以提供多少的性能;可靠性指的是SSD的糾錯能力,通常用UBER表示,也就是每讀取多少筆數(shù)據(jù)會出現(xiàn)一次數(shù)據(jù)糾錯失?。粫r延則是指的SSD從收到命令到返回響應(yīng)的時間。
據(jù)平頭哥產(chǎn)品總監(jiān)周冠鋒介紹,新興應(yīng)用對于云計算中的存力提出了更高的要求。
作為計算數(shù)據(jù)來源和結(jié)果數(shù)據(jù)的目的地,SSD吞吐率的高低將直接制約整個計算系統(tǒng)的性能;云上的一個業(yè)務(wù)請求通常會被分散到多個SSD中并發(fā)執(zhí)行,任何一塊SSD的時延抖動都會造成這個那個業(yè)務(wù)的請求延遲。此外,更高的存儲密度、更好的能效表現(xiàn),同樣不可或缺。
今天發(fā)布的鎮(zhèn)岳510是平頭哥旗下第一顆SSD主控芯片,支持先進(jìn)的PCIe 5.0接口和DDR5.0技術(shù),內(nèi)置玄鐵910 RISC-V多核CPU,采用平頭哥自研緊耦合芯片架構(gòu),對SSD任務(wù)進(jìn)行高度抽象,可固化任務(wù)硬化為加速算子以提升性能。
據(jù)悉,鎮(zhèn)岳510每秒可處理高達(dá)340萬筆IO,每瓦功耗可提供42萬筆IO訪問。相比目前主流的PCIe 4.0SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,按照一度電排放0.785千克二氧化碳計算,每年可減少二氧化碳排放2千噸。
鎮(zhèn)岳510還內(nèi)置了創(chuàng)新的IO自動化處理機制,前端IO解析與處理,由專用硬件模塊自動完成,實現(xiàn)了業(yè)界領(lǐng)先的超低的時延(4μs),可以帶給應(yīng)用極佳的體驗,比業(yè)界SSD降低30%以上。
在可靠性方面,鎮(zhèn)岳510內(nèi)置了平頭哥自研的高性能LDPC糾錯算法,編碼效率逼近香農(nóng)極限,同時ErrorFlow相比業(yè)內(nèi)SSD更優(yōu)一個數(shù)量級;借助平頭哥自研閃存電壓預(yù)測算法,可以在各種閃存的不同工況、壽命、溫度等條件下,準(zhǔn)確預(yù)測閃存電壓漂移,進(jìn)一步降低LDPC解碼器的輸入誤碼率。其實現(xiàn)了低至10^-18的UBER,相當(dāng)于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯失敗。
雖然算力是越高越好,但其實不同的上層應(yīng)用,對于底層的數(shù)據(jù)基座也有著差異化的需求。例如AI推理,更關(guān)注帶寬和時延這兩個參數(shù);而AI推理,則更看重IOPS這個參數(shù)。而說到對于云上業(yè)務(wù)場景的理解,以及對于未來云計算技術(shù)趨勢的判斷,作為阿里云的獨立芯片公司,平頭哥是非常了解的。
鎮(zhèn)岳510的定義和架構(gòu):靈活性和高效計算之間的平衡之術(shù)
為了實現(xiàn)緊密的軟硬件耦合,從而達(dá)到整體更高的數(shù)據(jù)中心下效能,底層的SSD芯片在設(shè)計的時候要充分考慮到上層應(yīng)用的IO模型。
對于產(chǎn)品定義,平頭哥內(nèi)部架構(gòu)團(tuán)隊花了超過半年的時間反復(fù)審度,最終確定了鎮(zhèn)岳510的設(shè)計目標(biāo),在靈活性和高效之間實現(xiàn)了最佳的平衡。
首先對于標(biāo)準(zhǔn)的選擇上,2023年是企業(yè)級SSD從PCIe4.0向PCIe5.0邁進(jìn)的元年,因此平頭哥提前規(guī)劃了這顆支持PCle5.0的SSD底座芯片。
而在靈活性和高效的平衡上,業(yè)界每一家SSD主控芯片的設(shè)計都有所不同,主要分為“命令流”和“數(shù)據(jù)流”兩種。所謂的命令流,就是類似于純SoC,更多的依賴CPU跑各種軟件來實現(xiàn)命令的解析、拆分、各種表象管理以及后端應(yīng)用組裝下發(fā)等工作。這種方式擁有更高的靈活性。所謂的數(shù)據(jù)流,就是類似于當(dāng)前鎮(zhèn)岳510這樣進(jìn)行硬件大幅度卸載的設(shè)計方案,通過專門的硬件加速器來運行特定的工作任務(wù),從而實現(xiàn)這些任務(wù)的高效穩(wěn)定運行。
對于鎮(zhèn)岳510而言,選擇哪些功能卸載到硬件加速器上去跑,哪些仍然在CPU中去處理,就是一個非常棘手的問題。把所有的任務(wù)都放在專門硬件加速器中去做,就會主控芯片的喪失靈活性,而某些工作任務(wù)放在CPU中去處理,又得不到更好的加速。如何取舍?這需要對于云上應(yīng)用場景的深刻理解。
據(jù)周冠鋒分享,平頭哥的SSD芯片的設(shè)計團(tuán)隊在前在設(shè)計前期是經(jīng)過了大量的多種方案的對比,最終選擇了當(dāng)前一個最平均、最平衡的設(shè)計方案——既能通過硬件加速獲得高效,同時又把一些關(guān)鍵的軟件任務(wù)仍然留使用CPU來運行,這樣獲得靈活性。
為云而生,軟硬件緊密耦合開啟軟件定義閃存時代
作為一款SSD主控芯片,鎮(zhèn)岳510是為SSD而生,更是了云而生,最終是為了云上應(yīng)用而生。以應(yīng)用作為最終目的,將SSD與數(shù)據(jù)庫進(jìn)行緊密的軟硬件耦合,這才是鎮(zhèn)岳510這塊硬件拼圖的使命。
作為一家云服務(wù)商,阿里云擁有全棧的軟件核心技術(shù),而鎮(zhèn)岳510在芯片層面也和阿里云的軟件層面進(jìn)行了一些配合,實現(xiàn)諸多對于云計算非常有價值的關(guān)鍵特性。
首先,鎮(zhèn)岳510支持定制化ZNS協(xié)議,通過存儲軟件與NAND特性完美契合,達(dá)到數(shù)據(jù)排布的最優(yōu)化,后臺操作的最小化,從而進(jìn)一步消除SSD接口稅。
其次,鎮(zhèn)岳510提供了IO粒度的優(yōu)先級調(diào)度,實現(xiàn)了全鏈路QoS優(yōu)化。延遲敏感型與帶寬敏感型IO實現(xiàn)了精細(xì)化的區(qū)分處理,從而提升了延遲敏感型IO的SLA。
第三,鎮(zhèn)岳510支持智能卸載功能。將可靠性計算任務(wù)卸載至SSD,實現(xiàn)全路徑存儲語義校驗,同時也減輕了服務(wù)器主機算力開銷。
將采用鎮(zhèn)岳510主控的“鎮(zhèn)岳SSD”與阿里云的統(tǒng)一存儲平臺“飛天盤古”相結(jié)合,就組成了阿里云從芯片到系統(tǒng)的全棧自研分布式存儲。兩者協(xié)同增強了云存儲的靈活性,并推動數(shù)據(jù)中心向軟件定義閃存的方向邁進(jìn)。