互聯(lián)網(wǎng)技術(shù)詳解 分布式存儲(chǔ)的未來(lái)發(fā)展趨勢(shì)探討
掃描二維碼
隨時(shí)隨地手機(jī)看文章
近幾年,隨著云計(jì)算、5G、人工智能等新技術(shù)的迅速發(fā)展和落地,產(chǎn)生了海量的數(shù)據(jù),且大部分為非結(jié)構(gòu)化數(shù)據(jù)。IDC 預(yù)測(cè),到 2025 年,全球產(chǎn)生的數(shù)據(jù)量將會(huì)增長(zhǎng)到 175ZB,其中,超過 80%的數(shù)據(jù)都會(huì)是處理難度較大的非結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)的推動(dòng)下,分布式存儲(chǔ)市場(chǎng)也將迎來(lái)持續(xù)高速發(fā)展,預(yù)計(jì)2024年市場(chǎng)空間將達(dá)到171億。
分布式存儲(chǔ)將在存儲(chǔ)領(lǐng)域逐漸占主導(dǎo)地位,分布式存儲(chǔ)在技術(shù)上有哪些發(fā)展趨勢(shì)?本文將從介質(zhì)層/架構(gòu)層/網(wǎng)絡(luò)層和應(yīng)用層四個(gè)層面來(lái)展望分布式存儲(chǔ)的未來(lái)發(fā)展趨勢(shì)。
介質(zhì)層
分布式存儲(chǔ)集群性能的提升首先取決于存儲(chǔ)節(jié)點(diǎn)本身性能的提升。隨著NAND Flash技術(shù)的進(jìn)步、NVMe協(xié)議的迭代,SSD 作為一種全新的閃存介質(zhì)開始進(jìn)入企業(yè)的數(shù)據(jù)中心,并逐漸成為應(yīng)用的主流。從性能上來(lái)說(shuō), NVMe SSD 的IOPS性能是傳統(tǒng)機(jī)械硬盤的3500倍,帶寬可達(dá)到3.2GB/s,延遲縮短到0.02ms。
在存儲(chǔ)性能委員會(huì)(SPC)的 SPC-1 基準(zhǔn)下對(duì)全閃存儲(chǔ)性能進(jìn)行測(cè)試,測(cè)試發(fā)現(xiàn)全閃存存儲(chǔ)基礎(chǔ)性能提升了500%;數(shù)據(jù)庫(kù)場(chǎng)景下,業(yè)務(wù)性能提升了700%;云桌面場(chǎng)景下,在 Word/PowerPoint/Excel 應(yīng)用測(cè)試中,啟動(dòng)響應(yīng)時(shí)間縮短 80%。充分體現(xiàn)了全閃存儲(chǔ)產(chǎn)品優(yōu)異的性能。
另外在全球存儲(chǔ)市場(chǎng)中,由于閃存成本不斷下降,全閃存儲(chǔ)份額快速增加,目前市場(chǎng)占比已經(jīng)超過20%,根據(jù)第三方機(jī)構(gòu)Wikibon的預(yù)測(cè),2026年SSD單TB成本將低于HDD。2025年后,HDD的出貨量將每年下降27%,只應(yīng)用于擴(kuò)容和歸檔等少數(shù)場(chǎng)景。
新華三分布式存儲(chǔ)系列X10828能夠支持28塊NVMe SSD配置的全閃存節(jié)點(diǎn),單節(jié)點(diǎn)帶寬可高達(dá)20GB/s,單節(jié)點(diǎn)IOPS大文件小IO模型下可高達(dá)225W,小文件小IO模型下可高達(dá)42.7W。X10828全閃存儲(chǔ)能夠滿足企業(yè)核心業(yè)務(wù)對(duì)存儲(chǔ)的高 IOPS、低延遲的要求。
架構(gòu)層
隨著傳統(tǒng)應(yīng)用、云原生應(yīng)用和AI技術(shù)等上層應(yīng)用的發(fā)展驅(qū)動(dòng),ICT技術(shù)與各類應(yīng)用正在加速融合。融合過程中一方面是因?yàn)楦鱾€(gè)業(yè)務(wù)對(duì)數(shù)據(jù)響應(yīng)的要求不盡相同,另一方面是因?yàn)闃I(yè)務(wù)的數(shù)據(jù)類型越來(lái)越復(fù)雜多樣,業(yè)務(wù)數(shù)據(jù)存儲(chǔ)和管理帶來(lái)更多混合負(fù)載需求。
目前,分布式存儲(chǔ)架構(gòu)正向面向支撐虛擬化、數(shù)據(jù)湖、AI和云原生等多混合負(fù)載的融合架構(gòu)方向逐漸演進(jìn)。不同于傳統(tǒng)應(yīng)用對(duì)存儲(chǔ)一對(duì)一的采購(gòu)模式,混合型應(yīng)用負(fù)載對(duì)分布式存儲(chǔ)設(shè)備提出更高的要求,需要單套存儲(chǔ)同時(shí)承載企業(yè)多類型混合業(yè)務(wù)負(fù)載,支撐不同類型、不同級(jí)別的應(yīng)用,并要求分布式存儲(chǔ)能夠提供更高的性能來(lái)面對(duì)混合業(yè)務(wù)負(fù)載的I/O多樣性(比如大文件大I/O、大文件小I/O等),使其作為可靠性存儲(chǔ)底座為上層混合業(yè)務(wù)做有效支撐。
新華三全自研 UniStor X10000存儲(chǔ)可支持塊、文件、對(duì)象與大數(shù)據(jù)存儲(chǔ),采用全分布式融合架構(gòu),支持HDFS/Swift/iSCSI/文件/CSI等接口,作為可靠的存儲(chǔ)底座為上層混合業(yè)務(wù)做有效支撐的同時(shí),為存儲(chǔ)系統(tǒng)的高性能、高擴(kuò)展、安全可靠、自動(dòng)化運(yùn)維提供了有力保證。
網(wǎng)絡(luò)層
NVMe-oF存儲(chǔ)網(wǎng)絡(luò)協(xié)議
相對(duì)于機(jī)械硬盤,全閃的存儲(chǔ)性能已經(jīng)有了近百倍提升,但是服務(wù)器到交換機(jī)、存儲(chǔ)之間的網(wǎng)絡(luò)協(xié)議卻成為數(shù)據(jù)中心新性能提升的瓶頸,限制其潛力的釋放。為了應(yīng)對(duì)這種情況,2016年標(biāo)準(zhǔn)化組織推出NVMe-oF (NVMe over Fabric)。
在NVMe 協(xié)議發(fā)布之初,其僅可在服務(wù)器內(nèi)部的 PCIe 總線上進(jìn)行數(shù)據(jù)傳輸,無(wú)法實(shí)現(xiàn)跨節(jié)點(diǎn)的數(shù)據(jù)交互,NVMe-oF主要目的是將服務(wù)器連接到遠(yuǎn)程N(yùn)VMe設(shè)備,并允許它們像直接插入到PCle總線一樣進(jìn)行通信,實(shí)現(xiàn)高性能的存儲(chǔ)設(shè)備網(wǎng)絡(luò)共享訪問。
RDMA 是承載 NVMe-oF的原生網(wǎng)絡(luò)協(xié)議,主要包括 RoCE、IB(InfiniBand)和 iWARP(Internet Wide Area RDMA Protocol)。NVMe over RDMA 協(xié)議比較簡(jiǎn)單,直接把 NVMe 的 IO 隊(duì)列映射到 RDMA QP(Queue Pair)連接,通過 RDMA SEND,RDMA WRITE,RDMA READ 三個(gè)語(yǔ)義實(shí)現(xiàn) IO 交互。當(dāng)前在數(shù)據(jù)中心領(lǐng)域中RoCE的應(yīng)用已經(jīng)得到絕大部分用戶的認(rèn)可,性能上來(lái)看采用NVMe over RDMA構(gòu)建的網(wǎng)絡(luò)其性能和時(shí)延可以媲美直連存儲(chǔ)。
NVMe-oF集成現(xiàn)有的NVMe和高速低延遲傳輸網(wǎng)絡(luò)的技術(shù),可極大的釋放數(shù)據(jù)中心端到端NVMe性能,能夠更好地滿足未來(lái)通用大規(guī)模和高性能大型數(shù)據(jù)中心建設(shè)需求。
結(jié)合全閃存分布式存儲(chǔ)X10828和NVMe-oF高性能網(wǎng)絡(luò)存儲(chǔ)方案,新華三可提供一整套整合的高速分布式存儲(chǔ)系統(tǒng)的全棧式解決方案,非常適應(yīng)于針對(duì)性能要求苛刻的大規(guī)模存儲(chǔ)集群的應(yīng)用場(chǎng)景。
DPU
在云服務(wù)中,DPU 可以為虛擬機(jī)或裸金屬提供存儲(chǔ)加速功能,通過軟硬件結(jié)合方式實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的卸載,靈活實(shí)現(xiàn)高存儲(chǔ) IOPS 性能和低主機(jī) CPU 占用率的要求。存儲(chǔ)系統(tǒng)卸載在 DPU 上完成的主要工作為:存儲(chǔ)接口的卸載和存儲(chǔ)網(wǎng)絡(luò)協(xié)議棧加速。
在存儲(chǔ)接口方面:DPU 實(shí)現(xiàn)存儲(chǔ)接口的卸載主要方式為在 DPU 上為虛擬機(jī)、裸機(jī)、容器提供一致的 virtio-blk/NVMe 虛擬塊設(shè)備后端,主機(jī)中加載標(biāo)準(zhǔn)virtio-blk或NVMe驅(qū)動(dòng)即可實(shí)現(xiàn)塊存儲(chǔ)的讀寫,無(wú)需額外的廠商專用驅(qū)動(dòng)。
存儲(chǔ)網(wǎng)絡(luò)協(xié)議方面,在 DPU 上實(shí)現(xiàn) NVMe-oF 協(xié)議棧的卸載加速,可以在計(jì)算節(jié)點(diǎn)提供原生NVMe 的后端存儲(chǔ)接口,通過高性能的 RDMA 網(wǎng)絡(luò)協(xié)議(如 RoCEv2)連接到存儲(chǔ)端,在存儲(chǔ)節(jié)點(diǎn)使用 DPU 硬件實(shí)現(xiàn)的 NVMe Target 管理 NVMe SSD,整個(gè)存儲(chǔ)網(wǎng)絡(luò)傳輸端到端 bypass 主機(jī) CPU,并且沒有任何的協(xié)議轉(zhuǎn)換消耗,為云主機(jī)提供了與本地 NVMe 性能接近的高性能彈性遠(yuǎn)端存儲(chǔ)。
目前,新華三聯(lián)合合作伙伴在DPU、NVMe-oF等方面展開合作,在RoCE上打造一套便捷高效的無(wú)損以太網(wǎng)解決方案,為數(shù)據(jù)中心用戶帶來(lái)更大的價(jià)值。
應(yīng)用層
積極迎接云化
在過去的30年中,業(yè)務(wù)系統(tǒng)的運(yùn)行環(huán)境經(jīng)歷了巨大的變化。物理機(jī)時(shí)代,運(yùn)維人員手動(dòng)配置存儲(chǔ)系統(tǒng)和部署業(yè)務(wù)系統(tǒng),業(yè)務(wù)上線以周為單位。而在云原生時(shí)代,每分鐘都可能發(fā)布新的應(yīng)用版本,每天都可能有大量的業(yè)務(wù)要上線。這意味著,云原生時(shí)代的存儲(chǔ)系統(tǒng),除了要滿足性能、穩(wěn)定性、可靠性的要求以外,還要滿足業(yè)務(wù)系統(tǒng)對(duì)敏捷性的要求,能夠通過統(tǒng)一的編排系統(tǒng)配合業(yè)務(wù)上線,并可實(shí)現(xiàn)快速擴(kuò)容。
在容器技術(shù)剛出現(xiàn)時(shí),企業(yè)一般在容器運(yùn)行web服務(wù)類的無(wú)狀態(tài)的應(yīng)用,因?yàn)闊o(wú)狀態(tài)應(yīng)用不需要持久化數(shù)據(jù)。根據(jù)CNCF 2021年調(diào)研報(bào)告顯示,近8成的客戶希望在容器上運(yùn)行有狀態(tài)應(yīng)用,比如數(shù)據(jù)庫(kù),中間件等。為了滿足用戶的業(yè)務(wù)需求,2018年,CNCF發(fā)布了容器存儲(chǔ)接口:CSI。CSI把容器存儲(chǔ)進(jìn)行抽象,通過標(biāo)準(zhǔn)接口的形式把存儲(chǔ)部分移到容器編排系統(tǒng)外部。各存儲(chǔ)廠商按照接口標(biāo)準(zhǔn)開發(fā)CSI插件,獨(dú)立發(fā)布,快速滿足容器存儲(chǔ)需求。
新華三全自研 UniStor X10000存儲(chǔ)可實(shí)現(xiàn)無(wú)需改造上層應(yīng)用即可通過CSI接口完成存儲(chǔ)資源與上層應(yīng)用對(duì)接,為上層有狀態(tài)應(yīng)用提供持久化數(shù)據(jù)存儲(chǔ)能力。
存算分離架構(gòu)
隨著非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)量大大增加,各個(gè)企業(yè)逐漸形成自己的“數(shù)據(jù)湖”,湖中存儲(chǔ)企業(yè)內(nèi)海量的、多來(lái)源,多種類的數(shù)據(jù),并支持對(duì)數(shù)據(jù)進(jìn)行快速加工和分析。目前從實(shí)現(xiàn)方式來(lái)看,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),根據(jù)Gartner研究數(shù)據(jù)表明,在數(shù)據(jù)湖場(chǎng)景下,Hadoop的部署和需求仍然很大并且正在增長(zhǎng)。
但是Hadoop為大數(shù)據(jù)分析帶來(lái)便利的同時(shí),也面臨著一些挑戰(zhàn)。
NameNode是HDFS中的管理者,主要負(fù)責(zé)文件系統(tǒng)的命名空間、集群配置信息和數(shù)據(jù)塊的復(fù)制。在運(yùn)行時(shí),HDFS的元數(shù)據(jù)信息必須存儲(chǔ)在NameNode的內(nèi)存中,如果針對(duì)大型集群來(lái)說(shuō),NameNode內(nèi)存存儲(chǔ)空間將成為限制系統(tǒng)橫向擴(kuò)展的瓶頸。另外,一旦NameNode宕機(jī),整個(gè)存儲(chǔ)系統(tǒng)將會(huì)無(wú)法工作,雖然Hadoop引入Secondary NameNode作為HA,但是故障切換時(shí)間一般幾十秒到數(shù)分鐘,這是很多企業(yè)所無(wú)法接受的。
在傳統(tǒng)的Hadoop集群系統(tǒng)中,計(jì)算和存儲(chǔ)資源是緊密耦合的。在發(fā)展到一定階段的時(shí),整體集群中的資源需求會(huì)打破原來(lái)存儲(chǔ)計(jì)算之間的比例平衡,造成某一類資源的利用率無(wú)法提升。比如:企業(yè)內(nèi)部的數(shù)據(jù)量在1年的時(shí)間內(nèi)上漲到原來(lái)10倍,而計(jì)算資源需求只上漲到原來(lái)4倍,數(shù)據(jù)存儲(chǔ)量需求明顯比計(jì)算資源增長(zhǎng)快,這時(shí),如果繼續(xù)采用存算一體化的架構(gòu)則意味著要滿足存儲(chǔ)資源增長(zhǎng)的同時(shí),計(jì)算資源也會(huì)增長(zhǎng)10倍,那么計(jì)算資源會(huì)存在過剩的情況。
因此,隨著企業(yè)業(yè)務(wù)數(shù)據(jù)不斷增長(zhǎng)和技術(shù)框架的不斷革新,可以對(duì)集群適當(dāng)做一些存儲(chǔ)和計(jì)算的拆分,一方面可以提升集群的穩(wěn)定性和性能,另一方面,可以降低整體的成本,達(dá)到降本增效的效果。
總之,隨著AI、大數(shù)據(jù)、5G等高科技的快速發(fā)展和迫切需求的落地,可以預(yù)見,分布式存儲(chǔ)在未來(lái)將會(huì)有爆發(fā)式的增長(zhǎng),將創(chuàng)造億萬(wàn)級(jí)的數(shù)據(jù)財(cái)富。