人工智能存儲(chǔ)平臺(tái)能滿(mǎn)足需求嗎
掃描二維碼
隨時(shí)隨地手機(jī)看文章
根據(jù)機(jī)器學(xué)習(xí)和人工智能任務(wù)的執(zhí)行方式以及如何在其環(huán)境中收集數(shù)據(jù)的方法,組織需要了解應(yīng)該購(gòu)買(mǎi)哪些人工智能存儲(chǔ)產(chǎn)品。
當(dāng)組織購(gòu)買(mǎi)人工智能存儲(chǔ)平臺(tái)時(shí),有很多途徑可以遵循。但一個(gè)重要的目標(biāo)應(yīng)該是找到一種使其能夠更有效地收集數(shù)據(jù)產(chǎn)品,以執(zhí)行機(jī)器學(xué)習(xí)和人工智能任務(wù)。
評(píng)估和選擇人工智能數(shù)據(jù)存儲(chǔ)產(chǎn)品涉及的一些關(guān)鍵問(wèn)題包括:
存儲(chǔ)平臺(tái)必須提供高性能和可擴(kuò)展性,并有效管理成本。
其性能必須包括提供高吞吐量和實(shí)現(xiàn)低延遲。
產(chǎn)生良好的人工智能模型意味著處理PB規(guī)模的數(shù)據(jù),這可能導(dǎo)致高昂的成本。組織必須意識(shí)到需要管理機(jī)器學(xué)習(xí)和人工智能平臺(tái)的總體成本。
在深度學(xué)習(xí)中,機(jī)器學(xué)習(xí)算法可以在無(wú)監(jiān)督的情況下運(yùn)行,隨著深度學(xué)習(xí)算法的連續(xù)層處理多個(gè)級(jí)別的數(shù)據(jù)分析,I/O配置文件會(huì)導(dǎo)致高度隨機(jī)訪問(wèn)。機(jī)器學(xué)習(xí)和人工智能培訓(xùn)通常以批處理模式運(yùn)行,在此模式下,數(shù)據(jù)科學(xué)家可以創(chuàng)建機(jī)器學(xué)習(xí)人工智能模型,針對(duì)數(shù)據(jù)進(jìn)行測(cè)試,并隨著時(shí)間推移完善模型。這種方法要求低延遲以確??焖賵?zhí)行,因?yàn)楦痰哪P蜏y(cè)試時(shí)間意味著更多的迭代和更好的模型。
因此,組織選擇的特定存儲(chǔ)產(chǎn)品應(yīng)基于其所做的工作類(lèi)型以及所需的機(jī)器學(xué)習(xí)和人工智能培訓(xùn)。無(wú)論哪種情況,獲得存儲(chǔ)產(chǎn)品的性?xún)r(jià)比都會(huì)有一些折衷。
分層方法
在購(gòu)買(mǎi)任何存儲(chǔ)產(chǎn)品時(shí),成本與性能是一個(gè)關(guān)鍵考慮因素。如果有這個(gè)選擇,大多數(shù)組織都會(huì)購(gòu)買(mǎi)速度盡可能快的存儲(chǔ)設(shè)備。然而,獲得更高性能需要付出更大的代價(jià)。通常,高性能系統(tǒng)不會(huì)擴(kuò)展到數(shù)PB的范圍內(nèi)。加上假設(shè)隨時(shí)分析的數(shù)據(jù)工作集將成為整個(gè)數(shù)據(jù)資產(chǎn)的子集,很容易看出存儲(chǔ)分層是設(shè)計(jì)機(jī)器學(xué)習(xí)和人工智能數(shù)據(jù)存儲(chǔ)的必要部分。
在機(jī)器學(xué)習(xí)和人工智能的背景下,分層到底意味著什么?傳統(tǒng)的分層產(chǎn)品從固定存儲(chǔ)池發(fā)展為復(fù)雜系統(tǒng),根據(jù)使用頻率和可用池容量?jī)?yōu)化單個(gè)存儲(chǔ)塊的位置。但是由于數(shù)據(jù)的處理方式,這種方法并不能很好地滿(mǎn)足機(jī)器學(xué)習(xí)和人工智能的要求。
自動(dòng)化分層產(chǎn)品假定數(shù)據(jù)經(jīng)過(guò)對(duì)業(yè)務(wù)非常重要的生命周期。新的數(shù)據(jù)是非常重要的,并且將被頻繁訪問(wèn)。隨著時(shí)間的推移,數(shù)據(jù)的價(jià)值逐漸降低,它可以移動(dòng)到成本更低、性能更低的產(chǎn)品存儲(chǔ)中。
用于機(jī)器學(xué)習(xí)和人工智能分析的數(shù)據(jù)使不同的整個(gè)數(shù)據(jù)集變?yōu)榛顒?dòng)狀態(tài)并用于分析,同時(shí)需要在任何時(shí)候使用整個(gè)數(shù)據(jù)集。這意味著使用中的數(shù)據(jù)必須位于性能一致的存儲(chǔ)層上,因?yàn)樵L問(wèn)中的任何變化都會(huì)影響模型訓(xùn)練等問(wèn)題。
機(jī)器學(xué)習(xí)和人工智能模型開(kāi)發(fā)中的數(shù)據(jù)處理的隨機(jī)性,意味著試圖隨著時(shí)間動(dòng)態(tài)重新平衡數(shù)據(jù)的反應(yīng)性存儲(chǔ)平臺(tái)算法將不起作用。這些算法假設(shè)一個(gè)規(guī)模較小且相對(duì)靜態(tài)的工作集,該工作集隨時(shí)間的推移而逐漸變化。在機(jī)器學(xué)習(xí)和人工智能中,數(shù)據(jù)訪問(wèn)配置文件將更加隨機(jī),因此很難預(yù)測(cè)要緩存哪些數(shù)據(jù)以及如何調(diào)整緩存大小或更快的存儲(chǔ)層。
兩層存儲(chǔ)模型
為機(jī)器學(xué)習(xí)和人工智能工作負(fù)載提供存儲(chǔ)的一個(gè)簡(jiǎn)單方法是簡(jiǎn)單地使用兩層模型。性能層提供盡可能多的性能和盡可能低的延遲,同時(shí)針對(duì)系統(tǒng)預(yù)期要處理的最大數(shù)據(jù)集進(jìn)行調(diào)整。
高性能的閃存價(jià)格昂貴,并且隨著市場(chǎng)向三級(jí)和四級(jí)單元之類(lèi)的容量閃存產(chǎn)品發(fā)展,高性能存儲(chǔ)產(chǎn)品出現(xiàn)了一個(gè)新市場(chǎng),其中包括低延遲閃存產(chǎn)品,如三星Z-NAND和東芝XL閃存。這些產(chǎn)品補(bǔ)充了通過(guò)提供低延遲I/O來(lái)開(kāi)發(fā)的存儲(chǔ)級(jí)內(nèi)存。例如,Vast Data同時(shí)使用四層單元和Intel Optane技術(shù),為N結(jié)構(gòu)和S3 API提供支持,為非結(jié)構(gòu)化數(shù)據(jù)提供高性能、可擴(kuò)展的存儲(chǔ)產(chǎn)品。
這些第0層存儲(chǔ)產(chǎn)品使用NVMe設(shè)備在內(nèi)部或跨存儲(chǔ)網(wǎng)絡(luò)進(jìn)行連接。與傳統(tǒng)的SAS和SATA存儲(chǔ)設(shè)備相比,NVMe優(yōu)化了I/O堆?;騃/O協(xié)議。其結(jié)果是更低的延遲和更大的吞吐量,但是由于服務(wù)器處理器不需要等待I/O完成的時(shí)間,顯著提高了平臺(tái)利用率。
Pure Storage公司的 AIRI,適用于人工智能的IBM Spectrum Storage和NetApp公司 All Flash FAS A800之類(lèi)的產(chǎn)品都在內(nèi)部使用NVMe以獲得最高的媒質(zhì)性能。Dell EMC公司和DataDirect Networks公司使用其產(chǎn)品線中的橫向擴(kuò)展文件系統(tǒng)產(chǎn)品來(lái)支持機(jī)器學(xué)習(xí)和人工智能參考架構(gòu)。
容量層需要安全地長(zhǎng)期存儲(chǔ)所有人工智能模型數(shù)據(jù),通常是數(shù)月或數(shù)年的時(shí)間。因此,具有高度耐久性的可擴(kuò)展存儲(chǔ)平臺(tái)對(duì)于管理機(jī)器學(xué)習(xí)和人工智能所需的大量數(shù)據(jù)至關(guān)重要。對(duì)象存儲(chǔ)市場(chǎng)已經(jīng)發(fā)展到生產(chǎn)一系列高度可擴(kuò)展和耐用的人工智能存儲(chǔ)產(chǎn)品。
耐久性到底是什么?
在典型的存儲(chǔ)系統(tǒng)中,使用將冗余構(gòu)建到硬盤(pán)上存儲(chǔ)的數(shù)據(jù)中的架構(gòu)來(lái)保護(hù)數(shù)據(jù)。如果單個(gè)組件發(fā)生故障,則替換了發(fā)生故障的組件后,會(huì)使用額外的數(shù)據(jù)副本從丟失數(shù)據(jù)中恢復(fù)并重建數(shù)據(jù)。盡管RAID 5和更高版本為硬盤(pán)故障提供了保護(hù),但仍需要其他系統(tǒng)來(lái)防御大規(guī)模災(zāi)難,例如數(shù)據(jù)中心中斷。隨著傳統(tǒng)系統(tǒng)規(guī)模的擴(kuò)大,持久性或減輕數(shù)據(jù)丟失的成本很高。
糾刪編碼將冗余構(gòu)建到數(shù)據(jù)中,因此,硬盤(pán)、服務(wù)器甚至整個(gè)數(shù)據(jù)中心的中斷或故障都不會(huì)造成數(shù)據(jù)丟失。擦除編碼數(shù)據(jù)的分散性質(zhì)意味著可以構(gòu)建存儲(chǔ)系統(tǒng)以通過(guò)本地和地理數(shù)據(jù)保護(hù)擴(kuò)展多PB的數(shù)據(jù),而無(wú)需管理多個(gè)系統(tǒng)的開(kāi)銷(xiāo)和成本。
對(duì)象存儲(chǔ)為必須長(zhǎng)期(通常為多年)保留的數(shù)據(jù)提供可擴(kuò)展性和持久性。但是,為了獲得成本優(yōu)勢(shì),對(duì)象存儲(chǔ)產(chǎn)品是基于具有某些緩存功能的基于硬盤(pán)的廉價(jià)存儲(chǔ)構(gòu)建的。這使得它們不太適合機(jī)器學(xué)習(xí)和人工智能數(shù)據(jù)的日常處理,但對(duì)于長(zhǎng)期保存卻非常適合。
地理位置分散的對(duì)象庫(kù)還使來(lái)自多個(gè)位置和來(lái)源的數(shù)據(jù)能夠從多個(gè)位置和來(lái)源提取和訪問(wèn)。例如,如果數(shù)據(jù)處理使用內(nèi)部部署和公共云基礎(chǔ)設(shè)施的混合,則這可能很有價(jià)值。地理分散是Scality Ring平臺(tái)的功能,該平臺(tái)與HPE公司和WekaIO公司產(chǎn)品集成在一起以創(chuàng)建兩層存儲(chǔ)架構(gòu)。
混合存儲(chǔ)架構(gòu)
企業(yè)面臨的挑戰(zhàn)是如何實(shí)現(xiàn)包含高度可擴(kuò)展和高性能存儲(chǔ)的混合體系結(jié)構(gòu)。對(duì)象存儲(chǔ)系統(tǒng)使組織能夠存儲(chǔ)大多數(shù)的數(shù)據(jù),而某些產(chǎn)品則使用性能節(jié)點(diǎn),這些節(jié)點(diǎn)將活動(dòng)數(shù)據(jù)存儲(chǔ)在具有高性能閃存的服務(wù)器上。這種方法的優(yōu)點(diǎn)是,可以將容量或性能節(jié)點(diǎn)添加到產(chǎn)品中,以便在任何方向上進(jìn)行擴(kuò)展。例如,Cloudian公司提供了可擴(kuò)展性功能的硬件設(shè)備。
從高性能存儲(chǔ)構(gòu)建的系統(tǒng)必須設(shè)計(jì)為可針對(duì)正在處理的整個(gè)數(shù)據(jù)集進(jìn)行擴(kuò)展。在這些場(chǎng)景中,隨著時(shí)間的推移,多個(gè)人工智能數(shù)據(jù)集被處理,數(shù)據(jù)在高性能平臺(tái)之間來(lái)回移動(dòng)。
存儲(chǔ)架構(gòu)必須能夠?yàn)槿斯ぶ悄墚a(chǎn)品提供在存儲(chǔ)器之間來(lái)回移動(dòng)數(shù)據(jù)所需的網(wǎng)絡(luò)帶寬,并滿(mǎn)足人工智能平臺(tái)的要求。Nvidia DGX-1和DGX-2平臺(tái)等產(chǎn)品每秒可消耗數(shù)十GB的數(shù)據(jù)。因此,為了跟上發(fā)展的步伐,人工智能數(shù)據(jù)存儲(chǔ)產(chǎn)品中計(jì)算與存儲(chǔ)之間的連接必須是低延遲的InfiniBand或100Gb以太網(wǎng)。
人工智能產(chǎn)品的軟件定義存儲(chǔ)
為機(jī)器學(xué)習(xí)和人工智能構(gòu)建存儲(chǔ)并不一定意味著部署更高性能的設(shè)備。新的高性能人工智能存儲(chǔ)產(chǎn)品是可用的,基本上是軟件定義存儲(chǔ)(SDS)。這些產(chǎn)品利用了新媒介的性能,包括NVMe,在某些情況下還包括持久內(nèi)存或存儲(chǔ)類(lèi)內(nèi)存。
軟件定義存儲(chǔ)(SDS)產(chǎn)品的優(yōu)勢(shì)之一是它們適用于公共云,因?yàn)樗鼈兛梢栽诠苍苹A(chǔ)設(shè)施中實(shí)例化和動(dòng)態(tài)擴(kuò)展。當(dāng)不知道基礎(chǔ)設(shè)施的數(shù)量或只需要很短的時(shí)間時(shí),這種操作模式可能很有吸引力。
WekaIO公司提供了基于Matrix軟件的橫向擴(kuò)展存儲(chǔ)平臺(tái),該平臺(tái)可以部署在具有NVMe驅(qū)動(dòng)器的服務(wù)器上,也可以部署在具有NVMe功能的彈性計(jì)算云實(shí)例的AWS公共云中。
Excelero NVMesh是另一個(gè)軟件定義存儲(chǔ)(SDS)產(chǎn)品,它可以跨多個(gè)服務(wù)器和存儲(chǔ)線性地?cái)U(kuò)展性能,并且通常與IBM公司的Spectrum Scale結(jié)合起來(lái)創(chuàng)建一個(gè)擴(kuò)展文件系統(tǒng)。
數(shù)據(jù)移動(dòng)性
將容量和性能層組合到單個(gè)產(chǎn)品中需要人工或自動(dòng)過(guò)程,以在性能和容量層之間移動(dòng)數(shù)據(jù),并在元數(shù)據(jù)移動(dòng)時(shí)在元數(shù)據(jù)之間成功跟蹤數(shù)據(jù)。某些人工智能存儲(chǔ)產(chǎn)品可以直接與對(duì)象存儲(chǔ)集成,從而簡(jiǎn)化了此過(guò)程。公共云可以作為機(jī)器學(xué)習(xí)和人工智能開(kāi)發(fā)的強(qiáng)大選擇,因?yàn)樵趦?nèi)部云服務(wù)之間移動(dòng)的數(shù)據(jù)不會(huì)產(chǎn)生存儲(chǔ)費(fèi)用。例如,WekaIO 公司的Matrix可以在內(nèi)部和外部復(fù)制數(shù)據(jù),并將其存檔到對(duì)象存儲(chǔ)中。
集成在一起
想要為機(jī)器學(xué)習(xí)和人工智能工作負(fù)載實(shí)現(xiàn)本地存儲(chǔ)的企業(yè)必須考慮容量和性能。對(duì)于性能層,他們可以從頭開(kāi)始構(gòu)建,也可以部署一個(gè)打包的產(chǎn)品,用于機(jī)器學(xué)習(xí)的融合基礎(chǔ)設(shè)施。使用構(gòu)建選項(xiàng),企業(yè)可以部署內(nèi)部設(shè)備或使用軟件定義存儲(chǔ)(SDS)。軟件定義存儲(chǔ)(SDS)使組織能夠?qū)⒋鎯?chǔ)作為一個(gè)單獨(dú)的層來(lái)實(shí)現(xiàn),或者構(gòu)建一個(gè)超融合的基礎(chǔ)設(shè)施。如果數(shù)據(jù)將保留在本地,則組織可以使用設(shè)備或遵循軟件定義的路由,使用對(duì)象存儲(chǔ)部署容量層。
轉(zhuǎn)向公共云,IT組織可以使用本機(jī)服務(wù),例如對(duì)象存儲(chǔ)和塊存儲(chǔ)。要實(shí)現(xiàn)機(jī)器學(xué)習(xí)和人工智能應(yīng)用程序的低延遲,文件存儲(chǔ)產(chǎn)品還有很長(zhǎng)的路要走。相反,組織可能會(huì)使用塊存儲(chǔ),尤其是與將文件服務(wù)層添加到本機(jī)塊資源的軟件定義存儲(chǔ)(SDS)或人工智能存儲(chǔ)產(chǎn)品結(jié)合使用的時(shí)候。