浪潮在線壓縮,為數(shù)據(jù)存儲降本增效
北京2022年4月7日 /美通社/ -- 隨著新技術(shù)、新應(yīng)用不斷出現(xiàn),數(shù)字化轉(zhuǎn)型也在不斷加速,行業(yè)智慧應(yīng)用爆發(fā)式增長,改變了人們的工作、生活、學習方式,使得社會進入了數(shù)字經(jīng)濟時代。據(jù)IDC預測,到2025 年,每天有超過 60 億人與數(shù)據(jù)發(fā)生互動,相當于全球人口的 75%;每個聯(lián)網(wǎng)的人每隔18 秒就會有至少 1 次數(shù)據(jù)交互,全球數(shù)據(jù)也將增至 175ZB。而這些數(shù)據(jù)被記錄在不同存儲系統(tǒng)與介質(zhì)中,企業(yè)不斷購置大量的存儲設(shè)備來應(yīng)對快速增長的數(shù)據(jù)存儲需求,這也增加了系統(tǒng)支出和資源能耗。浪潮存儲基于技術(shù)創(chuàng)新提出了智能在線壓縮技術(shù)(InCompression),通過結(jié)合硬件及算法進行數(shù)據(jù)量縮減,以提升存儲空間利用率,達到降本增效的目的。
浪潮存儲
在數(shù)據(jù)管理的過程中,最終都需要將數(shù)據(jù)存放到某一類最底層物理存儲介質(zhì)中。目前,底層物理存儲介質(zhì)主要有光、磁、電三種,對應(yīng)的存儲產(chǎn)品類型可也被分為三大類:光學存儲,如藍光存儲;磁存儲,如HDD機械硬盤;半導體存儲,采用電能存儲,如SSD固態(tài)硬盤。除了目前主要使用光、磁、電三種介質(zhì)之外,業(yè)界還在進行DNA存儲等下一代介質(zhì)研發(fā)。當前在企業(yè)級存儲市場應(yīng)用最廣泛的是HDD機械盤跟SSD固態(tài)盤,其中SSD節(jié)能優(yōu)勢明顯,相對于HDD,在相同容量下,SSD的電力能耗降低70%,可有效推進數(shù)據(jù)中心低碳運轉(zhuǎn),其性能在市場中也具有較強的競爭力。
另外,“硅進磁退”是存儲介質(zhì)發(fā)展的趨勢,全閃存陣列的普及速度也在逐年提高。SSD固態(tài)硬盤的性能雖高,但是其中的flash顆粒存在成本和磨損壽命的限制。因此在全閃存系統(tǒng)進行設(shè)計時,需要充分考慮減少flash的磨損。業(yè)界中也通過壓縮技術(shù)減少寫入的數(shù)據(jù)量,進而有效減少對flash的磨損,提高系統(tǒng)的利用率,延長SSD的使用壽命,從而降低數(shù)據(jù)存儲的成本。
存儲系統(tǒng)中的無損數(shù)據(jù)壓縮算法,正在由效率較低的定長(Fixed Bit Length Packing)壓縮轉(zhuǎn)變?yōu)椴欢ㄩL壓縮。其中,由Abraham Lempel 和 Jacob Ziv獨創(chuàng)性的使用字典的LZ77/78算法及其變種應(yīng)用最為廣泛。這類使用字典來壓縮數(shù)據(jù)LZ算法使用一種基于滑動窗口緩存的技術(shù),該緩存用于保存最近剛剛處理的文本;當出現(xiàn)一個重復時,重復的序列可以用一個短的編碼來代替;壓縮程序掃描這樣的重復,同時生成編碼來代替重復序列,隨著時間的過去,編碼可以重用來捕獲新的序列。當然系統(tǒng)必須要設(shè)計成解壓程序能夠在編碼和原始數(shù)據(jù)序列推導出當前的映射。
LZ算法示意圖
LZ算法使用了有限的窗口在以前的文本中查找匹配,對于相對于窗口大小來說非常長的文本塊,很多可能的匹配就會被丟掉。窗口大小可以增加,但這會帶來兩個損失:一是算法的處理時間會增加;二是指針字段必須更長,以允許更長的跳轉(zhuǎn)。兩者都很消耗計算資源(CPU和緩存)。
傳統(tǒng)在線實時壓縮技術(shù)一般采用軟件壓縮來實現(xiàn),會帶來一定的CPU負載,如果壓縮算法做的不夠優(yōu)化,就會導致壓縮功能開啟后占用較多CPU性能(雙倍壓縮,占用15%左右CPU資源),一般會影響系統(tǒng)1/3-2/3的性能,影響業(yè)務(wù)的可用性能。因此,某些存儲系統(tǒng)中并不建議企業(yè)在業(yè)務(wù)繁忙時開啟壓縮功能,一般在業(yè)務(wù)空閑階段使用壓縮。
數(shù)據(jù)壓縮的另外一個痛點在于,數(shù)據(jù)塊經(jīng)過壓縮后,因為有不同的冗余度,數(shù)據(jù)塊長度變得不一,容易造成磁盤碎片。這種基于位置的壓縮給系統(tǒng)的數(shù)據(jù)布局帶來很大影響,嚴重影響業(yè)務(wù)的IO響應(yīng)能力,加劇性能衰減。
浪潮智能在線壓縮基于硬件壓縮技術(shù),降低了對控制器計算資源的占用,特別是CPU和緩存,使得壓縮功能的開啟,只占用了低于3%的CPU性能影響(部分IO交互);與此同時,通過特定優(yōu)化的壓縮算法,將在線壓縮的不定長數(shù)據(jù)轉(zhuǎn)變?yōu)槎ㄩL數(shù)據(jù),壓縮數(shù)據(jù)8byte對齊。定長輸出壓縮模式是一種前壓縮方式,數(shù)據(jù)會先經(jīng)過緩存壓縮(專用緩存和壓縮芯片),最終落盤的是壓縮后的數(shù)據(jù);且算法依據(jù)非定長輸入會生成定長輸出,更容易滿條帶刷寫,提高性能同時提高磁盤空間利用率。浪潮存儲基于時序的優(yōu)化策略可以識別隨機熱點數(shù)據(jù),依賴局部性原理進行數(shù)據(jù)存儲,進一步提高隨機場景的壓縮性能。在數(shù)據(jù)布局上,不再產(chǎn)生數(shù)據(jù)碎片,從總體測試表現(xiàn)看,開啟壓縮功能后,反而提升系統(tǒng)的隨機讀寫性能。數(shù)據(jù)庫類應(yīng)用壓縮比例2:1-5:1,日志型應(yīng)用最大壓縮比例可達10:1,節(jié)省了大量的存儲空間。
浪潮存儲基于“云存智用 運籌新數(shù)據(jù)”的理念,不斷技術(shù)創(chuàng)新,將智能壓縮技術(shù)適配到存儲平臺,打造敏捷高效的存儲產(chǎn)品,在保障性能無損的情況下,提升數(shù)據(jù)存儲的效率,提高了存儲空間利用率,降低數(shù)據(jù)存儲成本,讓用戶能輕松應(yīng)對數(shù)字經(jīng)濟時代的海量數(shù)據(jù)的挑戰(zhàn)。