數(shù)據(jù)中心想要更有效的運行得怎樣借助AI的力量
麻省理工學院研究人員開發(fā)的一種新型系統(tǒng)自動“學習”如何在數(shù)千臺服務(wù)器上安排數(shù)據(jù)處理操作 - 這項任務(wù)傳統(tǒng)上用于不精確的,人為設(shè)計的算法。這樣做可以幫助當今耗電量大的數(shù)據(jù)中心更有效地運行。
數(shù)據(jù)中心可以包含數(shù)萬臺服務(wù)器,這些服務(wù)器不斷地從開發(fā)人員和用戶運行數(shù)據(jù)處理任務(wù)。群集調(diào)度算法實時地在服務(wù)器之間分配傳入任務(wù),以有效地利用所有可用的計算資源并快速完成工作。
然而,傳統(tǒng)上,人類根據(jù)一些基本指南(“政策”)和各種權(quán)衡來微調(diào)那些調(diào)度算法。例如,他們可以對算法進行編碼以快速完成某些工作,或者在工作之間平均分配資源。但工作負載 - 意味著組合任務(wù)的組合 - 具有各種規(guī)模。因此,人們幾乎不可能針對特定工作負載優(yōu)化其調(diào)度算法,因此,他們往往無法實現(xiàn)真正的效率潛力。
麻省理工學院的研究人員將所有手動編碼卸載到機器上。在SIGCOMM上發(fā)表的一篇論文中,他們描述了一個系統(tǒng),該系統(tǒng)利用“強化學習”(RL),一種反復(fù)試驗的機器學習技術(shù),來定制特定服務(wù)器集群中特定工作負載的調(diào)度決策。
為此,他們構(gòu)建了可以訓練復(fù)雜工作負載的新型RL技術(shù)。在培訓中,系統(tǒng)嘗試了許多可能的方式來跨服務(wù)器分配傳入工作負載,最終在利用計算資源和快速處理速度方面找到最佳權(quán)衡。除了簡單的指令,例如“最小化工作完成時間”之外,不需要人為干預(yù)。
與最好的手寫調(diào)度算法相比,研究人員的系統(tǒng)可以在高流量時間內(nèi)快速完成約20%到30%的工作,并且速度提高一倍。然而,大多數(shù)情況下,系統(tǒng)會學習如何有效地壓縮工作負載以減少浪費。結(jié)果表明,該系統(tǒng)可以使數(shù)據(jù)中心使用更少的資源以更高的速度處理相同的工作負載。
“如果你有辦法使用機器進行試驗和錯誤,他們可以嘗試不同的方式來安排工作并自動找出哪種策略比其他人更好,”電子工程與計算機科學系博士生Hongzi Mao說。 (EECS)?!斑@可以自動提高系統(tǒng)性能。利用率的任何微小改進,甚至1%,都可以為數(shù)據(jù)中心節(jié)省數(shù)百萬美元和大量能源?!?/p>
“制定調(diào)度決策并不是萬能的,”EECS教授兼計算機科學與人工智能實驗室研究員(CSAIL)的合著者Mohammad Alizadeh補充說?!霸诂F(xiàn)有系統(tǒng)中,這些是您必須事先決定的硬編碼參數(shù)。我們的系統(tǒng)學會根據(jù)數(shù)據(jù)中心和工作量來調(diào)整其計劃策略特征?!?/p>
來源:新天域互聯(lián)