機器學(xué)習(xí)適不適合用在云計算的運維上
為云計算服務(wù)團隊提供機器學(xué)習(xí)功能的系統(tǒng)不僅是一個錯誤,而且也是危險的。
一家公司的云平臺在一個周末發(fā)生故障,該公司云計算運營團隊試圖研究和探討發(fā)生了什么問題。似乎有幾個系統(tǒng)與一個先進的新的庫存管理系統(tǒng)相關(guān),這個系統(tǒng)啟用了機器學(xué)習(xí),但出現(xiàn)了問題。對其進行檢測之后的結(jié)論如下:
?將原始數(shù)據(jù)從運營數(shù)據(jù)庫移動到訓(xùn)練數(shù)據(jù)庫的批處理以及自動恢復(fù)過程失敗。而在周末工作的運維團隊成員試圖重新提交,但并不是一次性提交,而是進行了四次更新,導(dǎo)致訓(xùn)練數(shù)據(jù)庫處于不穩(wěn)定狀態(tài)。
?這導(dǎo)致機器學(xué)習(xí)系統(tǒng)中的知識模型使用錯誤的數(shù)據(jù)進行訓(xùn)練,并要求刪除知識庫中的新信息,并重建模型。
?此外,一些外部數(shù)據(jù)饋送(例如定價和稅務(wù)數(shù)據(jù))同時更新到訓(xùn)練數(shù)據(jù)庫。盡管這些工作正常,但考慮到運營數(shù)據(jù)不是很好,也需要退出知識庫。
?該系統(tǒng)兩天內(nèi)無法使用,考慮到生產(chǎn)力下降、客戶不滿以及公關(guān)問題,使該公司損失了400萬美元。
隨著企業(yè)越來越多地使用“物美價廉”的基于云計算的機器學(xué)習(xí)系統(tǒng),人們發(fā)現(xiàn)利用機器學(xué)習(xí)的系統(tǒng)操作起來很復(fù)雜。企業(yè)運營小組希望降低困難程度和復(fù)雜性,但發(fā)現(xiàn)面臨訓(xùn)練不足、人手不足和資金不足的問題。
云計算運營團隊可以通過相當(dāng)容易的轉(zhuǎn)換來處理基于云計算的數(shù)據(jù)庫、存儲、計算??紤]到基于云計算的系統(tǒng)與傳統(tǒng)系統(tǒng)類似,大多數(shù)情況都是如此。
但是,運營團隊在很大程度上還沒有采用基于機器學(xué)習(xí)的系統(tǒng)。這些系統(tǒng)具有專門的用途,以及須以某種方式監(jiān)視和管理的專用系統(tǒng),如數(shù)據(jù)庫和知識引擎。這是當(dāng)前運營團隊失敗的地方。
這種情況很容易理解,但大多數(shù)企業(yè)都不會喜歡,因為它意味著花費更多資金用于機器學(xué)習(xí)的云計算運營,可能導(dǎo)致放棄。機器學(xué)習(xí)系統(tǒng)是一種技術(shù)鏈,如果小心使用,它們很有效。如果處理不當(dāng),可能無法檢測到故障,將會很危險。如果系統(tǒng)使用由此產(chǎn)生的錯誤知識,那么可能會出現(xiàn)嚴(yán)重的問題,而在造成很大的損害之前,這些問題可能無法被發(fā)現(xiàn)。似乎其風(fēng)險大于回報。