亞馬遜云科技為Amazon SageMaker Ground Truth新增合成數(shù)據(jù)(圖像)生成功能
北京2022年9月14日 /美通社/ -- 日前,亞馬遜云科技為其機器學習數(shù)據(jù)標注服務Amazon SageMaker Ground Truth新增合成數(shù)據(jù)(圖像)生成功能??蛻羰褂眠@一新功能,可以生成數(shù)十萬計已標注的合成圖像,無需手動標注數(shù)據(jù),提高標注的準確性,并快速獲取高質量的訓練數(shù)據(jù)集。該功能的推出讓Amazon SageMaker變得更強大,作為亞馬遜云科技機器學習服務層面的核心產品,亞馬遜云科技不斷豐富Amazon SageMaker的功能,僅2021年就推出60多項新的特性和功能。
機器學習(ML)模型構建是一個不斷重復、迭代的過程,從數(shù)據(jù)收集和準備開始,然后是模型訓練和部署。其中,為模型訓練收集大量、多樣化且準確標注的數(shù)據(jù)集,是非常具有挑戰(zhàn)性并耗時的第一步。
以計算機視覺(CV)應用為例,在工業(yè)領域,該技術能夠改善生產質量、提高倉庫管理的自動化水平等,目前已在工業(yè)數(shù)字化和智能化發(fā)揮了關鍵作用。然而,為訓練計算機視覺模型而收集數(shù)據(jù)的過程既耗時又費力,有時甚至幾乎無法完成。為確保模型的準確性,數(shù)據(jù)科學家可能會花費數(shù)月時間,從生產環(huán)境中收集數(shù)十萬張圖像,盡可能涵蓋數(shù)據(jù)的所有變化。但在某些情況下,例如,要獲取罕見或價格昂貴的產品的缺陷的圖像,只有通過故意損壞產品這種極端方式才能實現(xiàn),這讓數(shù)據(jù)科學家無法從真實數(shù)據(jù)中找到所有的數(shù)據(jù)變化。
收集完所有數(shù)據(jù)后,數(shù)據(jù)科學家團隊還需要準確地標注圖像,這又是一項艱巨的任務。手動標注圖像進程緩慢且容易出現(xiàn)人為錯誤;同時,構建自定義標注工具和設置縮放標注操作可能既耗時又昂貴。將真實數(shù)據(jù)與合成數(shù)據(jù)相結合是緩解這一挑戰(zhàn)的方法之一,讓數(shù)據(jù)科學團隊可以創(chuàng)建更完整和平衡的數(shù)據(jù)集并增加數(shù)據(jù)的多樣性。
亞馬遜云科技機器學習數(shù)據(jù)標注服務Amazon SageMaker Ground Truth,可以讓客戶創(chuàng)建任何圖像數(shù)據(jù),包括在現(xiàn)實世界中難以發(fā)現(xiàn)和復制的特殊場景數(shù)據(jù)。客戶甚至可以自定義對象和環(huán)境的變量,例如反映不同的照明、顏色、紋理、姿勢或背景。Amazon SageMaker Ground Truth讓數(shù)據(jù)科學家可以為其正在訓練的機器學習模型"量身定制"特定用例。此外,客戶還可以選擇Amazon SageMaker Ground Truth Plus,借助亞馬遜云科技的專家團隊創(chuàng)建高質量的訓練數(shù)據(jù)集,無需構建用于標注的應用程序或自行管理標注的人員。
Plus One Robotics是一家物流機器人視覺軟件開發(fā)商。Plus One Robotics 創(chuàng)始人、首席技術官Shaun Edwards 表示,"隨著人力資源的減少以及倉庫商品量的激增,客戶希望我們能幫助他們處理倉庫中千變萬化的物品。新入庫的商品可能是首次出現(xiàn),或者只在特定情形下出現(xiàn)。使用合成數(shù)據(jù)能讓我們預先對系統(tǒng)進行訓練,以應對現(xiàn)實可能遇到的各種情況。我們使用Amazon SageMaker Ground Truth生成數(shù)以萬計帶標簽的、來自不同承運商的逼真物品圖像,對物品姿勢、位置、甚至貼紙或標簽之類的表面變化進行建模。合成圖像使我們能夠更快地訓練性能更好的系統(tǒng),其完整性和精確性使我們免去繁瑣的數(shù)據(jù)標注和清洗步驟,每天為客戶超過100萬的運單提供支持。