當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 杰夫·貝佐斯(Jeff Bezos)往車庫里下訂單并親自開車去郵局時,處理成本數(shù)字,跟蹤庫存和預(yù)測未來需求相對簡單??爝M25年了,亞馬遜的零售業(yè)務(wù)在全球擁有175 多個配送中心,超過25萬名全職

杰夫·貝佐斯(Jeff Bezos)往車庫里下訂單并親自開車去郵局時,處理成本數(shù)字,跟蹤庫存和預(yù)測未來需求相對簡單??爝M25年了,亞馬遜的零售業(yè)務(wù)在全球擁有175 多個配送中心,超過25萬名全職員工每天運送數(shù)百萬件商品。

亞馬遜全球財務(wù)運營團隊的任務(wù)非常艱巨,即跟蹤所有數(shù)據(jù)(以PB為單位)。 在亞馬遜的規(guī)模上,錯誤計算的指標(biāo)(例如單位成本或數(shù)據(jù)延遲)可能會產(chǎn)生巨大影響(請考慮數(shù)百萬美元)。團隊一直在尋找更快地獲取更準(zhǔn)確數(shù)據(jù)的方法。

這就是為什么他們在2019年有一個主意:建立一個可以支撐地球上最大的物流網(wǎng)絡(luò)之一的數(shù)據(jù)湖。后來它在內(nèi)部被稱為Galaxy數(shù)據(jù)湖。Galaxy數(shù)據(jù)湖建于2019年,現(xiàn)在所有各個團隊都在努力將數(shù)據(jù)移入其中。

數(shù)據(jù)湖是一個集中式安全存儲庫,可讓您以任何規(guī)模存儲,管理,發(fā)現(xiàn)和共享所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖不需要預(yù)定義的架構(gòu),因此您可以處理原始數(shù)據(jù),而不必知道將來可能要探索的洞察力。下圖顯示了數(shù)據(jù)湖的關(guān)鍵組件:

數(shù)據(jù)湖的關(guān)鍵組件

大數(shù)據(jù)的挑戰(zhàn)

亞馬遜面對大數(shù)據(jù)的挑戰(zhàn)與許多其他公司面臨的挑戰(zhàn)相似:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)控制器能力,數(shù)據(jù)安全性以及整合機器學(xué)習(xí)。讓我們仔細(xì)研究這些挑戰(zhàn),看看數(shù)據(jù)湖如何幫助解決它們。

打破數(shù)據(jù)孤島

公司選擇創(chuàng)建數(shù)據(jù)湖的主要原因是要打破數(shù)據(jù)孤島。在不同地方擁有由不同組控制的數(shù)據(jù)包,本質(zhì)上會掩蓋數(shù)據(jù)。當(dāng)公司快速發(fā)展和/或收購新業(yè)務(wù)時,通常會發(fā)生這種情況。就亞馬遜而言,兩者都是。

為了在國際上擴張并迅速創(chuàng)建新的運輸計劃(例如,免費當(dāng)日交付或Amazon Fresh),大多數(shù)運營計劃團隊一直在控制自己的數(shù)據(jù)和技術(shù)。結(jié)果,數(shù)據(jù)以不同的方式存儲在不同的位置。這種方法使每個團隊都能解決問題,響應(yīng)客戶需求并更快地進行創(chuàng)新。

但是,很難在組織和公司范圍內(nèi)理解數(shù)據(jù)。它需要從許多不同來源手動收集數(shù)據(jù)。如此眾多的團隊獨立運作,我們失去了可以通過共同解決問題而獲得的效率。

從數(shù)據(jù)中獲取詳細(xì)細(xì)節(jié)也是困難的,因為不是每個人都可以訪問各種數(shù)據(jù)存儲庫。對于較小的查詢,您可以在電子表格中共享一部分?jǐn)?shù)據(jù)。但是,當(dāng)數(shù)據(jù)超出電子表格的容量時,挑戰(zhàn)就出現(xiàn)了,這通常發(fā)生在大型公司中。在某些情況下,您可以共享較高級別的數(shù)據(jù)摘要,但實際上并沒有獲得完整的圖像。

數(shù)據(jù)湖通過將所有數(shù)據(jù)合并到一個中央位置來解決此問題。團隊可以繼續(xù)充當(dāng)敏捷單位,但是所有道路都通向數(shù)據(jù)湖進行分析。沒有更多的筒倉。

分析各種數(shù)據(jù)集

使用不同的系統(tǒng)和方法進行數(shù)據(jù)管理的另一個挑戰(zhàn)是數(shù)據(jù)結(jié)構(gòu)和信息各不相同。例如,Amazon Prime擁有配送中心和包裝商品的數(shù)據(jù),而Amazon Fresh則有雜貨店和食品的數(shù)據(jù)。

甚至國際運輸計劃也有所不同。例如,不同的國家有時會有不同的盒子尺寸和形狀。來自“物聯(lián)網(wǎng)”設(shè)備(例如,配送中心機器上的傳感器)的非結(jié)構(gòu)化數(shù)據(jù)也越來越多。

而且,不同的系統(tǒng)可能也具有相同類型的信息,但是其標(biāo)簽不同。 例如,在歐洲,使用的術(shù)語是“每單位成本”,而在北美,使用的術(shù)語是“每包裝成本”。這兩個術(shù)語的日期格式不同。在這種情況下,需要在兩個標(biāo)簽之間建立鏈接,以便分析數(shù)據(jù)的人知道它指的是同一件事。

如果要在沒有數(shù)據(jù)湖的傳統(tǒng)數(shù)據(jù)倉庫中合并所有這些數(shù)據(jù),則需要大量數(shù)據(jù)準(zhǔn)備以及導(dǎo)出,轉(zhuǎn)換和加載或ETL操作。您將不得不權(quán)衡要保留的內(nèi)容和丟失的內(nèi)容,并不斷更改剛性系統(tǒng)的結(jié)構(gòu)。

數(shù)據(jù)湖可讓您以任何格式導(dǎo)入任何數(shù)量的數(shù)據(jù),因為沒有預(yù)定義的架構(gòu)。您甚至可以實時攝取數(shù)據(jù)。您可以從多個來源收集數(shù)據(jù),并將其以原始格式移入數(shù)據(jù)湖。您還可以在信息之間建立鏈接,這些信息可能被標(biāo)記為不同但代表同一件事。

將所有數(shù)據(jù)移至數(shù)據(jù)湖還可以改善傳統(tǒng)數(shù)據(jù)倉庫的功能。您可以靈活地將高度結(jié)構(gòu)化,經(jīng)常訪問的數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,同時還可以在數(shù)據(jù)湖存儲中保留多達EB的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

管理數(shù)據(jù)訪問

由于數(shù)據(jù)存儲在這么多位置,因此很難訪問所有數(shù)據(jù)并鏈接到外部工具進行分析。亞馬遜的運營財務(wù)數(shù)據(jù)分布在25多個數(shù)據(jù)庫中,區(qū)域團隊創(chuàng)建了自己的本地數(shù)據(jù)集版本。對于某些人來說,這意味著超過25個訪問管理憑據(jù)。許多數(shù)據(jù)庫都需要訪問管理支持來執(zhí)行諸如更改配置文件或重置密碼之類的操作。此外,必須對每個數(shù)據(jù)庫進行審核和控制,以確保沒有人有不當(dāng)訪問權(quán)限。

借助數(shù)據(jù)湖,可以在合適的時間將合適的數(shù)據(jù)提供給合適的人變得更加容易。不必管理對存儲數(shù)據(jù)的所有不同位置的訪問,您只需要擔(dān)心一組憑據(jù)。數(shù)據(jù)湖具有允許授權(quán)用戶查看,訪問,處理或修改特定資產(chǎn)的控件。數(shù)據(jù)湖有助于確保阻止未經(jīng)授權(quán)的用戶采取可能損害數(shù)據(jù)機密性和安全性的措施。

數(shù)據(jù)也以開放格式存儲,這使得使用不同的分析服務(wù)更加容易。開放格式還使數(shù)據(jù)更有可能與尚不存在的工具兼容。您組織中的各種角色,例如數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師,應(yīng)用程序開發(fā)人員和業(yè)務(wù)分析師,都可以使用他們選擇的分析工具和框架來訪問數(shù)據(jù)。

簡而言之,您不必局限于一小組工具,而更多的人可以理解數(shù)據(jù)。

加速機器學(xué)習(xí)

數(shù)據(jù)湖是機器學(xué)習(xí)和人工智能的強大基礎(chǔ)),因為它們在大型,多樣化的數(shù)據(jù)集上蓬勃發(fā)展。機器學(xué)習(xí)使用從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)的統(tǒng)計算法(稱為訓(xùn)練的過程)來做出有關(guān)新數(shù)據(jù)的決策(稱為推理的過程)。

在訓(xùn)練期間,將識別數(shù)據(jù)中的模式和關(guān)系以建立模型。該模型使您能夠?qū)奈从龅竭^的數(shù)據(jù)做出明智的決策。您擁有的數(shù)據(jù)越多,就越能訓(xùn)練您的機器學(xué)習(xí)模型,從而提高準(zhǔn)確性。

亞馬遜全球運營財務(wù)團隊的最大職責(zé)之一是計劃和預(yù)測亞馬遜供應(yīng)鏈的運營成本和資本支出,其中包括整個運輸網(wǎng)絡(luò),數(shù)百個配送中心,分揀中心,配送站,全食超市,新鮮采摘場。上升點等等。

他們幫助回答重要的高級問題,例如“明年我們將運送多少包裹?” 和“我們將在薪金上花費多少?” 他們還解決非常具體的問題,例如“下個月我們在佛羅里達州坦帕市需要多少個不同大小的盒子?”

您的預(yù)測越準(zhǔn)確,效果越好。如果您估計太低或太高,都可能產(chǎn)生負(fù)面影響,從而影響您的客戶和利潤。

例如,在亞馬遜,如果我們預(yù)測需求太低,則配送中心的倉庫工人可能沒有足夠的供應(yīng)或驅(qū)動程序不足,這可能導(dǎo)致包裹延遲,更多的客戶服務(wù)電話,訂單被取消以及失去客戶信任。如果我們預(yù)測過高,您可能會有庫存和箱子圍著倉庫占用寶貴的空間。這種情況意味著對需求量更高的產(chǎn)品的空間較小。

像亞馬遜這樣的大多數(shù)組織都花費大量時間來預(yù)測未來。幸運的是,機器學(xué)習(xí)可以改善預(yù)測。去年,亞馬遜運營財務(wù)團隊進行了測試。他們采用了一部分預(yù)測,并將傳統(tǒng)的手動流程與Amazon Forecast進行了比較。AmazonForecast是一項完全托管的服務(wù),使用機器學(xué)習(xí)來提供高度準(zhǔn)確的預(yù)測。在此試運行中,由Forecast所完成的預(yù)測平均比通過手動過程完成的預(yù)測準(zhǔn)確67%。

通過將所有數(shù)據(jù)移至數(shù)據(jù)湖,亞馬遜的運營財務(wù)團隊可以結(jié)合數(shù)據(jù)集來訓(xùn)練和部署更準(zhǔn)確的模型。使用更相關(guān)的數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)模型可以提高預(yù)測的準(zhǔn)確性。此外,它還釋放了手動執(zhí)行此任務(wù)的員工來執(zhí)行更具戰(zhàn)略意義的項目,例如分析預(yù)測以推動現(xiàn)場運營的改善。

使用正確的工具:AWS上的Galaxy

亞馬遜的零售業(yè)務(wù)使用某些技術(shù),該技術(shù)早于2006年開始創(chuàng)建Amazon Web Services。在過去十年中,為了變得更具可擴展性,效率,性能和安全性,亞馬遜零售業(yè)務(wù)中的許多工作負(fù)載已轉(zhuǎn)移到AWS。Galaxy數(shù)據(jù)湖是內(nèi)部稱為Galaxy的大型大數(shù)據(jù)平臺的重要組成部分。下圖顯示了Galaxy依賴AWS的某些方式以及它使用的某些AWS服務(wù):

Galaxy數(shù)據(jù)湖基于Amazon的Simple Storage Service或?qū)ο蟠鎯Ψ?wù)S3構(gòu)建。一些數(shù)據(jù)還存儲在基于Amazon專有的基于文件的數(shù)據(jù)存儲中,即Andes和Elastic Data eXchange,它們都是Amazon S3之上的服務(wù)層。其他一些數(shù)據(jù)源是數(shù)據(jù)倉庫 Amazon Redshift ,Amazon RelaTIonal Database Service或RDS以及企業(yè)應(yīng)用程序。

AWS Glue 是一項完全托管的ETL服務(wù),可讓您輕松準(zhǔn)備和加載數(shù)據(jù)以進行分析,并且使用AWS Database MigraTIon Service或DMS 將各種數(shù)據(jù)集加載到Amazon S3.Galaxy將來自多種服務(wù)(包括Amazon Redshift,Amazon RDS和AWS Glue數(shù)據(jù)目錄)的元數(shù)據(jù)資產(chǎn)組合到基于Amazon DynamoDB(鍵值和文檔數(shù)據(jù)庫)構(gòu)建的統(tǒng)一目錄層中。Amazon ElasTIcsearch Service或 ES 用于在目錄上啟用更快的搜索查詢。

在對數(shù)據(jù)進行分類或裝入后,將在客戶端層使用各種服務(wù)。例如,交互式查詢服務(wù)Amazon Athena,用于使用標(biāo)準(zhǔn)SQL進行臨時探索性查詢;Amazon Redshift,一項用于更結(jié)構(gòu)化的查詢和報告的服務(wù);和Amazon SageMaker,用于機器學(xué)習(xí)。

AWS湖形成

亞馬遜團隊從頭開始創(chuàng)建了Galaxy數(shù)據(jù)湖架構(gòu)。他們不得不在幾個月內(nèi)手動開發(fā)許多組件,這與其他公司過去必須這樣做的方式類似。在2019年8月,AWS發(fā)布了一項名為AWS Lake FormaTIon的新服務(wù)。

它使您可以簡化數(shù)據(jù)湖的創(chuàng)建過程,并在幾天(而不是幾個月)內(nèi)構(gòu)建一個安全的數(shù)據(jù)湖。Lake Formation幫助您從數(shù)據(jù)庫和對象存儲中收集和分類數(shù)據(jù),將數(shù)據(jù)移至新的Amazon S3數(shù)據(jù)湖中,使用機器學(xué)習(xí)算法對數(shù)據(jù)進行清理和分類,以及安全訪問敏感數(shù)據(jù)。

摘要

通過以基于開放標(biāo)準(zhǔn)的數(shù)據(jù)格式將數(shù)據(jù)存儲在統(tǒng)一的存儲庫中,數(shù)據(jù)湖可讓您分解孤島,使用各種分析服務(wù)從數(shù)據(jù)中獲取最大的見解,并以經(jīng)濟高效的方式滿足存儲和數(shù)據(jù)處理需求隨著時間的推移。

對于亞馬遜的財務(wù)運營團隊而言,Galaxy數(shù)據(jù)湖將為其全球用戶提供集成體驗。Galaxy的基礎(chǔ)設(shè)施建于2019年,現(xiàn)在各種數(shù)據(jù)庫系統(tǒng)都在遷移到數(shù)據(jù)湖中。使用該工具的團隊現(xiàn)在已經(jīng)看到了它的好處,理由是消除了手動流程和笨拙的電子表格,生產(chǎn)率的提高以及可用于增值分析的更多時間。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉