當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀] 隨著大數(shù)據(jù)上升為國家戰(zhàn)略,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展對經(jīng)濟(jì)社會的價值和影響得到廣泛認(rèn)可,大數(shù)據(jù)技術(shù)逐漸滲透到各行各業(yè),成為重要的生產(chǎn)要素和戰(zhàn)略資產(chǎn)。數(shù)據(jù)量的增長,手動完成任務(wù)與自動化產(chǎn)生的生產(chǎn)力差距越來越大,這使得以人工智能和機(jī)器學(xué)習(xí)為基礎(chǔ)的自動化趨勢越來越有市場。機(jī)器學(xué)習(xí)可以幫助縮小這一差距嗎?數(shù)據(jù)管理和數(shù)據(jù)轉(zhuǎn)換之間有重要的區(qū)別。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)集成過程中的第一步,其目標(biāo)是將異類數(shù)據(jù)轉(zhuǎn)換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉(zhuǎn)換成歐元,或?qū)⒂㈡^轉(zhuǎn)換成公斤。盡管大數(shù)據(jù)分析技術(shù)取得了驚人的進(jìn)步,但我們在很大程度上仍需要手動來完成重要任務(wù),例如數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理。

 隨著大數(shù)據(jù)上升為國家戰(zhàn)略,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展對經(jīng)濟(jì)社會的價值和影響得到廣泛認(rèn)可,大數(shù)據(jù)技術(shù)逐漸滲透到各行各業(yè),成為重要的生產(chǎn)要素和戰(zhàn)略資產(chǎn)。數(shù)據(jù)量的增長,手動完成任務(wù)與自動化產(chǎn)生的生產(chǎn)力差距越來越大,這使得以人工智能和機(jī)器學(xué)習(xí)為基礎(chǔ)的自動化趨勢越來越有市場。機(jī)器學(xué)習(xí)可以幫助縮小這一差距嗎?數(shù)據(jù)管理和數(shù)據(jù)轉(zhuǎn)換之間有重要的區(qū)別。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)集成過程中的第一步,其目標(biāo)是將異類數(shù)據(jù)轉(zhuǎn)換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉(zhuǎn)換成歐元,或?qū)⒂㈡^轉(zhuǎn)換成公斤。盡管大數(shù)據(jù)分析技術(shù)取得了驚人的進(jìn)步,但我們在很大程度上仍需要手動來完成重要任務(wù),例如數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理。

 

坦率地說,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理問題頗具挑戰(zhàn)性。各行各業(yè)的公司都渴望將機(jī)器學(xué)習(xí)與他們的數(shù)據(jù)庫結(jié)合使用,以獲得競爭優(yōu)勢。但是,數(shù)據(jù)不干凈、數(shù)據(jù)未集成、不可比較和不匹配的數(shù)據(jù)問題層出不窮,使公司的大數(shù)據(jù)計劃陷入困境。

許多從事機(jī)器學(xué)習(xí)的數(shù)據(jù)科學(xué)家花費了90%的時間來查找、集成、修復(fù)和清理其輸入數(shù)據(jù)。 人們似乎沒有意識到數(shù)據(jù)科學(xué)家不再是數(shù)據(jù)科學(xué)家,而是成為了數(shù)據(jù)集成商。不過也有一個好消息,機(jī)器學(xué)習(xí)本身可以幫助機(jī)器學(xué)習(xí)。這個想法是利用算法的預(yù)測能力來模擬人類數(shù)據(jù)處理。這不是100%完美的解決方案,但它可以幫助緩解工作強(qiáng)度,讓數(shù)據(jù)科學(xué)家轉(zhuǎn)向真正的創(chuàng)新工作。您可以在任何你能買到的地方購買ML,通過使用ML來來幫助您完成ETL的轉(zhuǎn)換部分。

 

轉(zhuǎn)換和管理數(shù)據(jù)

雖然它們在某些方面是相似的,但是數(shù)據(jù)管理和數(shù)據(jù)轉(zhuǎn)換之間有重要的區(qū)別。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)集成過程中的第一步,其目標(biāo)是將異類數(shù)據(jù)轉(zhuǎn)換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉(zhuǎn)換成歐元,或?qū)⒂㈡^轉(zhuǎn)換成公斤。

轉(zhuǎn)換階段之后,分析人員開始管理和分析數(shù)據(jù)。第一步通常涉及運行“match/merge”函數(shù)來創(chuàng)建與相同實體對應(yīng)的記錄集群,例如將不同但拼寫相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來確定兩個不同實體之間的距離。然后使用更多的規(guī)則來比較各種實體,以確定給定記錄的最佳值。公司可以聲明最后一項是最好的,或者使用一組值中的公共值,這樣就可以產(chǎn)生最佳數(shù)據(jù)。

幾十年來,這種通用的兩步過程已在許多數(shù)據(jù)倉庫中使用,并且在現(xiàn)代的數(shù)據(jù)湖中繼續(xù)使用。但是,ETL和數(shù)據(jù)管理在很大程度上未能跟上今天的數(shù)據(jù)量以及企業(yè)面臨的挑戰(zhàn)規(guī)模。

例如,這需要預(yù)先定義一個全局模式,這阻礙了許多ETL的進(jìn)行,這些工作試圖集成更多的數(shù)據(jù)源。在有些時候,程序員無法跟上必須設(shè)置的數(shù)據(jù)轉(zhuǎn)換規(guī)則的數(shù)量。如果您有10個數(shù)據(jù)源,您還可以這樣做,但是,如果您有10,000個,那就不太可能了。顯然,這需要一種不同的方法。

在小型企業(yè)中,您可能可以提前創(chuàng)建全局?jǐn)?shù)據(jù)模式,然后在整個組織中強(qiáng)制使用它,從而省去了昂貴的ETL和數(shù)據(jù)管理項目的成本,一起放在數(shù)據(jù)倉庫中。但是,在大型組織中,這種自上而下的方法不可避免地會失敗。

即使大型企業(yè)中的業(yè)務(wù)部門彼此非常相似,它們記錄數(shù)據(jù)的方式也會有微小的差異。這些微小差異需要加以考慮,然后才能對其進(jìn)行有意義的分析,這只是企業(yè)數(shù)據(jù)性質(zhì)的反映。因此業(yè)務(wù)靈活性需要一定程度的獨立性,這意味著每個業(yè)務(wù)部門都建立自己的數(shù)據(jù)中心。

例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個業(yè)務(wù)國家都有獨立的客戶支持組織。該公司希望為250個數(shù)據(jù)庫中的所有實體創(chuàng)建一個主記錄,其中包含40種不同語言的3000萬條記錄。

豐田汽車歐洲公司面臨的問題是,ETL和數(shù)據(jù)管理項目的規(guī)模是巨大的,如果按照傳統(tǒng)方式進(jìn)行,將消耗大量的資源。該公司決定使用Tamr來幫助解決機(jī)器學(xué)習(xí)的挑戰(zhàn),而不是數(shù)據(jù)轉(zhuǎn)換和使用數(shù)據(jù)管理過程。ETL最大的問題是已經(jīng)預(yù)先定義了全局模式,如何大規(guī)模地做到這一點是個問題。需要使用機(jī)器學(xué)習(xí)進(jìn)行自下向上的匹配、自下而上地構(gòu)造目標(biāo)模式,從規(guī)模上看,這是唯一可行的方式。

機(jī)器學(xué)習(xí)仍然需要大量的數(shù)據(jù)和處理能力,您通常需要一個最優(yōu)秀的員工來幫助指導(dǎo)軟件獲得正確的數(shù)據(jù)分析結(jié)果與決策見解。不同的供應(yīng)商之間該如何選擇。不同國家或地區(qū)的供應(yīng)商提供的解決方案不同,而且出于一些宏觀因素,會出現(xiàn)不同的選擇。出于安全考慮,這些數(shù)據(jù)問題不能完全外包給其他公司,所以不要指望完全用機(jī)器學(xué)習(xí)來處理數(shù)據(jù),人在其中的作用還是非常重要的。人與機(jī)器學(xué)習(xí)合作才能夠使您的數(shù)據(jù)集成和管理效率最大化。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉