當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]當(dāng)前最有趨勢(shì)的機(jī)器學(xué)習(xí)和人工智能在不知疲倦地創(chuàng)新,為客戶提供最先進(jìn)的解決方案。然而,在這一快速演變過(guò)程中,確保一個(gè)以高質(zhì)量和完整性為特征的穩(wěn)健數(shù)據(jù)宇宙是不可或缺的。雖然人們經(jīng)常把重點(diǎn)放在改進(jìn)人工智能模型上,但原始數(shù)據(jù)集的重要性有時(shí)會(huì)被掩蓋。

當(dāng)前最有趨勢(shì)的機(jī)器學(xué)習(xí)人工智能在不知疲倦地創(chuàng)新,為客戶提供最先進(jìn)的解決方案。然而,在這一快速演變過(guò)程中,確保一個(gè)以高質(zhì)量和完整性為特征的穩(wěn)健數(shù)據(jù)宇宙是不可或缺的。雖然人們經(jīng)常把重點(diǎn)放在改進(jìn)人工智能模型上,但原始數(shù)據(jù)集的重要性有時(shí)會(huì)被掩蓋。

本文旨在探討各組織在數(shù)據(jù)工程領(lǐng)域所需的一些基本工具,以有效改進(jìn)數(shù)據(jù)質(zhì)量并對(duì)數(shù)據(jù)進(jìn)行分類/分析,用于有效的以業(yè)務(wù)為中心的機(jī)器學(xué)習(xí)分析、報(bào)告和異常檢測(cè)。為了說(shuō)明這些工具/框架及其重要性,讓我們考慮在金融技術(shù)產(chǎn)業(yè)中的一種情景。

假設(shè)情況

想象一個(gè)客戶支持團(tuán)隊(duì)依靠一個(gè)客戶推薦平臺(tái)來(lái)獲得銷售或營(yíng)銷領(lǐng)導(dǎo)權(quán)。這些代表通過(guò)電話與客戶接觸,討論各種優(yōu)惠和方案。最近,他們遇到了這樣的情況,推薦的電話號(hào)碼導(dǎo)致不準(zhǔn)確的客戶信息,沒(méi)有明顯的模式。這一挑戰(zhàn)不僅突出了數(shù)據(jù)完整性的重要性,而且突出了數(shù)據(jù)工程師的重要角色 解決這些問(wèn)題。作為數(shù)據(jù)宇宙的管理者,主要是數(shù)據(jù)工程團(tuán)隊(duì)負(fù)責(zé)通過(guò)與銷售團(tuán)隊(duì)密切合作來(lái)應(yīng)對(duì)這些挑戰(zhàn)。

請(qǐng)參閱下圖,其中銷售團(tuán)隊(duì)與客戶合作以確保準(zhǔn)確的數(shù)據(jù),左側(cè)表示數(shù)據(jù)工程流程,其中數(shù)據(jù)來(lái)自各種系統(tǒng),包括文件系統(tǒng)、API和數(shù)據(jù)庫(kù)。數(shù)據(jù)工程師建立和管理復(fù)雜的管道和工作流程,將這些數(shù)據(jù)合并為客戶支持團(tuán)隊(duì)使用的最后數(shù)據(jù)集。由于企業(yè)組織中管道的復(fù)雜性和數(shù)量,確定數(shù)據(jù)來(lái)源問(wèn)題變得具有挑戰(zhàn)性。因此,簡(jiǎn)單的問(wèn)題比如,"我們從哪里獲取這些數(shù)據(jù)?"和"數(shù)據(jù)流中有什么中斷?"鑒于企業(yè)組織可以維護(hù)數(shù)百條管道,這將成為數(shù)據(jù)工程師面臨的嚴(yán)峻挑戰(zhàn)。

工具

為了應(yīng)對(duì)這一挑戰(zhàn),數(shù)據(jù)工程師需要強(qiáng)有力的工具/框架,以便及時(shí)應(yīng)對(duì)簡(jiǎn)單的客戶支持詢問(wèn),了解最重要的領(lǐng)導(dǎo)層的見(jiàn)解。這些工具應(yīng)該提供快速分類數(shù)據(jù)流的能力,很容易地在流的每個(gè)層上見(jiàn)證數(shù)據(jù)值,并主動(dòng)驗(yàn)證數(shù)據(jù)以防止出現(xiàn)問(wèn)題。在基本層面上,下面三個(gè)工具/框架將為應(yīng)對(duì)這一挑戰(zhàn)增加許多價(jià)值。

數(shù)據(jù)血統(tǒng)

一個(gè)工具捕捉數(shù)據(jù)流從其來(lái)源通過(guò)各種轉(zhuǎn)換,最后到其目的地。它提供了一個(gè)清晰的地圖,說(shuō)明數(shù)據(jù)來(lái)自哪里,如何處理它,以及它走向哪里,幫助數(shù)據(jù)工程師快速識(shí)別構(gòu)建的數(shù)據(jù)的血統(tǒng)。

數(shù)據(jù)觀察員

數(shù)據(jù)監(jiān)控工具使工程師能夠在管道的不同階段實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)值。它提供了對(duì)數(shù)據(jù)值、與之相關(guān)的潛在異常及其趨勢(shì)的深入了解,從而能夠?qū)θ魏芜`規(guī)行為及時(shí)做出反應(yīng),甚至授權(quán)企業(yè)參與篩選。

數(shù)據(jù)驗(yàn)證器

數(shù)據(jù)驗(yàn)證工具檢查管道中的各個(gè)點(diǎn)的數(shù)據(jù),以確保它符合預(yù)定的標(biāo)準(zhǔn)和規(guī)則。這種主動(dòng)驗(yàn)證有助于在數(shù)據(jù)問(wèn)題通過(guò)系統(tǒng)傳播之前捕捉和糾正這些問(wèn)題。

更深入地潛入每個(gè)工具

為了更深入地研究這些工具中每個(gè)工具的概念,我們將考慮一個(gè)定義了工作流的數(shù)據(jù)結(jié)構(gòu)。在本例中,我們有一個(gè)客戶實(shí)體表示為一個(gè)表,其中的屬性來(lái)自一個(gè)文件系統(tǒng)和一個(gè)API。

來(lái)自?數(shù)據(jù)流程圖 注意,工作流程如下,

為了簡(jiǎn)化,可以考慮一個(gè)場(chǎng)景customer_type A 電話號(hào)碼是通過(guò)API獲得的,而地址詳細(xì)信息則來(lái)自于一個(gè)文件系統(tǒng)。為了再次強(qiáng)調(diào)原來(lái)的挑戰(zhàn),電話號(hào)碼在最終的客戶支持平臺(tái)上丟失了。從數(shù)據(jù)分類的角度來(lái)看,數(shù)據(jù)工程師需要在眾多數(shù)據(jù)管道和數(shù)據(jù)表中追蹤電話號(hào)碼的來(lái)源,首先找到這個(gè)電話號(hào)碼屬性的來(lái)源,并了解它的血統(tǒng)。

數(shù)據(jù)血統(tǒng)

在某一特定時(shí)間點(diǎn)的任何數(shù)據(jù)流中,一組數(shù)據(jù)元素都是持久的,?技術(shù)流程 用于加載轉(zhuǎn)換的數(shù)據(jù)。為了有效地對(duì)數(shù)據(jù)進(jìn)行分類并找到其血統(tǒng),需要建立以下基本的設(shè)置:

1.將數(shù)據(jù)元素映射到源

這包括創(chuàng)建一個(gè)將每個(gè)數(shù)據(jù)元素與其各自來(lái)源鏈接起來(lái)的全面地圖。這個(gè)映射確保了可追溯性,并幫助理解每個(gè)數(shù)據(jù)的來(lái)源。

2.可擴(kuò)展配置以添加新的下游工作流

在引入新的工作流時(shí),配置應(yīng)該足夠靈活,可以在不破壞現(xiàn)有流程的情況下納入這些更改。這種可擴(kuò)展性對(duì)于適應(yīng)數(shù)據(jù)管道的動(dòng)態(tài)性質(zhì)至關(guān)重要。

3.可演變配置以適應(yīng)源元素的變化

數(shù)據(jù)源可能隨著時(shí)間的推移而改變,無(wú)論是由于模式更新、新的數(shù)據(jù)源,還是由于數(shù)據(jù)結(jié)構(gòu)的修改。配置必須適應(yīng)這些變化,以保持準(zhǔn)確的數(shù)據(jù)血統(tǒng)。

如果它通過(guò)引用代碼基礎(chǔ)涉及純SQL,則可以從代碼中推斷出這一血統(tǒng)。然而,當(dāng)不同的語(yǔ)言(如pydn或scala)與SQL一起使用時(shí),它就變得更加復(fù)雜。在這種情況下,需要手動(dòng)干預(yù),以維護(hù)配置和識(shí)別血統(tǒng)。這可以用半自動(dòng)化的方式實(shí)現(xiàn)。這種復(fù)雜性是由于每種語(yǔ)言的語(yǔ)法和語(yǔ)義不同而產(chǎn)生的,使自動(dòng)推理具有挑戰(zhàn)性。

對(duì)數(shù)據(jù)血統(tǒng)的利用

可以通過(guò)使用節(jié)點(diǎn)和邊緣來(lái)表示數(shù)據(jù)元素及其關(guān)系來(lái)維護(hù)數(shù)據(jù)血統(tǒng)。這種方法允許靈活和可查詢的模式,可以很容易地適應(yīng)變化和新的需求。通過(guò)利用GREGQL,組織可以創(chuàng)建一種更加互動(dòng)和高效的方式來(lái)管理和可視化數(shù)據(jù)血統(tǒng)。

市場(chǎng)上有幾個(gè)數(shù)據(jù)譜系工具,每一個(gè)都提供了獨(dú)特的特性和能力:Al1、RISE、Manta、科爾布拉塔、阿帕奇地圖集和單個(gè)云計(jì)算提供者正在提供他們自己的云血統(tǒng)。

在識(shí)別源之后,現(xiàn)在我們需要有能力查看來(lái)自源的電話號(hào)碼是否在每個(gè)轉(zhuǎn)換或負(fù)載中實(shí)際傳播而不改變其值。現(xiàn)在,為了能夠觀測(cè)到這些數(shù)據(jù)匹配,我們需要一個(gè)非常簡(jiǎn)單的統(tǒng)一機(jī)制,能夠?qū)⑦@些數(shù)據(jù)集中起來(lái)并顯示出來(lái)。

讓我們深入研究數(shù)據(jù)觀察。

數(shù)據(jù)觀察員

通過(guò)利用不同的數(shù)據(jù)庫(kù)連接器從不同的數(shù)據(jù)源中干凈地檢索和呈現(xiàn)數(shù)據(jù),可以實(shí)現(xiàn)數(shù)據(jù)監(jiān)視能力。在我們的示例中,電話屬性值被正確地從API中獲取到表中,但是當(dāng)寫(xiě)入前端時(shí)卻會(huì)丟失。這是一個(gè)典型的數(shù)據(jù)丟失案例。通過(guò)在這個(gè)過(guò)程中具有可見(jiàn)性,數(shù)據(jù)工程師可以快速解決這個(gè)問(wèn)題。

下面是一個(gè)統(tǒng)一的數(shù)據(jù)監(jiān)視方法的顯著好處。

· 快速識(shí)別差異: 幫助數(shù)據(jù)工程師快速識(shí)別和解決數(shù)據(jù)差異,確保數(shù)據(jù)質(zhì)量

· 簡(jiǎn)化數(shù)據(jù)檢索和列報(bào): 簡(jiǎn)化數(shù)據(jù)檢索和顯示流程,節(jié)省時(shí)間和精力

· 統(tǒng)一數(shù)據(jù)視圖: 提供統(tǒng)一的數(shù)據(jù)視圖,使業(yè)務(wù)利益攸關(guān)方更容易獲得見(jiàn)解和作出知情決定

· 數(shù)據(jù)準(zhǔn)確性和一致性: 授權(quán)最終用戶確保來(lái)自不同來(lái)源的數(shù)據(jù)準(zhǔn)確一致

具備跟蹤數(shù)據(jù)來(lái)源、及時(shí)性和準(zhǔn)確性的能力,可增強(qiáng)整個(gè)組織的信心。我們討論了數(shù)據(jù)譜系和數(shù)據(jù)監(jiān)視的概念,以了解數(shù)據(jù)來(lái)源,跟蹤不同攝入和轉(zhuǎn)換點(diǎn)的數(shù)據(jù),并在每個(gè)階段觀察其價(jià)值。沒(méi)有明確的工具只提供數(shù)據(jù)監(jiān)視功能;這些功能往往是一些數(shù)據(jù)發(fā)現(xiàn)或數(shù)據(jù)編目工具的副產(chǎn)品。各組織需要根據(jù)其具體要求建立統(tǒng)一的平臺(tái)。像重新工具和多莫這樣的工具可以將數(shù)據(jù)統(tǒng)一到一個(gè)視圖中,提供數(shù)據(jù)流的統(tǒng)一和清晰的表示。

在下一節(jié)中,我們將探討如何監(jiān)控?cái)?shù)據(jù)質(zhì)量并通知團(tuán)隊(duì)問(wèn)題,以防止不正確的數(shù)據(jù)傳播到最終系統(tǒng)。這種積極主動(dòng)的方法確保數(shù)據(jù)的完整性和可靠性,促進(jìn)組織內(nèi)部的信任和效率。

數(shù)據(jù)驗(yàn)證器

數(shù)據(jù)驗(yàn)證 是確保數(shù)據(jù)在各種管道和系統(tǒng)中流動(dòng)時(shí)的質(zhì)量和完整性的關(guān)鍵過(guò)程。需要定期更新數(shù)據(jù),以保持其準(zhǔn)確性和可靠性。數(shù)據(jù)驗(yàn)證可以使用不同的方法和指標(biāo)來(lái)檢查一致性、完整性和正確性。以下是一些用于數(shù)據(jù)驗(yàn)證的關(guān)鍵指標(biāo):

· 新鮮: 衡量數(shù)據(jù)的最新情況;確保正在處理和分析的數(shù)據(jù)是最新的和相關(guān)的

o 例子 :檢查最新數(shù)據(jù)輸入的時(shí)間戳

· 失蹤人數(shù): 計(jì)算數(shù)據(jù)集中缺失或空值的數(shù)目;標(biāo)識(shí)可能影響數(shù)據(jù)質(zhì)量的不完整記錄

o 例子 :計(jì)算列中的空值數(shù)

· 失蹤百分比: 計(jì)算記錄總數(shù)中缺失值的百分比;更清楚地說(shuō)明數(shù)據(jù)集中缺失數(shù)據(jù)的程度。

o 例子 (失蹤價(jià)值/記錄總數(shù))*100

· 平均: 計(jì)算數(shù)字?jǐn)?shù)據(jù)的平均值;通過(guò)比較當(dāng)前平均值和歷史平均值,幫助確定異常值或異常值。

o 例子 :在數(shù)據(jù)集中計(jì)算平均銷售額

重復(fù)計(jì)數(shù):計(jì)算數(shù)據(jù)集中重復(fù)記錄的數(shù)量;確保數(shù)據(jù)的唯一性,并有助于維護(hù)數(shù)據(jù)的完整性。

o示例:計(jì)算表中重復(fù)的客戶ID的數(shù)量。

一些庫(kù)提供了用于執(zhí)行數(shù)據(jù)驗(yàn)證的內(nèi)置函數(shù)和框架,從而使數(shù)據(jù)工程師更容易實(shí)現(xiàn)這些檢查。請(qǐng)?jiān)谙旅嬲业揭恍?kù)和示例代碼,以獲得驗(yàn)證和實(shí)現(xiàn)的感覺(jué)。

SODA:SODA(可擴(kuò)展的一站式數(shù)據(jù)分析)是一個(gè)用于數(shù)據(jù)驗(yàn)證和監(jiān)控的強(qiáng)大工具。它為定義和執(zhí)行數(shù)據(jù)驗(yàn)證規(guī)則提供了一套全面的特性,支持自定義度量,并允許用戶根據(jù)其特定需求創(chuàng)建檢查。

遠(yuǎn)大期望:遠(yuǎn)大期望是一個(gè)用于數(shù)據(jù)驗(yàn)證和文檔化的開(kāi)源庫(kù)。允許用戶定義期望,即數(shù)據(jù)應(yīng)該滿足的規(guī)則或條件。它支持自動(dòng)配置分析和生成驗(yàn)證報(bào)告。

實(shí)現(xiàn)數(shù)據(jù)驗(yàn)證涉及到使用所選的庫(kù)或框架來(lái)設(shè)置必要的檢查和規(guī)則。

作為本文的一部分,我們探索了利用數(shù)據(jù)血統(tǒng)、數(shù)據(jù)觀察和數(shù)據(jù)驗(yàn)證的選項(xiàng),以便組織能夠構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)管理框架,確保數(shù)據(jù)的完整性,提高可用性,并推動(dòng)業(yè)務(wù)成功。這些工具共同幫助保持高數(shù)據(jù)質(zhì)量,支持復(fù)雜的分析和機(jī)器學(xué)習(xí)舉措,并使整個(gè)組織對(duì)數(shù)據(jù)資產(chǎn)有清晰的了解。

在當(dāng)今的數(shù)據(jù)驅(qū)動(dòng)世界,保持準(zhǔn)確、可靠和易于發(fā)現(xiàn)的數(shù)據(jù)的能力至關(guān)重要,這些工具使各組織能夠充分利用其數(shù)據(jù)資產(chǎn),推動(dòng)創(chuàng)新,并有效實(shí)現(xiàn)其戰(zhàn)略目標(biāo)。這些框架以及數(shù)據(jù)編目和數(shù)據(jù)發(fā)現(xiàn)功能等各種工具,使業(yè)務(wù)用戶能夠更廣泛地了解數(shù)據(jù),從而幫助從業(yè)務(wù)和技術(shù)領(lǐng)域進(jìn)行創(chuàng)新。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉