當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]最陳詞濫調(diào)卻又最真實(shí)的一句話(huà)是,技術(shù)每天都在變化,影響著一切。人工智能是給全球各行各業(yè)帶來(lái)顛覆的最突出的學(xué)科之一。隨著計(jì)算技術(shù)每年都在升級(jí)和改進(jìn),人工智能 (AI) 技術(shù)正在為各個(gè)行業(yè)開(kāi)創(chuàng)一個(gè)創(chuàng)新的新時(shí)代。從醫(yī)療保健和健康到金融和制造業(yè),人工智能解決方案正在以前所未有的方式改變企業(yè)運(yùn)營(yíng)、提供見(jiàn)解和做出明智決策的常態(tài)。然而,要想在全球范圍內(nèi)發(fā)揮作用,人工智能需要大量數(shù)據(jù)來(lái)學(xué)習(xí)和訓(xùn)練。因此,堅(jiān)實(shí)的數(shù)據(jù)工程基礎(chǔ)對(duì)于每個(gè)成功的人工智能應(yīng)用都至關(guān)重要。

最陳詞濫調(diào)卻又最真實(shí)的一句話(huà)是,技術(shù)每天都在變化,影響著一切。人工智能是給全球各行各業(yè)帶來(lái)顛覆的最突出的學(xué)科之一。隨著計(jì)算技術(shù)每年都在升級(jí)和改進(jìn),人工智能 (AI) 技術(shù)正在為各個(gè)行業(yè)開(kāi)創(chuàng)一個(gè)創(chuàng)新的新時(shí)代。從醫(yī)療保健和健康到金融和制造業(yè),人工智能解決方案正在以前所未有的方式改變企業(yè)運(yùn)營(yíng)、提供見(jiàn)解和做出明智決策的常態(tài)。然而,要想在全球范圍內(nèi)發(fā)揮作用,人工智能需要大量數(shù)據(jù)來(lái)學(xué)習(xí)和訓(xùn)練。因此,堅(jiān)實(shí)的數(shù)據(jù)工程基礎(chǔ)對(duì)于每個(gè)成功的人工智能應(yīng)用都至關(guān)重要。

數(shù)據(jù)工程對(duì)于 AI 開(kāi)發(fā)至關(guān)重要,因?yàn)樗鼮锳I 系統(tǒng)高效運(yùn)行和有效擴(kuò)展提供了必要的基礎(chǔ)。它涵蓋用于管理、組織和準(zhǔn)備數(shù)據(jù)以供分析、機(jī)器學(xué)習(xí)和構(gòu)建可擴(kuò)展 AI 系統(tǒng)的流程和技術(shù)。

在本文中,我們將探討數(shù)據(jù)工程在人工智能領(lǐng)域的重要作用。具體來(lái)說(shuō),我們將研究數(shù)據(jù)工程如何影響人工智能項(xiàng)目的成功和可擴(kuò)展性。了解數(shù)據(jù)工程的基本原理和實(shí)踐使組織能夠優(yōu)化其人工智能計(jì)劃的成功,從而促進(jìn)現(xiàn)代時(shí)代的創(chuàng)新。我們將共同深入探討數(shù)據(jù)工程的復(fù)雜性及其對(duì)構(gòu)建可擴(kuò)展人工智能系統(tǒng)的影響。

了解數(shù)據(jù)工程

Atuzie J. (2023)認(rèn)為,數(shù)據(jù)工程對(duì)于任何 AI 項(xiàng)目的成功都至關(guān)重要。它確保用于分析和模型訓(xùn)練的數(shù)據(jù)結(jié)構(gòu)良好、干凈且易于開(kāi)發(fā)團(tuán)隊(duì)和利益相關(guān)者訪問(wèn)。數(shù)據(jù)工程涉及設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)管道和系統(tǒng),使數(shù)據(jù)從各種來(lái)源流向 AI 應(yīng)用程序。如果管道損壞或運(yùn)行不暢,則可能導(dǎo)致 AI 系統(tǒng)和產(chǎn)品失敗。數(shù)據(jù)工程的五個(gè)關(guān)鍵組成部分包括:

1. 數(shù)據(jù)提?。捍私M件包括負(fù)責(zé)從各種外部/內(nèi)部來(lái)源(例如數(shù)據(jù)庫(kù)、API 和實(shí)時(shí)流)收集數(shù)據(jù)的所有流程和技術(shù)。此組件的目標(biāo)是確保準(zhǔn)確高效地捕獲數(shù)據(jù)以供進(jìn)一步處理。

2. 數(shù)據(jù)存儲(chǔ):此組件負(fù)責(zé)使用數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖以可靠且可擴(kuò)展的方式存儲(chǔ)所有收集的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)的目標(biāo)是確保數(shù)據(jù)易于檢索且安全。

3. 數(shù)據(jù)預(yù)處理:此組件包括清理和組織原始數(shù)據(jù)以提高其質(zhì)量和可用性的子系統(tǒng)。該組件的目標(biāo)是消除數(shù)據(jù)中的不一致之處,處理缺失值并標(biāo)準(zhǔn)化特定特征的格式。

4. 數(shù)據(jù)轉(zhuǎn)換:此組件負(fù)責(zé)將數(shù)據(jù)轉(zhuǎn)換為適合分析和機(jī)器學(xué)習(xí)的格式。這包括典型的機(jī)器學(xué)習(xí)操作,例如特征規(guī)范化、標(biāo)準(zhǔn)化和獨(dú)熱編碼。

5. 數(shù)據(jù)集成:此組件負(fù)責(zé)整合來(lái)自多個(gè)來(lái)源的數(shù)據(jù)以創(chuàng)建統(tǒng)一的數(shù)據(jù)集。此組件的目標(biāo)是確保數(shù)據(jù)一致,并允許對(duì)數(shù)據(jù)集進(jìn)行全面分析。

值得注意的一點(diǎn)是,數(shù)據(jù)工程師負(fù)責(zé)實(shí)際設(shè)計(jì)和實(shí)施這些流程。他們(數(shù)據(jù)工程師)通過(guò)利用多種技術(shù)工具來(lái)高效、有效地處理大量數(shù)據(jù)。

用于設(shè)計(jì)和構(gòu)建這些流程的工具的常見(jiàn)示例包括:

1. 編程語(yǔ)言(Python、Java、Scala)

2. 數(shù)據(jù)庫(kù)(PostgreSQL、MySQL、MongoDB)

3. 大數(shù)據(jù)技術(shù)(Apache Hadoop、Apache Spark、Kafka)

因此,我們可以觀察到,數(shù)據(jù)工程專(zhuān)注于數(shù)據(jù)管理和準(zhǔn)備的基礎(chǔ)方面。它為可擴(kuò)展且強(qiáng)大的 AI 系統(tǒng)的開(kāi)發(fā)奠定了基礎(chǔ)。因?yàn)閿?shù)據(jù)工程就是為 AI/ML 算法準(zhǔn)備數(shù)據(jù)。如果沒(méi)有適當(dāng)?shù)臄?shù)據(jù)工程,AI 系統(tǒng)可能無(wú)法按預(yù)期運(yùn)行,從而告訴我們 AI 系統(tǒng)的學(xué)習(xí)質(zhì)量會(huì)很差。最終,這意味著 AI 項(xiàng)目將容易受到數(shù)據(jù)不一致、質(zhì)量差和效率低下等問(wèn)題的影響,從而阻礙系統(tǒng)的可擴(kuò)展性和有效性,導(dǎo)致其失敗或被放棄。

構(gòu)建可擴(kuò)展 AI 系統(tǒng)的挑戰(zhàn)

在技術(shù)和人工智能領(lǐng)域,擴(kuò)展通常定義如下:

衡量系統(tǒng)響應(yīng)應(yīng)用程序和系統(tǒng)處理需求變化而增加或減少性能和成本的能力。當(dāng)開(kāi)發(fā)團(tuán)隊(duì)需要做出擴(kuò)展其 AI 系統(tǒng)的決策時(shí),他們會(huì)面臨多項(xiàng)挑戰(zhàn)。擴(kuò)展AI 系統(tǒng)需要仔細(xì)考慮、戰(zhàn)略規(guī)劃和明智的決策。一個(gè)關(guān)鍵問(wèn)題是數(shù)據(jù)管理和處理,這對(duì)于 AI 應(yīng)用程序的運(yùn)行至關(guān)重要。

隨著越來(lái)越多的人使用人工智能程序,它們需要變得更加復(fù)雜和廣泛。然而,創(chuàng)建和使用的數(shù)據(jù)量、多樣性和速度必須經(jīng)歷成比例的變化。這就是擴(kuò)展的本質(zhì)。這意味著系統(tǒng)的每個(gè)部分都需要有能力處理高使用率,無(wú)論一天中的什么時(shí)間、一個(gè)月中的哪一天或一年中的哪個(gè)月。人工智能系統(tǒng)需要為全球所有用戶(hù)提供一致的體驗(yàn),以確保最佳的用戶(hù)體驗(yàn)。開(kāi)發(fā)團(tuán)隊(duì)在構(gòu)建可擴(kuò)展的人工智能系統(tǒng)時(shí)面臨的四個(gè)常見(jiàn)挑戰(zhàn)包括:

1. 數(shù)據(jù)質(zhì)量和一致性:當(dāng)開(kāi)發(fā)團(tuán)隊(duì)確保用于 AI 模型的數(shù)據(jù)準(zhǔn)確可靠時(shí),就會(huì)發(fā)生這種情況。數(shù)據(jù)不準(zhǔn)確或不完整可能會(huì)導(dǎo)致模型出現(xiàn)偏差和預(yù)測(cè)不正確,從而產(chǎn)生嚴(yán)重的道德、政治和法律后果

2. 可訪問(wèn)性挑戰(zhàn):當(dāng)數(shù)據(jù)難以訪問(wèn)或存儲(chǔ)在不同位置(也稱(chēng)為孤立數(shù)據(jù))時(shí),AI 工程師很難有效地使用數(shù)據(jù)。這可能會(huì)減慢人工智能生命周期,阻礙 AI 解決方案的開(kāi)發(fā)和部署。

3. 實(shí)時(shí)處理需求: 在當(dāng)今世界,使用實(shí)時(shí) AI 系統(tǒng)和產(chǎn)品的組織強(qiáng)烈需要持續(xù)滿(mǎn)足這一需求。隨著 AI 在日常業(yè)務(wù)決策中發(fā)揮越來(lái)越大的作用,快速處理數(shù)據(jù)至關(guān)重要。傳統(tǒng)系統(tǒng)可能難以滿(mǎn)足這一要求,導(dǎo)致 AI 系統(tǒng)響應(yīng)延遲。

4. 模型可擴(kuò)展性:當(dāng)開(kāi)發(fā)團(tuán)隊(duì)必須確保 AI 模型能夠處理更大、更復(fù)雜的任務(wù)時(shí),就會(huì)出現(xiàn)挑戰(zhàn)。隨著模型變得越來(lái)越復(fù)雜,它們需要更多的計(jì)算能力和改進(jìn)的算法才能繼續(xù)表現(xiàn)良好。這帶來(lái)了時(shí)間和成本的限制。

構(gòu)建可擴(kuò)展的 AI 系統(tǒng)時(shí)遇到的挑戰(zhàn)既復(fù)雜又固有。它們可能包括數(shù)據(jù)管理、基礎(chǔ)設(shè)施可擴(kuò)展性和算法復(fù)雜性。因此,應(yīng)對(duì)這些挑戰(zhàn)需要采取一種整體方法,考慮整個(gè)系統(tǒng)并整合最佳數(shù)據(jù)工程實(shí)踐、可擴(kuò)展的基礎(chǔ)設(shè)施解決方案和先進(jìn)的算法技術(shù)。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉