未來(lái)的數(shù)據(jù)取決于transformer模型與大數(shù)據(jù)轉(zhuǎn)換
去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來(lái)像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進(jìn)入了更深層次,目的是重塑各個(gè)行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負(fù)載)流程之間的沖突引發(fā)了新的爭(zhēng)論。
大型模型 特點(diǎn)是"transformer",而ETL依靠的是"轉(zhuǎn)換"過程--類似的名稱代表了截然不同的范式。一些聲音大膽預(yù)言: "ETL將在未來(lái)完全被替換,因?yàn)榇笮湍P涂梢蕴幚硭袛?shù)據(jù)!" 這是否意味著幾十年來(lái)支持?jǐn)?shù)據(jù)處理的ETL框架的結(jié)束?還是僅僅是一個(gè)被誤解的預(yù)言?這場(chǎng)沖突的背后是對(duì)科技未來(lái)的更深刻的思考。
大數(shù)據(jù)處理(ETL)會(huì)消失嗎?
隨著大型模型的迅速發(fā)展,一些人開始推測(cè)傳統(tǒng)的大數(shù)據(jù)處理方法,包括ETL,是否仍然有必要。無(wú)可否認(rèn),能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大型模型給人留下了深刻印象。不過,我的答案很明確: 他不會(huì)消失的。 大型模型仍未能應(yīng)對(duì)若干核心數(shù)據(jù)挑戰(zhàn):
1. 效率問題
盡管大型模型在特定任務(wù)中表現(xiàn)出色,但卻要付出巨大的計(jì)算成本。訓(xùn)練大型transformer模型可能需要數(shù)周時(shí)間,耗費(fèi)大量能源和財(cái)政資源。相比之下,ETL依賴于預(yù)先定義的規(guī)則和邏輯,是高效的,資源輕,擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)。
對(duì)于日常企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是由規(guī)則驅(qū)動(dòng)的,例如:
· 數(shù)據(jù)清理 :使用明確的規(guī)則或正則表達(dá)式消除異常。
· 格式轉(zhuǎn)換 *使格式標(biāo)準(zhǔn)化,以便利數(shù)據(jù)傳輸和跨系統(tǒng)整合。
· 集合和統(tǒng)計(jì) :每日、每周或每月分類、聚合和計(jì)算數(shù)據(jù)。
這些任務(wù)可以由ETL工具快速處理,而不需要大型模型的復(fù)雜推理能力。
2. 自然語(yǔ)言含糊不清
大型模型在?自然語(yǔ)言處理 但也暴露了固有的挑戰(zhàn)--人類語(yǔ)言的含糊和含糊。例如:
· 單個(gè)輸入查詢可能會(huì)根據(jù)上下文產(chǎn)生不同的解釋,無(wú)法保證準(zhǔn)確性。
· 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型產(chǎn)生與實(shí)際需求不一致的結(jié)果。
相反,ETL是確定性的,根據(jù)預(yù)先定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測(cè)的、標(biāo)準(zhǔn)化的輸出。在金融和醫(yī)療等高需求領(lǐng)域,ETL的可靠性和精確性仍然是至關(guān)重要的優(yōu)勢(shì)。
3. 強(qiáng)適應(yīng)結(jié)構(gòu)化數(shù)據(jù)
大型模型善于從非結(jié)構(gòu)化數(shù)據(jù)中提取見解(例如:,文本,圖像,視頻),但經(jīng)常與結(jié)構(gòu)化數(shù)據(jù)任務(wù)斗爭(zhēng)。例如:
· 傳統(tǒng)的ETL有效地處理關(guān)系數(shù)據(jù)庫(kù),處理連接和組BYS等復(fù)雜的操作。
· 大型模型要求數(shù)據(jù)在處理之前轉(zhuǎn)換成特定的格式,從而引入了冗余和延遲。
在結(jié)構(gòu)性數(shù)據(jù)主導(dǎo)的情況下(例如:表,JSON),ETL仍然是最佳選擇。
4. 解釋和順從
大型模型常被稱為"黑匣子"。"即使數(shù)據(jù)處理工作完成,其內(nèi)部工作和決策機(jī)制仍不透明:
· 無(wú)法解釋的結(jié)果 :在金融和醫(yī)療等監(jiān)管行業(yè),大型模型的預(yù)測(cè)可能因缺乏透明度而無(wú)法使用。
· 遵守方面的挑戰(zhàn) :許多行業(yè)需要對(duì)數(shù)據(jù)流和處理邏輯進(jìn)行全面審計(jì)。大型模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計(jì)挑戰(zhàn)。
相比之下,ECL提供了高度透明的流程,記錄了每一個(gè)數(shù)據(jù)處理步驟并進(jìn)行了審計(jì),確保遵守公司和行業(yè)標(biāo)準(zhǔn)。
5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化
大型模型對(duì)數(shù)據(jù)質(zhì)量高度敏感。噪音、異?;蚍菢?biāo)準(zhǔn)化投入會(huì)嚴(yán)重影響其性能:
· 數(shù)據(jù)噪音 :大型模型無(wú)法自動(dòng)識(shí)別錯(cuò)誤數(shù)據(jù),可能將其用作"學(xué)習(xí)材料",并產(chǎn)生有偏見的預(yù)測(cè)。
· 缺乏標(biāo)準(zhǔn)化 :將未經(jīng)清理的原始數(shù)據(jù)輸入大型模型可能會(huì)導(dǎo)致不一致和值缺失,這就需要像ETL這樣的預(yù)處理工具。
ECL確保數(shù)據(jù)在輸入大型模型之前得到清理、復(fù)制和標(biāo)準(zhǔn)化,保持高數(shù)據(jù)質(zhì)量。
盡管大型模型在許多領(lǐng)域都很出色,但它們的復(fù)雜性、對(duì)高質(zhì)量數(shù)據(jù)的依賴、硬件的需求以及實(shí)際的局限性,確保了它們不能完全取代ETL。ETL作為一種確定性、高效和透明的工具,將繼續(xù)與大型模型共存,為數(shù)據(jù)處理提供雙重保障。
共同國(guó)家小組GPU:與ETL平行的。大型模型
雖然ETL無(wú)法替換,但大型模型在數(shù)據(jù)處理中的興起是一個(gè)必然趨勢(shì)。幾十年來(lái),計(jì)算機(jī)系統(tǒng)都以CIP為中心,其他組件都被認(rèn)為是外圍設(shè)備。GPS主要用于游戲,但今天, 數(shù)據(jù)處理依賴于CPU和GPS的協(xié)同作用。 這種范式的轉(zhuǎn)變反映了英特爾和英偉達(dá)公司股票趨勢(shì)所反映的更廣泛的變化。
從單中心到多中心計(jì)算
歷史上,數(shù)據(jù)處理架構(gòu)從"以CIP為中心"演變?yōu)?CPU+GPU(甚至NPU)協(xié)作。"由于計(jì)算性能要求的變化,這種轉(zhuǎn)變對(duì)數(shù)據(jù)處理工具的選擇產(chǎn)生了深刻影響。
在以CIP為中心的時(shí)代,早期ETL流程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。
然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的上升和指數(shù)存儲(chǔ)的增長(zhǎng)揭示了CPU能力的局限性。GPS擁有無(wú)與倫比的并行處理能力,此后在數(shù)據(jù)密集型任務(wù)中占據(jù)了中心地位,比如培訓(xùn)大型transformer模型。
從傳統(tǒng)ETL到大型模型
傳統(tǒng)ETL流程,優(yōu)化為"以CIP為中心"的計(jì)算,擅長(zhǎng)處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。實(shí)例包括:
· 數(shù)據(jù)驗(yàn)證和清理。
· 格式標(biāo)準(zhǔn)化。
· 集合和報(bào)告。
相比之下,大型模型則需要GPU功率來(lái)進(jìn)行高尺寸矩陣計(jì)算和大規(guī)模參數(shù)優(yōu)化:
· 預(yù)處理:實(shí)時(shí)標(biāo)準(zhǔn)化和數(shù)據(jù)分割。
· 模型培訓(xùn):涉及浮點(diǎn)操作的繁重計(jì)算機(jī)任務(wù)。
· 輸入服務(wù):針對(duì)低延遲和高吞吐量的優(yōu)化批處理。
這反映了一種轉(zhuǎn)變 神經(jīng)推理的邏輯計(jì)算 擴(kuò)大數(shù)據(jù)處理,包括 推理和知識(shí)提取。
為大型模型準(zhǔn)備新一代ETL架構(gòu)
大型模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理效率低下的問題,這就需要一個(gè)更先進(jìn)、更統(tǒng)一的體系結(jié)構(gòu)。
當(dāng)前數(shù)據(jù)處理中的痛苦點(diǎn)
1. 復(fù)雜的 , 支離破碎的過程 :數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手動(dòng)和孤立的。
2. 可重用性低 :團(tuán)隊(duì)經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。
3. 質(zhì)量不一致 :缺乏標(biāo)準(zhǔn)化工具導(dǎo)致數(shù)據(jù)質(zhì)量不同。
4. 高成本 :每個(gè)團(tuán)隊(duì)的單獨(dú)開發(fā)和維護(hù)增加了成本。
解決方案:Ai增強(qiáng)ETL工具
未來(lái)的ETL工具將嵌入人工智能功能,將傳統(tǒng)的優(yōu)勢(shì)與現(xiàn)代智能融合在一起:
· 嵌入式發(fā)電 *對(duì)文本、圖像和音頻矢量化的內(nèi)置支持。
· 法學(xué)院碩士 :非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化結(jié)構(gòu)化。
· 動(dòng)態(tài)清洗規(guī)則 :優(yōu)化數(shù)據(jù)清理戰(zhàn)略。
· 非結(jié)構(gòu)化數(shù)據(jù)處理 支持鍵盤提取、OCR和語(yǔ)音對(duì)文本。
· 自動(dòng)增強(qiáng) :智能數(shù)據(jù)生成和增強(qiáng)。
終極趨勢(shì):transformer+變換
隨著技術(shù)的不斷進(jìn)步,大型模型和傳統(tǒng)ETL工藝正在逐步收斂。預(yù)計(jì)下一代ETL架構(gòu)將把大型模型的智能與ETL的效率相融合,創(chuàng)建一個(gè)能夠處理不同數(shù)據(jù)類型的綜合框架。
硬件:數(shù)據(jù)處理單元的集成
數(shù)據(jù)處理的基礎(chǔ)正在從以CIP為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPS的協(xié)作方法:
· 基本任務(wù)的中央業(yè)務(wù)單位 :CPU擅長(zhǎng)基礎(chǔ)操作,如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理,如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)。
· 高級(jí)分析通用數(shù)據(jù)表 :擁有強(qiáng)大的并行計(jì)算能力,GPS處理大型模型訓(xùn)練和預(yù)處理數(shù)據(jù)的推理任務(wù)。
這一趨勢(shì)不僅反映在技術(shù)創(chuàng)新上,而且也反映在產(chǎn)業(yè)動(dòng)態(tài)上:英特爾正在推進(jìn)Cpui-AI協(xié)作的人工智能加速器,而NVIDIA正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場(chǎng)景中。CPU和GPS之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。
軟件:數(shù)據(jù)處理架構(gòu)集成
隨著ETL和大型模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個(gè)多功能的協(xié)作平臺(tái),在這個(gè)平臺(tái)上ETL充當(dāng)大型模型的數(shù)據(jù)準(zhǔn)備工具。
大型模型在培訓(xùn)期間需要高質(zhì)量的輸入數(shù)據(jù),ETL提供初步處理,以創(chuàng)造理想的條件:
· 噪音清除及清潔 :消除噪音數(shù)據(jù),以提高數(shù)據(jù)集的質(zhì)量。
· 格式化和標(biāo)準(zhǔn)化:將不同的數(shù)據(jù)格式轉(zhuǎn)換為適合大型模型的統(tǒng)一結(jié)構(gòu)。
· 數(shù)據(jù)增強(qiáng):通過預(yù)處理和基于規(guī)則的增強(qiáng)來(lái)擴(kuò)展數(shù)據(jù)的規(guī)模和多樣性。
ai增強(qiáng)的ETL架構(gòu)的出現(xiàn)
ETL工具的未來(lái)在于嵌入人工智能的能力,以實(shí)現(xiàn)更智能的數(shù)據(jù)處理:
1.嵌入能力
· 集成用于生成嵌入的模塊,以支持基于向量的數(shù)據(jù)處理。
· 為文本、圖像和音頻生成高維表示;在下游任務(wù)中使用預(yù)先訓(xùn)練好的模型進(jìn)行語(yǔ)義嵌入。
· 直接在ETL工作流中執(zhí)行嵌入計(jì)算,減少了對(duì)外部推理服務(wù)的依賴。
2. LLM Knowledge Extraction
· 利用大型語(yǔ)言模型(LLMS)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實(shí)體和事件等結(jié)構(gòu)化信息。
· 完成和推斷復(fù)雜領(lǐng)域,如填補(bǔ)缺失的價(jià)值或預(yù)測(cè)未來(lái)趨勢(shì)。
· 在數(shù)據(jù)集成過程中啟用多語(yǔ)言數(shù)據(jù)轉(zhuǎn)換和語(yǔ)義對(duì)齊。
3.非結(jié)構(gòu)化數(shù)據(jù)識(shí)別和鍵盤提取
· 支持視頻、圖像和音頻數(shù)據(jù),使自動(dòng)鍵盤提取用于注釋或培訓(xùn)數(shù)據(jù)集。
· 從圖像中提取特征(例如:,目標(biāo)檢測(cè),OCR),并執(zhí)行音頻到文本轉(zhuǎn)換,情緒分析等。
4.動(dòng)態(tài)清潔規(guī)則
· 根據(jù)數(shù)據(jù)上下文動(dòng)態(tài)調(diào)整清理和增強(qiáng)策略,以提高效率和相關(guān)性。
· 實(shí)時(shí)檢測(cè)異常并生成自適應(yīng)清洗規(guī)則。
· 優(yōu)化特定領(lǐng)域的清理策略(例如:(金融、保健)。
5.自動(dòng)數(shù)據(jù)增加和生成
· 通過人工智能模型(例如。,同義詞替換,數(shù)據(jù)反向轉(zhuǎn)換,對(duì)抗性樣本生成)。
· 擴(kuò)展低樣本場(chǎng)景的數(shù)據(jù)集,并支持跨語(yǔ)言或跨域數(shù)據(jù)生成。
AI增強(qiáng)ETL是一個(gè)從傳統(tǒng)ETL的轉(zhuǎn)變飛躍,提供嵌入生成、基于LLM的知識(shí)提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動(dòng)態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。
案例研究:阿帕奇--一個(gè)新一代的AI-增強(qiáng)ETL架構(gòu)
例如,開源 阿帕奇座位 該項(xiàng)目正在通過支持創(chuàng)新數(shù)據(jù)格式和先進(jìn)的處理能力,打破傳統(tǒng)的ETL限制,展示數(shù)據(jù)處理的未來(lái):
· 對(duì)非結(jié)構(gòu)化數(shù)據(jù)的本土支持 :Seatunel引擎支持文本、視頻和音頻處理,以滿足不同的模型培訓(xùn)需求。
· 矢量化數(shù)據(jù)支持 :能夠與深度學(xué)習(xí)和大模型推理任務(wù)無(wú)縫兼容。
· 嵌入大型模型特征 支持嵌入式生成和LLP轉(zhuǎn)換,將傳統(tǒng)ETL與AI推理工作流連接起來(lái)。
· "對(duì)任何"轉(zhuǎn)換 ::從任何來(lái)源轉(zhuǎn)換數(shù)據(jù)(例如:,數(shù)據(jù)庫(kù),雙日志,PDF,SaaS,視頻)到任何目標(biāo)格式,提供無(wú)與倫比的多功能性。
像Seatunel這樣的工具說明了現(xiàn)代數(shù)據(jù)處理如何演變成一個(gè)AI+大數(shù)據(jù)全堆協(xié)作系統(tǒng),成為企業(yè)AI和數(shù)據(jù)策略的核心。
結(jié)論
大型模型transformer和大數(shù)據(jù)轉(zhuǎn)換不是競(jìng)爭(zhēng)對(duì)手,而是盟友。數(shù)據(jù)處理的未來(lái)在于ETL和大型模型的深入整合,具體說明如下:
1. 協(xié)作數(shù)據(jù)處理股 :利用Cpu-GSP的協(xié)同作用,進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。
2. 動(dòng)態(tài)數(shù)據(jù)處理架構(gòu) :將人工智能嵌入到ETL中,用于嵌入生成、LLS知識(shí)提取和智能決策。
3. 下一代工具 :像阿帕奇賽恩涅爾這樣的開源解決方案突出了這一趨勢(shì),使"對(duì)任何"數(shù)據(jù)轉(zhuǎn)換和重新定義ETL邊界成為可能。
大型模型和ETL的收斂將推動(dòng)數(shù)據(jù)處理進(jìn)入一個(gè)智能、標(biāo)準(zhǔn)化和開放的新時(shí)代。通過滿足企業(yè)需求,這種演變將推動(dòng)企業(yè)創(chuàng)新和智能決策,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)未來(lái)的核心引擎。