數(shù)據(jù)整合第一部分,數(shù)據(jù)集成
什么是數(shù)據(jù)治理?
數(shù)據(jù)治理 是一個由具有不同角色和責(zé)任的個人協(xié)作制定的框架。該框架旨在建立有助于各組織實現(xiàn)其目標(biāo)的流程、政策、程序、標(biāo)準(zhǔn)和衡量標(biāo)準(zhǔn)。這些目標(biāo)包括為業(yè)務(wù)運作提供可靠數(shù)據(jù)、建立問責(zé)制和權(quán)威性、開發(fā)評估業(yè)績的準(zhǔn)確分析方法、遵守監(jiān)管要求、保護數(shù)據(jù)、確保數(shù)據(jù)隱私以及支持?jǐn)?shù)據(jù)管理生命周期。
創(chuàng)造一個?數(shù)據(jù)治理委員會 或者指導(dǎo)委員會是整合數(shù)據(jù)治理程序和框架的第一步。一個組織的?治理框架 應(yīng)分發(fā)給所有工作人員和管理人員,使每個人都了解正在發(fā)生的變化。
成功地管理數(shù)據(jù)和分析應(yīng)用所需的基本概念。它們是:
· 注重企業(yè)價值觀和本組織的目標(biāo)
· 關(guān)于誰負(fù)責(zé)數(shù)據(jù)和誰負(fù)責(zé)決策的協(xié)議
· 一種強調(diào)模式?數(shù)據(jù)整理 和?數(shù)據(jù)血統(tǒng) 數(shù)據(jù)治理
· 透明的決策,包括道德原則
· 核心治理構(gòu)成部分包括數(shù)據(jù)安全和風(fēng)險管理
· 不斷提供培訓(xùn),監(jiān)測培訓(xùn)的效果并提出反饋意見
· 將工作場所轉(zhuǎn)變?yōu)閰f(xié)作文化,利用數(shù)據(jù)治理鼓勵廣泛參與
什么是數(shù)據(jù)集成?
數(shù)據(jù)集成 是將來自多種來源的數(shù)據(jù)合并和統(tǒng)一成一種統(tǒng)一、連貫的格式,供各種用戶使用的過程,例如:業(yè)務(wù)、分析和決策目的。
數(shù)據(jù)整合進程由四個主要關(guān)鍵組成部分組成:
1.源系統(tǒng)
數(shù)據(jù)庫、文件系統(tǒng)、物聯(lián)網(wǎng)設(shè)備、媒體大陸和云數(shù)據(jù)存儲等源系統(tǒng)提供了必須集成的原始信息。這些源系統(tǒng)的異質(zhì)性導(dǎo)致數(shù)據(jù)可以結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化 .
1. 數(shù)據(jù)庫 :設(shè)計中央或分布式存儲庫是為了存儲、組織和管理結(jié)構(gòu)化數(shù)據(jù)。例子包括關(guān)系數(shù)據(jù)庫管理系統(tǒng),如mysql、后格SQL和甲骨文。數(shù)據(jù)通常存儲在具有預(yù)先定義模式的表中,以確保一致性和查詢方便。
2. 文件系統(tǒng) :在磁盤驅(qū)動器或其他存儲介質(zhì)上組織和存儲文件和目錄的分層結(jié)構(gòu)。共同的文件系統(tǒng)包括(窗口)、(APOS)和(Linux)ext4。數(shù)據(jù)可以是任何類型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。
3. 物聯(lián)網(wǎng)設(shè)備 *物理裝置(傳感器、執(zhí)行器等)嵌入電子、軟件和網(wǎng)絡(luò)連接。衛(wèi)星技術(shù)設(shè)備收集、處理和傳輸數(shù)據(jù),使實時監(jiān)測和控制成為可能??蓪τ梢苿油ㄐ偶夹g(shù)設(shè)備生成的數(shù)據(jù)進行結(jié)構(gòu)化處理(例如:,傳感器讀數(shù)),半結(jié)構(gòu)(如。,設(shè)備配置),或非結(jié)構(gòu)化(例如。,錄像)。
4. 媒體儲存庫: 用于管理和存儲各種媒體文件的平臺或系統(tǒng)。實例包括內(nèi)容管理系統(tǒng)和數(shù)字資產(chǎn)管理系統(tǒng)。媒體存儲庫中的數(shù)據(jù)可以包括圖像、視頻、音頻文件和文檔。
5.云數(shù)據(jù)存儲:提供在線數(shù)據(jù)按需存儲和管理的服務(wù)。流行的云數(shù)據(jù)存儲平臺包括亞馬遜S3、微軟Azure Blob存儲和谷歌云存儲。云存儲中的數(shù)據(jù)可以在任何地方通過互聯(lián)網(wǎng)連接進行訪問和處理。
2. 數(shù)據(jù)采集
數(shù)據(jù)采集包括從源系統(tǒng)中提取和收集信息。根據(jù)源系統(tǒng)的性質(zhì)和具體要求,可以采用不同的方法。這些方法包括批處理過程、利用ETL(提取、轉(zhuǎn)換、加載)、ELT(提取、加載、轉(zhuǎn)換)技術(shù)、API(應(yīng)用程序編程接口)、流處理、虛擬化、數(shù)據(jù)復(fù)制和數(shù)據(jù)共享等技術(shù)的流處理方法。
1. 批量處理 :批處理程序通常用于結(jié)構(gòu)化數(shù)據(jù)。在這種方法中,數(shù)據(jù)是在一段時間內(nèi)積累并大量處理的。這種方法有利于大型數(shù)據(jù)集,并確保數(shù)據(jù)的一致性和完整性。
2. 應(yīng)用程序編程接口 ::API是應(yīng)用程序和數(shù)據(jù)源之間的通信渠道。它們允許對數(shù)據(jù)的控制和安全訪問。API通常用于與第三方系統(tǒng)集成并支持?jǐn)?shù)據(jù)交換。
3. S 特雷明 *流處理涉及連續(xù)的數(shù)據(jù)攝取和處理。它通常用于實時數(shù)據(jù)源,如傳感器網(wǎng)絡(luò)、社交媒體和金融市場。流媒體技術(shù)能夠根據(jù)最新數(shù)據(jù)進行即時分析和決策。
4. 虛擬化 :數(shù)據(jù)虛擬化提供數(shù)據(jù)的邏輯視圖,而無需實際移動或復(fù)制。它能夠無縫訪問來自多個來源的數(shù)據(jù),無論其位置或格式如何。虛擬化通常用于數(shù)據(jù)集成和減少數(shù)據(jù)倉。
5. 數(shù)據(jù)復(fù)制: 數(shù)據(jù)復(fù)制涉及將數(shù)據(jù)從一個系統(tǒng)復(fù)制到另一個系統(tǒng)。它提高了數(shù)據(jù)的可用性和冗余性。復(fù)制可以是同步的,即實時復(fù)制數(shù)據(jù),也可以是異步的,即定期復(fù)制數(shù)據(jù)。
6. 數(shù)據(jù)共享: 數(shù)據(jù)共享涉及允許授權(quán)用戶或系統(tǒng)訪問數(shù)據(jù)。它促進協(xié)作,使人們能夠從多個角度提出見解,并支持知情決策。數(shù)據(jù)共享可以通過數(shù)據(jù)門戶、數(shù)據(jù)湖和聯(lián)合數(shù)據(jù)庫等各種機制實現(xiàn)。
3.數(shù)據(jù)存儲
在數(shù)據(jù)采集之后,將數(shù)據(jù)存儲在存儲庫中對于有效的訪問和管理至關(guān)重要。各種各樣的?數(shù)據(jù)存儲 可根據(jù)具體需要選擇各種選擇。這些備選辦法包括:
1. 數(shù)據(jù)庫管理系統(tǒng) 關(guān)系數(shù)據(jù)庫管理系統(tǒng)是設(shè)計用來組織、存儲和檢索結(jié)構(gòu)化格式數(shù)據(jù)的軟件系統(tǒng)。這些系統(tǒng)提供了數(shù)據(jù)安全、數(shù)據(jù)完整性和事務(wù)管理等先進功能。受歡迎的rbm的例子包括mysql、甲骨文和后格列SQL。Nosql數(shù)據(jù)庫,如蒙戈德數(shù)據(jù)庫和卡珊德拉數(shù)據(jù)庫,旨在存儲和管理半結(jié)構(gòu)化數(shù)據(jù)。它們提供了靈活性和可伸縮性,使它們適合處理大量數(shù)據(jù),這些數(shù)據(jù)可能需要更好地適應(yīng)于關(guān)系模型。
2. 云存儲服務(wù) :云存儲服務(wù)提供可擴展和成本效益高的云存儲解決方案。它們提供從因特網(wǎng)連接的任何地方按需獲取數(shù)據(jù)的機會。受歡迎的云存儲服務(wù)包括亞馬遜S3、微軟AZERE存儲和谷歌云存儲。
3. 數(shù)據(jù)湖 :數(shù)據(jù)湖是原始和非結(jié)構(gòu)化數(shù)據(jù)的大型存儲庫,其格式為本地格式。它們經(jīng)常被用于大數(shù)據(jù)分析和機器學(xué)習(xí)。數(shù)據(jù)池可以使用HDAOOP分布式文件系統(tǒng)或云存儲服務(wù)實現(xiàn)。
4. 三角洲湖泊 :三角洲湖是一種支持酸性事務(wù)和架構(gòu)演化的數(shù)據(jù)湖。它們?yōu)閿?shù)據(jù)工程和分析工作量提供了一個可靠和可伸縮的數(shù)據(jù)存儲解決方案。
5. 云數(shù)據(jù)倉庫 云數(shù)據(jù)倉庫是為商業(yè)智能和分析設(shè)計的云基數(shù)據(jù)存儲解決方案。它們?yōu)榇罅拷Y(jié)構(gòu)化數(shù)據(jù)提供快速查詢性能和可伸縮性。例如亞馬遜紅移,谷歌大查詢和雪花。
6. 大數(shù)據(jù)文件 大數(shù)據(jù)文件是存儲在單個文件中的大量數(shù)據(jù)集合。它們經(jīng)常用于數(shù)據(jù)分析和處理任務(wù)。常見的大數(shù)據(jù)文件格式包括拼花,阿帕奇阿沃,阿帕奇奧克。
7. 房地內(nèi)儲存域網(wǎng)(SAN) :SAS是專為數(shù)據(jù)存儲設(shè)計的專用高速網(wǎng)絡(luò)。它們提供快速的數(shù)據(jù)傳輸速度,并為多個服務(wù)器提供集中存儲。SAN通常用于具有大存儲需求的企業(yè)環(huán)境。
8. 網(wǎng)絡(luò)附加存儲器 :NAS設(shè)備是指連接到網(wǎng)絡(luò)并為多個客戶機提供共享存儲空間的文件級存儲系統(tǒng)。它們通常用于中小型企業(yè),便于從各種設(shè)備獲取數(shù)據(jù)。
選擇正確的數(shù)據(jù)存儲選項取決于數(shù)據(jù)大小、數(shù)據(jù)類型、性能要求、安全需求和成本考慮等因素。各組織可結(jié)合使用這些存儲選項來滿足其具體的數(shù)據(jù)管理需求。
5. 消費
這是數(shù)據(jù)集成生命周期的最后階段,集成數(shù)據(jù)由各種應(yīng)用程序、數(shù)據(jù)分析員、業(yè)務(wù)分析員、數(shù)據(jù)科學(xué)家、AI/ML模型和業(yè)務(wù)流程使用。數(shù)據(jù)可以各種形式和通過各種渠道消費,包括:
1. 業(yè)務(wù)系統(tǒng) :綜合數(shù)據(jù)可由使用API(應(yīng)用程序編程接口)的操作系統(tǒng)使用,以支持日常業(yè)務(wù)和決策。例如,客戶關(guān)系管理系統(tǒng)可以使用客戶互動、采購和偏好的數(shù)據(jù),以提供個性化的體驗和有針對性的營銷活動。
2. 分析學(xué) :綜合數(shù)據(jù)可用于分析應(yīng)用和數(shù)據(jù)勘探、分析和報告工具。數(shù)據(jù)分析師和業(yè)務(wù)分析師使用這些工具來識別趨勢、模式和數(shù)據(jù)的真知灼見,這有助于為業(yè)務(wù)決策和戰(zhàn)略提供信息。
3. 數(shù)據(jù)共享 :綜合數(shù)據(jù)可通過數(shù)據(jù)共享平臺和機制與合作伙伴、供應(yīng)商和監(jiān)管機構(gòu)等外部利益攸關(guān)方共享。數(shù)據(jù)共享使各組織能夠協(xié)作和交流信息,從而改進決策和創(chuàng)新。
4. 卡夫卡 卡夫卡是一個分布式流處理平臺,可用于消耗和處理實時數(shù)據(jù)。集成數(shù)據(jù)可以流到卡夫卡,在那里可以被需要實時數(shù)據(jù)處理能力的應(yīng)用程序和服務(wù)使用。
5. AI/ML :人工智能和機器學(xué)習(xí)模型可以使用集成數(shù)據(jù)進行訓(xùn)練和推理。AI/ML模型利用數(shù)據(jù)來學(xué)習(xí)模式和做出預(yù)測,這些模型可用于圖像識別、自然語言處理和欺詐檢測等任務(wù)。
綜合數(shù)據(jù)的使用使企業(yè)能夠做出明智的決定,優(yōu)化業(yè)務(wù),改善客戶體驗,推動創(chuàng)新。通過提供統(tǒng)一一致的數(shù)據(jù)視圖,各組織可以釋放其數(shù)據(jù)資產(chǎn)的全部潛力,并獲得競爭優(yōu)勢。