當(dāng)前位置:首頁 > 嵌入式 > 嵌入式分享
[導(dǎo)讀]專門構(gòu)建的連接器依靠 Apache Kafka Streams 和 Apache Flink 等流處理框架來解決主鍵連接和外鍵連接。它們將流數(shù)據(jù)具體化為持久的內(nèi)部表格式,使連接器應(yīng)用程序能夠連接任何時期的事件 - 而不僅僅是那些受時間限制的窗口約束的事件。

讓我們依次看看每個解決方案。

選項 1:使用專門構(gòu)建的連接器服務(wù)進(jìn)行非規(guī)范化

在此示例中,左側(cè)的流鏡像它們來自數(shù)據(jù)庫中的表。

我們使用基于外鍵關(guān)系的專用應(yīng)用程序(或流式 SQL 查詢)加入事件,并發(fā)出單個豐富的項目流。

從邏輯上講,我們正在解決關(guān)系并將數(shù)據(jù)壓縮到單個非規(guī)范化行中。

將BrandName 解析到Item表中。

將 StateTax 和 CountryTax 解析為 Item 表

專門構(gòu)建的連接器依靠 Apache Kafka Streams 和 Apache Flink 等流處理框架來解決主鍵連接和外鍵連接。它們將流數(shù)據(jù)具體化為持久的內(nèi)部表格式,使連接器應(yīng)用程序能夠連接任何時期的事件 - 而不僅僅是那些受時間限制的窗口約束的事件。

使用 Flink 或 Kafka Streams 的連接器還具有顯著的可擴(kuò)展性——它們可以根據(jù)負(fù)載進(jìn)行擴(kuò)展和縮減,并處理大量流量。

提示:不要將任何業(yè)務(wù)邏輯放入連接器中。為了在這種模式中取得成功,連接的數(shù)據(jù)必須準(zhǔn)確地表示源,簡單地作為非規(guī)范化的結(jié)果。讓下游消費(fèi)者應(yīng)用自己的業(yè)務(wù)邏輯,使用非規(guī)范化數(shù)據(jù)作為單一事實來源。

如果您不想使用下游連接器,還有其他選擇。接下來讓我們看一下事務(wù)發(fā)件箱模式。

選項 2:事務(wù)性發(fā)件箱模式

首先,創(chuàng)建一個專用的發(fā)件箱表,用于將事件寫入流。

其次,將所有必要的內(nèi)部表更新包裝在事務(wù)內(nèi)。事務(wù)保證對內(nèi)部表所做的任何更新也將寫入發(fā)件箱表。

發(fā)件箱允許您隔離內(nèi)部數(shù)據(jù)模型,因為您可以在將數(shù)據(jù)寫入發(fā)件箱之前連接和轉(zhuǎn)換數(shù)據(jù)。發(fā)件箱充當(dāng)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)之間的抽象層,充當(dāng)消費(fèi)者的數(shù)據(jù)契約。

最后,您可以使用連接器將數(shù)據(jù)從發(fā)件箱取出并放入 Kafka。

您必須確保發(fā)件箱不會無限期增長 - 要么在 CDC 捕獲數(shù)據(jù)后刪除數(shù)據(jù),要么通過計劃作業(yè)定期刪除數(shù)據(jù)。

示例:非規(guī)范化用戶行為跟蹤事件

跟蹤網(wǎng)頁和應(yīng)用程序上的用戶行為是標(biāo)準(zhǔn)化事件的常見來源 - 想想 Google Analytics 或第一方內(nèi)部選項。但我們并沒有包含事件中的所有信息;相反,我們將其限制為標(biāo)識符(更快、更小、更便宜),在創(chuàng)建事實后進(jìn)行非規(guī)范化。

考慮一個項目點擊事件流,詳細(xì)說明用戶在瀏覽電子商務(wù)項目時何時單擊項目。請注意,此商品點擊事件不包含名稱、價格、描述等更豐富的商品信息,僅包含基本信息ids。

許多點擊流消費(fèi)者所做的第一件事是將其與項目事實流結(jié)合起來。由于您正在處理許多點擊事件,您會發(fā)現(xiàn)它最終會使用大量的計算資源。專門構(gòu)建的 Flink 應(yīng)用程序可以將項目點擊與詳細(xì)的項目數(shù)據(jù)結(jié)合起來,并將它們發(fā)送到豐富的項目點擊流。

擁有多個部門(和系統(tǒng))的大型公司可能會看到他們的數(shù)據(jù)來自不同的來源,并且在事后使用流連接器加入是最可能的結(jié)果。

關(guān)于緩慢變化維度的考慮

我們已經(jīng)討論了寫入包含大型數(shù)據(jù)集(例如大型文本 blob)和頻繁更改的數(shù)據(jù)域(例如項目庫存)的事件的性能注意事項?,F(xiàn)在,我們將研究緩慢變化的維度(SCD),通常通過外鍵關(guān)系表示,因為它們可能是重要數(shù)據(jù)量的另一個來源。

讓我們再次回到我們的項目示例。假設(shè)您有一個更新項目表的操作。我們將把該物品從 Anvil 重命名為 Iron Anvil。

更新數(shù)據(jù)庫中的數(shù)據(jù)后,我們還會發(fā)出更新的項目(例如通過發(fā)件箱模式),以及非規(guī)范化的稅收狀態(tài)和品牌表。

然而,我們還需要考慮當(dāng)我們更改品牌或稅表中的值時會發(fā)生什么。更新這些緩慢變化的維度之一可能會導(dǎo)致所有受影響的項目發(fā)生大量更新。

例如,ACME 公司進(jìn)行了品牌重塑并提出了新的品牌名稱,從 ACME 更改為 Rotunda。我們?yōu)?舉辦另一個活動ItemId=123。

然而,Rotunda(以前稱為 ACME)可能有數(shù)百(或數(shù)千)個項目也因此更改而更新,從而導(dǎo)致相應(yīng)數(shù)量的更新豐富項目事件。

當(dāng)對 SCD 和外鍵關(guān)系進(jìn)行非規(guī)范化時,請記住 SCD 中的更改可能對整個事件流產(chǎn)生的影響。如果更改 SCD 會導(dǎo)致數(shù)百萬或數(shù)十億個更新事件,您可能會決定放棄非規(guī)范化并將其留給消費(fèi)者。

概括

非規(guī)范化使消費(fèi)者更容易使用數(shù)據(jù),但代價是更多的上游處理和仔細(xì)選擇要包含的數(shù)據(jù)。消費(fèi)者可以更輕松地構(gòu)建應(yīng)用程序,并且可以從更廣泛的技術(shù)中進(jìn)行選擇,包括那些本身不支持流連接的技術(shù)。

當(dāng)數(shù)據(jù)較小且不經(jīng)常更新時,標(biāo)準(zhǔn)化上游數(shù)據(jù)效果很好。較大的事件規(guī)模、頻繁的更新和 SCD 都是在確定哪些內(nèi)容要對上游進(jìn)行非規(guī)范化以及哪些內(nèi)容要留給消費(fèi)者自行處理時需要注意的因素。

最終,選擇在事件中包含哪些數(shù)據(jù)以及排除哪些數(shù)據(jù)是消費(fèi)者需求、生產(chǎn)者能力和獨(dú)特數(shù)據(jù)模型關(guān)系之間的平衡行為。但最好的起點是了解消費(fèi)者的需求并隔離源系統(tǒng)的內(nèi)部數(shù)據(jù)模型。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉