當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]kafka是一個分布式的流式平臺,它到底是什么意思?流式平臺有以下三個主要的功能:☆發(fā)布和訂閱流記錄,類似消息隊列或企業(yè)級的消息系統(tǒng)?!钅阋砸环N容錯的方式存儲流記錄?!町?dāng)流記錄產(chǎn)生時及時處理。kafk

kafka是一個分布式的流式平臺,它到底是什么意思?

流式平臺有以下三個主要的功能:
☆發(fā)布和訂閱流記錄,類似消息隊列或企業(yè)級的消息系統(tǒng)。
☆你以一種容錯的方式存儲流記錄。
☆當(dāng)流記錄產(chǎn)生時及時處理。

kafka被用于兩大類別的應(yīng)用程序:
☆建立實時的流式數(shù)據(jù)通道,這個通道能可靠的獲取到在系統(tǒng)或應(yīng)用間的數(shù)據(jù)
☆建立實時流媒體應(yīng)用來轉(zhuǎn)換流數(shù)據(jù)或?qū)α鲾?shù)據(jù)做出反應(yīng)。

為了明白kafka能怎么做這些事情,讓我們從下面開始深入探索kafka的功能:
首先看這幾個概念:
☆kafka作為集群運行在一個或多個服務(wù)器,跨越多個數(shù)據(jù)中心。
☆kafka集群存儲的流記錄以主題進行分類。
☆每條記錄包含一個鍵,一個值和一個時間戳。
kafka有四種核心的API:
☆生產(chǎn)者API允許一個應(yīng)用去發(fā)布一個流記錄到一個或多個kafka主題上。
☆消費者API允許一個應(yīng)用去訂閱一個或多個主題,并處理流記錄。
☆Streams API允許應(yīng)用作為一個流處理器,消費一個來至于一個或多個主題的輸入流;生產(chǎn)一個輸出流到一個或多個輸出主題,有效地將輸入流轉(zhuǎn)換為輸出流。
☆Connector?API允許構(gòu)建并運行可重用的生產(chǎn)者或消費者,它們連接kafka主題到已存在的應(yīng)用或數(shù)據(jù)系統(tǒng)。例如,關(guān)系數(shù)據(jù)庫的連接器(Connector)可以捕獲表的每一個變化。


  kafka客戶端和kafka服務(wù)器之間的通信是通過一種簡單的,高性能的,語言無關(guān)的TCP協(xié)議完成的。該協(xié)議是版本控制的,并保持與舊版本的向后兼容性。我們?yōu)閗afka提供一個java版本的客戶端,其實客戶端可以用其他多種語來實現(xiàn)。

主題和日志
? ? 首先深入kafka為流記錄提供的核心概念—主題。

? ? 主題就是給發(fā)布的記錄歸類或命名。kafka中的主題總是有多個訂閱者。也就是說,一個主題可以有零個、一個或多個消費者去訂閱這個主題里面的數(shù)據(jù)。
? ? 針對每一個主題,kafka集群維護一個像下面這樣的分區(qū)日志:

? ? 每個分區(qū)是一個有序,不變的記錄序列,被不斷追加到結(jié)構(gòu)化的日志中。分區(qū)的記錄都分配了一個連續(xù)的id號,稱為偏移量,偏移量用于唯一標(biāo)識分區(qū)內(nèi)的每一條記錄。

  kafka集群使用一個可配置的保存期來持久保留所有已發(fā)布的記錄,不論它們是否已經(jīng)被消費掉。例如,如果保存策略設(shè)置為兩天,然后記錄發(fā)布后的兩天內(nèi),這個記錄可以消費,之后,它將被丟棄來釋放空間。不管數(shù)據(jù)量的大小,kafka都能保持穩(wěn)定的性能,所以長時間存儲數(shù)據(jù)不是問題。

? ? 事實上,保留在每個消費者基礎(chǔ)上的唯一元數(shù)據(jù)是消費者在日志中的偏移量和位置。偏移量由消費者控制:通常當(dāng)消費者讀取一個記錄后會線性的增加偏移量。但實際上,由于位置由消費者控制,消費者可以按任何順序消費記錄。例如,消費者可以重置偏移量以重新處理之前的數(shù)據(jù),或者跳至最近的記錄并從"now"開始消費。
? ? 這些特性味著kafka消費者們是很靈活的—它們能夠加入或者離開而不會影響集群或者其他消費者。例如,你可以使用我們的命令行工具去追蹤任何主題的內(nèi)容,而不影響現(xiàn)有消費者的消費。
? ? 日志中的分區(qū)有多種用途。首先,分區(qū)允許日志的大小可以超過服務(wù)器單機的限制。每個單獨的分區(qū)必須適合承載它的服務(wù)器,但是一個主題可能有很多分區(qū),因此它可以處理任意數(shù)量的數(shù)據(jù)。其次,各個分區(qū)是并行單元—更多是為了實現(xiàn)這一點。

分布式
? ? 日志的分區(qū)分布在Kafka集群中的服務(wù)器上,每個服務(wù)器處理數(shù)據(jù)并請求共享分區(qū)。每個分區(qū)都通過可配置數(shù)量的服務(wù)器進行復(fù)制以實現(xiàn)容錯。
? ? 每個分區(qū)都有一個服務(wù)器充當(dāng)“領(lǐng)導(dǎo)者(leader)”,零個或多個服務(wù)器充當(dāng)“追隨者(follower)”。leader處理分區(qū)所有讀寫請求,時followers被動的復(fù)制這個leader。如果leader出現(xiàn)故障,其中一個follower自動成為新的leader。每個服務(wù)器都充當(dāng)其中一些分區(qū)的leader和其分區(qū)的follower,因此集群內(nèi)的負(fù)載均衡很好。

地理復(fù)制

? ? Kafka MirrorMaker為您的群集提供地理復(fù)制支持。借助MirrorMaker,消息可以跨多個數(shù)據(jù)中心或云區(qū)域進行復(fù)制。 您可以在主動/被動場景中將其用于備份和恢復(fù);或者在主動/主動方案中將數(shù)據(jù)放置得更靠近用戶,或者支持?jǐn)?shù)據(jù)本地化要求。

生產(chǎn)者
? ? 生產(chǎn)者將數(shù)據(jù)發(fā)布到他們選擇的主題。生產(chǎn)者負(fù)責(zé)選擇將哪個記錄分配給主題中的哪個分區(qū)。這可以以循環(huán)方式完成,只是為了均衡負(fù)載,或者可以根據(jù)某種語義分區(qū)功能(例如基于記錄中的某個鍵)完成。

消費者

? ? 消費者用消費組(consumer group)名稱標(biāo)記自己,并且發(fā)布到主題的每條記錄都被傳送到每個訂閱消費組中的一個消費者實例。消費者實例可以在單獨的進程中或在單獨的機器上。
? ? 如果所有消費者實例具有相同的消費組,則記錄將有效地在消費者實例上進行負(fù)載均衡。
? ? 如果所有消費者實例具有不同的消費組,則每條記錄都將廣播給所有消費者進程。
  

? ? 兩個服務(wù)器Kafka集群托管四個分區(qū)(P0-P3)和兩個消費組。消費組A有兩個消費者實例,而消費組組B有四個消費者實例。
? ? 然而,更常見的是,我們發(fā)現(xiàn)主題的消費組很少,每個“邏輯訂閱者”都有一個。每個消費組組由許多消費者實例組成,具有可擴展性和容錯性。這只不過是發(fā)布—訂閱語義,其中訂閱者是一群消費者而不是一個進程。
? ? 在Kafka中實現(xiàn)消費的方式是將日志中的分區(qū)分配給消費者實例,以便每個實例在任何時間點都是“公平分享”分區(qū)的獨占消費者。維護組中成員的過程是由Kafka協(xié)議動態(tài)處理的。如果新實例加入該組,則它們將接管來自該組的其他成員的一些分區(qū);如果一個實例死亡,其分區(qū)將分配給其余實例。
? ? Kafka只提供一個分區(qū)內(nèi)記錄的總順序,而不是主題中不同分區(qū)之間的順序。按分區(qū)排序與按鍵分區(qū)數(shù)據(jù)的能力相結(jié)合,足以滿足大多數(shù)應(yīng)用程序的需求。但是,如果您需要全部記錄的總順序,則可以通過僅有一個分區(qū)的主題來實現(xiàn),但這意味著每個消費組只有一個消費者進程。

多租戶

? ? 您可以將Kafka部署為多租戶解決方案。通過配置哪些主題可以產(chǎn)生或消費數(shù)據(jù)來啟用多租戶。還有配額操作支持。 管理員可以根據(jù)請求定義和執(zhí)行配額以控制客戶端使用的代理資源。有關(guān)更多信息,請參閱security documentation。

保證
kafka的高級API提供以下保證:
☆消息被生產(chǎn)者發(fā)送到一個特定的主題分區(qū),消息將以發(fā)送的順序追加到這個分區(qū)。比如,如果M1和M2消息都被同一個生產(chǎn)者發(fā)送,M1先發(fā)送,M1的偏移量將比M2的小且更早出現(xiàn)在日志里。
☆消費者實例按照它們存儲在日志中的順序查看記錄。
☆如果一個主題的副本數(shù)是N,我們可以容忍N-1個服務(wù)器發(fā)生故障而不會丟失任何提交到日志中的記錄。

關(guān)于保證的更多的細(xì)節(jié)將在文檔的設(shè)計章節(jié)被給出來。

Kafka作為消息系統(tǒng)

? ? Kafka的流概念如何與傳統(tǒng)的企業(yè)消息系統(tǒng)相比較?
? ? 消息處理歷來有兩種模式:隊列和發(fā)布-訂閱。在隊列中,消費者池(pool)可以從服務(wù)器讀取,并且每條記錄都會轉(zhuǎn)到其中的一個消費者;在發(fā)布-訂閱中,記錄被廣播給所有消費者。這兩種模式都有優(yōu)勢和劣勢。隊列的優(yōu)勢在于它允許您將數(shù)據(jù)分配到多個消費者處理,從而擴展您的處理。不幸的是,隊列不支持多個訂閱者—一旦一個進程讀取數(shù)據(jù),其他進程就不能訪問了。發(fā)布-訂閱允許您將數(shù)據(jù)廣播到多個進程,但無法進行擴展處理,因為每條消息都發(fā)送給每個訂閱者。
? ? Kafka的消費組歸納了這兩個概念。與隊列一樣,消費組允許您將處理流程分配到多個進程(消費者組成員)。與發(fā)布-訂閱一樣,Kafka允許您向多個消費組廣播消息。
? ? Kafka模式的優(yōu)點是每個主題都有這些屬性—它可以擴展處理,也可以支持多個訂閱者—沒有必要再二選一了。
? ? Kafka也比傳統(tǒng)的消息系統(tǒng)有更強大的順序保證能力。
? ? 傳統(tǒng)的隊列在服務(wù)器上按順序保存記錄,如果多個消費者從隊列中消費,則服務(wù)器按它們存儲的順序派發(fā)記錄。但是,盡管服務(wù)器按順序派發(fā)記錄,但是記錄是異步傳遞給消費者的,它們到達不同的消費者時可能已經(jīng)亂序了。這實際上意味著在并行消費的情況下記錄的順序會丟失。消息系統(tǒng)通常具有“排他消費者”的概念,只允許一個進程從隊列中消耗,但這當(dāng)然意味沒有并行處理能力。
? ? Kafka做得更好。通過主題內(nèi)的分區(qū)來實現(xiàn)并行,Kafka能夠在消費者進程池中提供順序保證和負(fù)載均衡。這是通過將主題中的分區(qū)分配給消費組中的消費者來實現(xiàn)的,以便每個分區(qū)僅由組中的一個消費者使用。通過這樣做,我們確保消費者是該分區(qū)的唯一讀者,并按順序使用數(shù)據(jù)。由于有很多分區(qū),這仍然可以平衡許多消費者實例的負(fù)載。但請注意,消費者組中的消費者實例不能多于分區(qū)。

Kafka作為存儲系統(tǒng)

? ? 任何消息隊列都能夠解耦消息的生產(chǎn)和消費,還能夠有效的存儲正在傳送的消息。Kafka的不同之處在于它是一個非常好的存儲系統(tǒng)。
? ? Kafka將數(shù)據(jù)寫入磁盤并進行復(fù)制以實現(xiàn)容錯。Kafka允許生產(chǎn)者等待確認(rèn),直到副本復(fù)制和持久化全部完成才認(rèn)為寫入成功。
? ? Kafka使用的磁盤結(jié)構(gòu)很好擴展—無論您在服務(wù)器上有50KB還是50TB的持久化數(shù)據(jù),Kafka都會執(zhí)行相同的操作策略。
? ? 由于存儲的重要性,并允許客戶控制自己的讀取位置,您可以將Kafka視為一種專用的分布式文件系統(tǒng),致力于高性能,低延遲,有保障的日志存儲,能夠備份和自我復(fù)制。
? ? 有關(guān)Kafk日志存儲和復(fù)制設(shè)計的詳細(xì)信息,請閱讀本頁。

Kafka流處理

? ? 僅讀取,寫入和存儲數(shù)據(jù)流是不夠的,目的是實時處理數(shù)據(jù)流。
? ? 在Kafka中,流處理器是指從輸入主題獲取連續(xù)數(shù)據(jù)流,對該輸入執(zhí)行一些處理并生成連續(xù)數(shù)據(jù)流到輸出主題。
? ? 例如,零售應(yīng)用程序可能會接受銷售和裝運的輸入流,并輸出一系列重新排序和根據(jù)此數(shù)據(jù)計算出的價格調(diào)整。
? ? 可以直接使用生產(chǎn)者API和消費者API進行簡單的處理。然而,對于更復(fù)雜的轉(zhuǎn)換,Kafka提供了完全集成的Streams API。這允許構(gòu)建應(yīng)用程序進行非凡的處理,將計算從流中剝離或加入流一起。
? ? 這個工具有助于解決這類應(yīng)用程序面臨的難題:處理亂序數(shù)據(jù),重新處理代碼更改的輸入,執(zhí)行有狀態(tài)的計算等。
? ? Streams API基于Kafka提供的核心原語構(gòu)建:它使用生產(chǎn)者API和消費者API輸入,使用Kafka進行有狀態(tài)存儲,并在流處理器實例之間使用相同的組機制來實現(xiàn)容錯。

把功能結(jié)合起來

? ??消息傳遞,存儲和流處理的這種組合可能看起來很不尋常,但對于Kafka作為流式傳輸平臺的角色來說,這是非常重要的。
? ? 像HDFS這樣的分布式文件系統(tǒng)允許存儲用于批處理的靜態(tài)文件。這樣的系統(tǒng)允許存儲和處理過去的歷史數(shù)據(jù)。
? ? 傳統(tǒng)的企業(yè)消息系統(tǒng)允許處理訂閱后才抵達的消息。以這種方式構(gòu)建的應(yīng)用程序處理將來的數(shù)據(jù)。
? ? Kafka結(jié)合了這兩種功能,而且這兩種組合對于Kafka用作流式傳輸應(yīng)用平臺和流式數(shù)據(jù)管道都非常重要。
? ? 通過將存儲和低延遲訂閱相結(jié)合,流式應(yīng)用可以以相同的方式處理過去和未來的數(shù)據(jù)。也就是一個單一的應(yīng)用程序可以處理歷史的,存儲的數(shù)據(jù),而不是在它達到最后一個記錄時結(jié)束,它可以在將來的數(shù)據(jù)到達時繼續(xù)處理。這是流處理的一般概念,包括批處理以及消息驅(qū)動的應(yīng)用程序。
? ? 同樣,對于流式數(shù)據(jù)管道,結(jié)合訂閱實時事件,使得可以將Kafka用于非常低延遲的管道;可靠地存儲數(shù)據(jù)的能力可以將其用于必須保證數(shù)據(jù)交付的關(guān)鍵數(shù)據(jù),或者與只能定期加載數(shù)據(jù)的離線系統(tǒng)集成,或者可能在較長時間內(nèi)停機進行維護。流處理設(shè)施可以在數(shù)據(jù)到達時進行轉(zhuǎn)換。
? ? 有關(guān)Kafka提供的保證,API和功能的更多信息,請參閱其余文檔。




本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉