當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]作者:vivo互聯(lián)網(wǎng)服務(wù)器團隊-ZhangLin一、業(yè)務(wù)背景目前移動端的使用場景中會用到大量的消息推送,push消息可以幫助運營人員更高效地實現(xiàn)運營目標(biāo)(比如給用戶推送營銷活動或者提醒APP新功能)。對于推送系統(tǒng)來說需要具備以下兩個特性:消息秒級送到用戶,無延時,支持每秒百萬推送,單機百萬長連接。支持通知、文本、自定義消息透傳等展現(xiàn)形式。正是由于以上原因,對于系統(tǒng)的開發(fā)和維護帶來了挑戰(zhàn)。下圖是推送系統(tǒng)的簡單描述(API->推送模塊->手機)。二、問題背景推送系統(tǒng)中長連接集群在穩(wěn)定性測試、壓力測試階運行一段時間后隨機會出現(xiàn)一個進程掛掉的情況,概率較?。l率為一個月左右發(fā)生一次),這會影響部分客戶...

作者:vivo互聯(lián)網(wǎng)服務(wù)器團隊-Zhang Lin

一、業(yè)務(wù)背景


目前移動端的使用場景中會用到大量的消息推送,push消息可以幫助運營人員更高效地實現(xiàn)運營目標(biāo)(比如給用戶推送營銷活動或者提醒APP新功能)。


對于推送系統(tǒng)來說需要具備以下兩個特性:

  • 消息秒級送到用戶,無延時,支持每秒百萬推送,單機百萬長連接。

  • 支持通知、文本、自定義消息透傳等展現(xiàn)形式。正是由于以上原因,對于系統(tǒng)的開發(fā)和維護帶來了挑戰(zhàn)。下圖是推送系統(tǒng)的簡單描述(API->推送模塊->手機)。


深入理解Netty-從偶現(xiàn)宕機看Netty流量控制


二、問題背景


推送系統(tǒng)中長連接集群在穩(wěn)定性測試、壓力測試階運行一段時間后隨機會出現(xiàn)一個進程掛掉的情況,概率較小(頻率為一個月左右發(fā)生一次),這會影響部分客戶端消息送到的時效。


推送系統(tǒng)中的長連接節(jié)點(Broker系統(tǒng))是基于Netty開發(fā),此節(jié)點維護了服務(wù)端和手機終端的長連接,線上問題出現(xiàn)后,添加Netty內(nèi)存泄露監(jiān)控參數(shù)進行問題排查,觀察多天但并未排查出問題。


于長連接節(jié)點是Netty開發(fā),為便于讀者理解,下面簡單介紹一下Netty。


三、?Netty介紹


Netty是一個高性能、異步事件驅(qū)動的NIO框架,基于Java NIO提供的API實現(xiàn)。它提供了對TCP、UDP和文件傳輸?shù)闹С?,作為?dāng)前最流行的NIO框架,Netty在互聯(lián)網(wǎng)領(lǐng)域、大數(shù)據(jù)分布式計算領(lǐng)域、游戲行業(yè)、通信行業(yè)等獲得了廣泛的應(yīng)用,HBase,Hadoop,Bees,Dubbo等開源組件也基于Netty的NIO框架構(gòu)建。


四、問題分析


4.1 猜想


最初猜想是長連接數(shù)導(dǎo)致的,但經(jīng)過排查日志、分析代碼,發(fā)現(xiàn)并不是此原因造成。


長連接數(shù):39萬,如下圖:


深入理解Netty-從偶現(xiàn)宕機看Netty流量控制


每個channel字節(jié)大小1456, 按40萬長連接計算,不致于產(chǎn)生內(nèi)存過大現(xiàn)象。


4.2 查看GC日志


查看GC日志,發(fā)現(xiàn)進程掛掉之前頻繁full GC(頻率5分鐘一次),但內(nèi)存并未降低,懷疑堆外內(nèi)存泄露。


4.3 分析heap內(nèi)存情況


ChannelOutboundBuffer對象占將近5G內(nèi)存,泄露原因基本可以確定:ChannelOutboundBuffer的entry數(shù)過多導(dǎo)致,查看ChannelOutboundBuffer的源碼可以分析出,是ChannelOutboundBuffer中的數(shù)據(jù)。


沒有寫出去,導(dǎo)致一直積壓;

ChannelOutboundBuffer內(nèi)部是一個鏈表結(jié)構(gòu)。


深入理解Netty-從偶現(xiàn)宕機看Netty流量控制


4.4 從上圖分析數(shù)據(jù)未寫出去,為什么會出現(xiàn)這種情況?


代碼中實際有判斷連接是否可用的情況(Channel.isActive),并且會對超時的連接進行關(guān)閉。從歷史經(jīng)驗來看,這種情況發(fā)生在連接半打開(客戶端異常關(guān)閉)的情況比較多---雙方不進行數(shù)據(jù)通信無問題。


按上述猜想,測試環(huán)境進行重現(xiàn)和測試。

1)模擬客戶端集群,并與長連接服務(wù)器建立連接,設(shè)置客戶端節(jié)點的防火墻,模擬服務(wù)器與客戶端網(wǎng)絡(luò)異常的場景(即要模擬Channel.isActive調(diào)用成功,但數(shù)據(jù)實際發(fā)送不出去的情況)。


2)調(diào)小堆外內(nèi)存,持續(xù)發(fā)送測試消息給之前的客戶端。消息大?。?K左右)。


3)按照128M內(nèi)存來計算,實際上調(diào)用9W多次就會出現(xiàn)。


深入理解Netty-從偶現(xiàn)宕機看Netty流量控制


五、問題解決


5.1 啟用autoRead機制


當(dāng)channel不可寫時,關(guān)閉autoRead;

public void channelReadComplete(ChannelHandlerContext ctx) throws Exception { if (!ctx.channel().isWritable()) { Channel channel = ctx.channel(); ChannelInfo channelInfo = ChannelManager.CHANNEL_CHANNELINFO.get(channel); String clientId = ""; if (channelInfo != null) { clientId = channelInfo.getClientId(); }
LOGGER.info("channel is unwritable, turn off autoread, clientId:{}", clientId); channel.config().setAutoRead(false); }}

當(dāng)數(shù)據(jù)可寫時開啟autoRead;

@Overridepublic void channelWritabilityChanged(ChannelHandlerContext ctx) throws Exception{ Channel channel = ctx.channel(); ChannelInfo channelInfo = ChannelManager.CHANNEL_CHANNELINFO.get(channel); String clientId = ""; if (channelInfo != null) { clientId = channelInfo.getClientId(); } if (channel.isWritable()) { LOGGER.info("channel is writable again, turn on autoread, clientId:{}", clientId); channel.config().setAutoRead(true); }}

說明:

深入理解Netty-從偶現(xiàn)宕機看Netty流量控制


autoRead的作用是更精確的速率控制,如果打開的時候Netty就會幫我們注冊讀事件。當(dāng)注冊了讀事件后,如果網(wǎng)絡(luò)可讀,則Netty就會從channel讀取數(shù)據(jù)。那如果autoread關(guān)掉后,則Netty會不注冊讀事件。


這樣即使是對端發(fā)送數(shù)據(jù)過來了也不會觸發(fā)讀事件,從而也不會從channel讀取到數(shù)據(jù)。當(dāng)recv_buffer滿時,也就不會再接收數(shù)據(jù)。


5.2 設(shè)置高低水位

serverBootstrap.option(ChannelOption.WRITE_BUFFER_WATER_MARK, new WriteBufferWaterMark(1024 * 1024, 8 * 1024 * 1024));
注:高低水位配合后面的isWritable使用

5.3 增加channel.isWritable()的判斷


channel是否可用除了校驗channel.isActive()還需要加上channel.isWrite()的判斷,isActive只是保證連接是否激活,而是否可寫由isWrite來決定。

private void writeBackMessage(ChannelHandlerContext ctx, MqttMessage message) { Channel channel = ctx.channel(); //增加channel.isWritable()的判斷 if (channel.isActive()
本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉