當前位置:首頁 > 公眾號精選 > 小林coding
[導讀]上周有位讀者字節(jié)一二面時,被問到:Redis 的大 Key 對持久化有什么影響?

大家好,我是小林。

上周有位讀者字節(jié)一二面時,被問到:Redis 的大 Key 對持久化有什么影響?

Redis 的持久化方式有兩種:AOF 日志和 RDB 快照。

所以接下來,針對這兩種持久化方式具體分析分析。

大 Key 對 AOF 日志的影響

先說說 AOF 日志三種寫回磁盤的策略

Redis 提供了 3 種 AOF 日志寫回硬盤的策略,分別是:

  • Always,這個單詞的意思是「總是」,所以它的意思是每次寫操作命令執(zhí)行完后,同步將 AOF 日志數(shù)據寫回硬盤;
  • Everysec,這個單詞的意思是「每秒」,所以它的意思是每次寫操作命令執(zhí)行完后,先將命令寫入到 AOF 文件的內核緩沖區(qū),然后每隔一秒將緩沖區(qū)里的內容寫回到硬盤;
  • No,意味著不由 Redis 控制寫回硬盤的時機,轉交給操作系統(tǒng)控制寫回的時機,也就是每次寫操作命令執(zhí)行完后,先將命令寫入到 AOF 文件的內核緩沖區(qū),再由操作系統(tǒng)決定何時將緩沖區(qū)內容寫回硬盤。

這三種策略只是在控制 fsync() 函數(shù)的調用時機。

當應用程序向文件寫入數(shù)據時,內核通常先將數(shù)據復制到內核緩沖區(qū)中,然后排入隊列,然后由內核決定何時寫入硬盤。

如果想要應用程序向文件寫入數(shù)據后,能立馬將數(shù)據同步到硬盤,就可以調用 fsync() 函數(shù),這樣內核就會將內核緩沖區(qū)的數(shù)據直接寫入到硬盤,等到硬盤寫操作完成后,該函數(shù)才會返回。

  • Always 策略就是每次寫入 AOF 文件數(shù)據后,就執(zhí)行 fsync() 函數(shù);
  • Everysec 策略就會創(chuàng)建一個異步任務來執(zhí)行 fsync() 函數(shù);
  • No 策略就是永不執(zhí)行 fsync() 函數(shù);

分別說說這三種策略,在持久化大 Key 的時候,會影響什么?

在使用 Always 策略的時候,主線程在執(zhí)行完命令后,會把數(shù)據寫入到 AOF 日志文件,然后會調用  fsync() 函數(shù),將內核緩沖區(qū)的數(shù)據直接寫入到硬盤,等到硬盤寫操作完成后,該函數(shù)才會返回。

當使用 Always 策略的時候,如果寫入是一個大 Key,主線程在執(zhí)行 fsync() 函數(shù)的時候,阻塞的時間會比較久,因為當寫入的數(shù)據量很大的時候,數(shù)據同步到硬盤這個過程是很耗時的。

當使用 Everysec 策略的時候,由于是異步執(zhí)行 fsync() 函數(shù),所以大 Key 持久化的過程(數(shù)據同步磁盤)不會影響主線程。

當使用 No 策略的時候,由于永不執(zhí)行 fsync() 函數(shù),所以大 Key 持久化的過程不會影響主線程。

大 Key 對 AOF 重寫和 RDB 的影響

當 AOF 日志寫入了很多的大 Key,AOF 日志文件的大小會很大,那么很快就會觸發(fā) AOF 重寫機制。

AOF 重寫機制和 RDB 快照(bgsave 命令)的過程,都會分別通過fork()函數(shù)創(chuàng)建一個子進程來處理任務。

在創(chuàng)建子進程的過程中,操作系統(tǒng)會把父進程的「頁表」復制一份給子進程,這個頁表記錄著虛擬地址和物理地址映射關系,而不會復制物理內存,也就是說,兩者的虛擬空間不同,但其對應的物理空間是同一個。

這樣一來,子進程就共享了父進程的物理內存數(shù)據了,這樣能夠節(jié)約物理內存資源,頁表對應的頁表項的屬性會標記該物理內存的權限為只讀。

隨著 Redis 存在越來越多的大 Key,那么 Redis 就會占用很多內存,對應的頁表就會越大。

fork()函數(shù)創(chuàng)建子進程的時候,雖然不會復制父進程的物理內存,但是內核會把父進程的頁表復制一份給子進程,如果頁表很大,那么這個復制過程是會很耗時的,那么在執(zhí)行 fork 函數(shù)的時候就會發(fā)生阻塞現(xiàn)象。

而且,fork 函數(shù)是由 Redis 主線程調用的,如果 fork 函數(shù)發(fā)生阻塞,那么意味著就會阻塞 Redis 主線程。由于 Redis 執(zhí)行命令是在主線程處理的,所以當 Redis 主線程發(fā)生阻塞,就無法處理后續(xù)客戶端發(fā)來的命令。

我們可以執(zhí)行info命令獲取到 latest_fork_usec 指標,表示 Redis 最近一次 fork 操作耗時。

# 最近一次 fork 操作耗時 latest_fork_usec:315

如果 fork 耗時很大,比如超過1秒,則需要做出優(yōu)化調整:

  • 單個實例的內存占用控制在 10 GB 以下,這樣 fork 函數(shù)就能很快返回。
  • 如果 Redis 只是當作純緩存使用,不關心 Redis 數(shù)據安全性問題,可以考慮關閉 AOF 和 AOF 重寫,這樣就不會調用 fork 函數(shù)了。
  • 在主從架構中,要適當調大 repl-backlog-size,避免因為  repl_backlog_buffer 不夠大,導致主節(jié)點頻繁地使用全量同步的方式,全量同步的時候,是會創(chuàng)建 RDB 文件的,也就是會調用 fork 函數(shù)。

那什么時候會發(fā)生物理內存的復制呢?

當父進程或者子進程在向共享內存發(fā)起寫操作時,CPU 就會觸發(fā)缺頁中斷,這個缺頁中斷是由于違反權限導致的,然后操作系統(tǒng)會在「缺頁異常處理函數(shù)」里進行物理內存的復制,并重新設置其內存映射關系,將父子進程的內存讀寫權限設置為可讀寫,最后才會對內存進行寫操作,這個過程被稱為「**寫時復制(Copy On Write)**」。

寫時復制顧名思義,在發(fā)生寫操作的時候,操作系統(tǒng)才會去復制物理內存,這樣是為了防止 fork 創(chuàng)建子進程時,由于物理內存數(shù)據的復制時間過長而導致父進程長時間阻塞的問題。

如果創(chuàng)建完子進程后,父進程對共享內存中的大 Key 進行了修改,那么內核就會發(fā)生寫時復制,會把物理內存復制一份,由于大 Key 占用的物理內存是比較大的,那么在復制物理內存這一過程中,也是比較耗時的,于是父進程(主線程)就會發(fā)生阻塞。

所以,有兩個階段會導致阻塞父進程:

  • 創(chuàng)建子進程的途中,由于要復制父進程的頁表等數(shù)據結構,阻塞的時間跟頁表的大小有關,頁表越大,阻塞的時間也越長;
  • 創(chuàng)建完子進程后,如果子進程或者父進程修改了共享數(shù)據,就會發(fā)生寫時復制,這期間會拷貝物理內存,如果內存越大,自然阻塞的時間也越長;

這里額外提一下, 如果 Linux 開啟了內存大頁,會影響 Redis 的性能的。

Linux 內核從 2.6.38 開始支持內存大頁機制,該機制支持 2MB 大小的內存頁分配,而常規(guī)的內存頁分配是按 4KB 的粒度來執(zhí)行的。

如果采用了內存大頁,那么即使客戶端請求只修改 100B 的數(shù)據,在發(fā)生寫時復制后,Redis 也需要拷貝 2MB 的大頁。相反,如果是常規(guī)內存頁機制,只用拷貝 4KB。

兩者相比,你可以看到,每次寫命令引起的復制內存頁單位放大了 512 倍,會拖慢寫操作的執(zhí)行時間,最終導致 Redis 性能變慢

那該怎么辦呢?很簡單,關閉內存大頁(默認是關閉的)。

禁用方法如下:

echo never >  /sys/kernel/mm/transparent_hugepage/enabled

總結

當 AOF 寫回策略配置了 Always 策略,如果寫入是一個大 Key,主線程在執(zhí)行 fsync() 函數(shù)的時候,阻塞的時間會比較久,因為當寫入的數(shù)據量很大的時候,數(shù)據同步到硬盤這個過程是很耗時的。

AOF 重寫機制和 RDB 快照(bgsave 命令)的過程,都會分別通過fork()函數(shù)創(chuàng)建一個子進程來處理任務。會有兩個階段會導致阻塞父進程(主線程):

  • 創(chuàng)建子進程的途中,由于要復制父進程的頁表等數(shù)據結構,阻塞的時間跟頁表的大小有關,頁表越大,阻塞的時間也越長;
  • 創(chuàng)建完子進程后,如果父進程修改了共享數(shù)據中的大 Key,就會發(fā)生寫時復制,這期間會拷貝物理內存,由于大 Key 占用的物理內存會很大,那么在復制物理內存這一過程,就會比較耗時,所以有可能會阻塞父進程。

大 key 除了會影響持久化之外,還會有以下的影響。

  • 客戶端超時阻塞。由于 Redis 執(zhí)行命令是單線程處理,然后在操作大 key 時會比較耗時,那么就會阻塞 Redis,從客戶端這一視角看,就是很久很久都沒有響應。

  • 引發(fā)網絡阻塞。每次獲取大 key 產生的網絡流量較大,如果一個 key 的大小是 1 MB,每秒訪問量為 1000,那么每秒會產生 1000MB 的流量,這對于普通千兆網卡的服務器來說是災難性的。

  • 阻塞工作線程。如果使用 del 刪除大 key 時,會阻塞工作線程,這樣就沒辦法處理后續(xù)的命令。

  • 內存分布不均。集群模型在 slot 分片均勻情況下,會出現(xiàn)數(shù)據和查詢傾斜情況,部分有大 key 的 Redis 節(jié)點占用內存多,QPS 也會比較大。

如何避免大 Key 呢?

最好在設計階段,就把大 key 拆分成一個一個小 key。或者,定時檢查 Redis 是否存在大 key ,如果該大 key 是可以刪除的,不要使用 DEL 命令刪除,因為該命令刪除過程會阻塞主線程,而是用 unlink 命令(Redis 4.0+)刪除大 key,因為該命令的刪除過程是異步的,不會阻塞主線程。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉