當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > Linux閱碼場(chǎng)
[導(dǎo)讀]作者簡(jiǎn)介趙金生,linux內(nèi)核愛好者,就職于杭州某大型安防公司,擔(dān)任LinuxBSP軟件工程師。對(duì)進(jìn)程調(diào)度,內(nèi)存管理有所了解。希望能通過(guò)對(duì)linux的學(xué)習(xí),提升產(chǎn)品軟件性能及穩(wěn)定性。該文章為私人學(xué)習(xí)總結(jié),不存在公司網(wǎng)絡(luò)安全問(wèn)題。??????一memorycompaction簡(jiǎn)介隨...

作者簡(jiǎn)介

趙金生,linux內(nèi)核愛好者,就職于杭州某大型安防公司,擔(dān)任Linux BSP軟件工程師。對(duì)進(jìn)程調(diào)度,內(nèi)存管理有所了解。希望能通過(guò)對(duì)linux的學(xué)習(xí),提升產(chǎn)品軟件性能及穩(wěn)定性。該文章為私人學(xué)習(xí)總結(jié),不存在公司網(wǎng)絡(luò)安全問(wèn)題。? ? ? ?

??一

memory compaction簡(jiǎn)介


隨著系統(tǒng)的運(yùn)行,經(jīng)過(guò)不同用戶的分配請(qǐng)求后,頁(yè)框會(huì)變得十分分散,導(dǎo)致此段頁(yè)框被這些正在使用的零散頁(yè)框分為一小段一小段非連續(xù)頁(yè)框,這使得在需要分配內(nèi)存時(shí)很難找到物理上連續(xù)的頁(yè)框。


現(xiàn)代處理器不再限于使用傳統(tǒng)的4K大小的頁(yè)框;它們可以在進(jìn)程的部分地址空間中支持大得多的頁(yè)(huge pages)。使用巨頁(yè)會(huì)帶來(lái)真正的性能優(yōu)勢(shì),主要原因是減小了對(duì)處理器的轉(zhuǎn)換后備緩沖區(qū)(translation lookaside buffer)的壓力。但是使用巨頁(yè)要求系統(tǒng)能夠找到物理上連續(xù)的內(nèi)存區(qū)域,這些區(qū)域不僅要足夠大,而且還必須確保按適當(dāng)方式滿足字節(jié)對(duì)齊的要求。


在一個(gè)已經(jīng)運(yùn)行了一段時(shí)間的系統(tǒng)上會(huì)產(chǎn)生大量的不連續(xù)的page, 要想找到符合這些高階(high-order)條件的內(nèi)存空間非常具有挑戰(zhàn)性,memory compaction的作用就是解決high-order內(nèi)存分配失敗問(wèn)題,與buddy system機(jī)制做一個(gè)互補(bǔ)。


??二

memory compaction原理


內(nèi)存碎片整理以pageblock為單位。
在內(nèi)存碎片整理開始前,會(huì)在zone的頭和尾各設(shè)置一個(gè)指針,頭指針從頭向尾掃描可移動(dòng)的頁(yè),而尾指針從尾向頭掃描空閑的頁(yè),當(dāng)他們相遇時(shí)終止整理。


簡(jiǎn)單示意圖:需要明確的是:實(shí)際情況并不是與圖示的情況完全一致。頭指針每次掃描一個(gè)符合要求的pageblock里的所有頁(yè)框,當(dāng)pageblock不為MIGRATE_MOVABLE、MIGRATE_CMA、MIGRATE_RECLAIMABLE時(shí)會(huì)跳過(guò)這些pageblock,當(dāng)掃描完這個(gè)pageblock后有可移動(dòng)的頁(yè)框時(shí),會(huì)變?yōu)槲仓羔樢詐ageblock為單位向前掃描可移動(dòng)頁(yè)框數(shù)量的空閑頁(yè)框,但是在pageblock中也是從開始頁(yè)框向結(jié)束頁(yè)框進(jìn)行掃描,最后會(huì)將前面的頁(yè)框內(nèi)容復(fù)制到這些空閑頁(yè)框中。


這里的移動(dòng)是將頁(yè)框中的數(shù)據(jù)copy拷貝到可移動(dòng)的空閑頁(yè)框當(dāng)中,此時(shí)原有的movable page變成free page。所以并不是頁(yè)框自身的移動(dòng)而是數(shù)據(jù)的移動(dòng)。


通過(guò)下圖的操作就可以分配出一個(gè)order = 2或者是order = ?3的連續(xù)的可用空間,可用于滿足更high-order的內(nèi)存分配。當(dāng)然,這里展示的流程和真實(shí)系統(tǒng)比起來(lái)已經(jīng)大大簡(jiǎn)化了。實(shí)際的內(nèi)存域會(huì)大得多,這意味著掃描的工作量也會(huì)大很多,但由此獲得的空閑區(qū)也可能更大。

??

實(shí)際的內(nèi)存碎片,還有一個(gè)問(wèn)題就是在整理算法中會(huì)將掃描中識(shí)別為不滿足整理要求的內(nèi)存塊標(biāo)識(shí)為?“可忽略”(“skip”,即不執(zhí)行規(guī)整)。作為一種優(yōu)化,目的是防止運(yùn)行沒必要的規(guī)整操作。


比如系統(tǒng)正在對(duì)zone進(jìn)行內(nèi)存碎片整理,首先,會(huì)從可移動(dòng)頁(yè)框開始位置向后掃描一個(gè)pageblock,得到一些可移動(dòng)頁(yè)框,然后空閑頁(yè)框從開始位置向前掃描一個(gè)pageblock,得到一些空閑頁(yè)框,然后將可移動(dòng)頁(yè)框移動(dòng)到空閑頁(yè)框中,之后再繼續(xù)循環(huán)掃描。對(duì)一個(gè)pageblock進(jìn)行掃描后,如果無(wú)法從此pageblock隔離出一個(gè)要求的頁(yè)框,這時(shí)候就會(huì)將此pageblock標(biāo)記為跳過(guò)(skip)。


假設(shè)內(nèi)存碎片整理可移動(dòng)頁(yè)掃描是從zone的第一個(gè)頁(yè)框開始,掃描完一個(gè)pageblock后,沒有隔離出可移動(dòng)頁(yè)框,則標(biāo)記此pageblock的跳過(guò)標(biāo)記PB_migrate_skip,然后將zone->compact_cached_migrate_pfn設(shè)置為此pageblock的結(jié)束頁(yè)框。
這樣,在下次對(duì)此zone進(jìn)行內(nèi)存碎片整理時(shí),就會(huì)直接從此pageblock的下一個(gè)pageblock開始,把此pageblock跳過(guò)了。同理,對(duì)于空閑頁(yè)掃描也是一樣。這樣就必須更新zone pageblock的起始地址與結(jié)束地址:

以上就是內(nèi)存碎片整理的基本原理了。


? 三

memory compaction如何實(shí)現(xiàn)

3.1、數(shù)據(jù)結(jié)構(gòu)


在內(nèi)存碎片整理中,可以移動(dòng)的頁(yè)框有MIGRATE_RECLAIMABLE、MIGRATE_MOVABLE與MIGRATE_CMA這三種類型的頁(yè)框。


而因?yàn)閮?nèi)存碎片整理分為同步和異步。在異步過(guò)程中,只會(huì)移動(dòng)MIGRATE_MOVABLE和MIGRATE_CMA這兩種類型的頁(yè)框。因?yàn)檫@兩種類型的頁(yè)框處理,是不會(huì)涉及到IO操作的。而在同步過(guò)程中,這三種類型的頁(yè)框都會(huì)進(jìn)行移動(dòng),因?yàn)镸IGRATE_RECLAIMABLE基本上都是文件頁(yè),在移動(dòng)過(guò)程中,有可能要將臟頁(yè)回寫,會(huì)涉及到IO操作,也就是在同步過(guò)程中,是會(huì)涉及到IO操作的。

1、migrate_mode遷移模式:

enum migrate_mode { MIGRATE_ASYNC, MIGRATE_SYNC_LIGHT, MIGRATE_SYNC,};
2、compact_priority
enum compact_priority { COMPACT_PRIO_SYNC_FULL, MIN_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_FULL, COMPACT_PRIO_SYNC_LIGHT, MIN_COMPACT_COSTLY_PRIORITY = COMPACT_PRIO_SYNC_LIGHT, DEF_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_LIGHT, COMPACT_PRIO_ASYNC, INIT_COMPACT_PRIORITY = COMPACT_PRIO_ASYNC};

3、compact_result用于壓縮處理函數(shù)的返回值
enum compact_result { /* For more detailed tracepoint output - internal to compaction */ COMPACT_NOT_SUITABLE_ZONE,//trace用于調(diào)試輸出或內(nèi)部使用 /* * compaction didn't start as it was not possible or direct reclaim * was more suitable */ COMPACT_SKIPPED,//跳過(guò)壓縮,因?yàn)闊o(wú)法執(zhí)行壓縮或直接回收更合適 /* compaction didn't start as it was deferred due to past failures */ COMPACT_DEFERRED,
/* compaction not active last round */ COMPACT_INACTIVE = COMPACT_DEFERRED,
/* For more detailed tracepoint output - internal to compaction */ COMPACT_NO_SUITABLE_PAGE, /* compaction should continue to another pageblock */ COMPACT_CONTINUE,
/* * The full zone was compacted scanned but wasn't successfull to compact * suitable pages. */ COMPACT_COMPLETE,//已完成所有區(qū)域的壓縮,但是尚未確??梢酝ㄟ^(guò)壓縮分配的頁(yè)面 /* * direct compaction has scanned part of the zone but wasn't successfull * to compact suitable pages. */ COMPACT_PARTIAL_SKIPPED,
/* compaction terminated prematurely due to lock contentions */ COMPACT_CONTENDED,
/* * direct compaction terminated after concluding that the allocation * should now succeed */ COMPACT_SUCCESS,//在確??煞峙漤?yè)面安全后,直接壓縮結(jié)束};

4、compact_control需要進(jìn)行內(nèi)存碎片整理時(shí),總是需要初始化該結(jié)構(gòu)體

struct compact_control { /* 掃描到的空閑頁(yè)的頁(yè)的鏈表 */ struct list_head freepages; /* List of free pages to migrate to */ /* 掃描到的可移動(dòng)的頁(yè)的鏈表 */ struct list_head migratepages; /* List of pages being migrated */ /* 空閑頁(yè)鏈表中的頁(yè)數(shù)量 */ unsigned long nr_freepages; /* Number of isolated free pages */ /* 可移動(dòng)頁(yè)鏈表中的頁(yè)數(shù)量 */ unsigned long nr_migratepages; /* Number of pages to migrate */ /* 空閑頁(yè)框掃描所在頁(yè)框號(hào) */ unsigned long free_pfn; /* isolate_freepages search base */ /* 可移動(dòng)頁(yè)框掃描所在頁(yè)框號(hào) */ unsigned long migrate_pfn; /* isolate_migratepages search base */ /* 內(nèi)存碎片整理使用的模式: 同步,輕同步,異步 */ enum migrate_mode mode; /* Async or sync migration mode */ /* 是否忽略pageblock的PB_migrate_skip標(biāo)志對(duì)需要跳過(guò)的pageblock進(jìn)行掃描 ,并且也不會(huì)對(duì)pageblock設(shè)置跳過(guò) * 只有兩種情況會(huì)使用 * 1.調(diào)用alloc_contig_range()嘗試分配一段指定了開始頁(yè)框號(hào)和結(jié)束頁(yè)框號(hào)的連續(xù)頁(yè)框時(shí); * 2.通過(guò)寫入1到sysfs中的/vm/compact_memory文件手動(dòng)實(shí)現(xiàn)同步內(nèi)存碎片整理。 */ bool ignore_skip_hint; /* Scan blocks even if marked skip */ /* 本次內(nèi)存碎片整理是否隔離到了空閑頁(yè)框,會(huì)影響zone的空閑頁(yè)掃描起始位置 */ bool finished_update_free; /* True when the zone cached pfns are * no longer being updated */ /* 本次內(nèi)存碎片整理是否隔離到了可移動(dòng)頁(yè)框,會(huì)影響zone的可移動(dòng)頁(yè)掃描起始位置 */ bool finished_update_migrate; /* 申請(qǐng)內(nèi)存時(shí)需要的頁(yè)框的order值 */ int order; /* order a direct compactor needs */ const gfp_t gfp_mask; /* gfp mask of a direct compactor */ /* 掃描的管理區(qū) */ struct zone *zone; /* 保存結(jié)果,比如異步模式下是否因?yàn)樾枰枞Y(jié)束了本次內(nèi)存碎片整理 */ int contended; /* Signal need_sched() or lock * contention detected during * compaction */};

5、Node?zone?掃描推遲
struct zone{ ..... unsigned int compact_considered; unsigned int compact_defer_shift; int compact_order_failed; ......}當(dāng)一個(gè)zone要進(jìn)行內(nèi)存碎片整理時(shí),首先會(huì)判斷本次整理需不需要推遲,如果本次內(nèi)存碎片整理使用的order值小于zone內(nèi)存碎片整理失敗最大order值compact_order_failed時(shí),不用進(jìn)行推遲,可以直接進(jìn)行內(nèi)存碎片整理;


當(dāng)order值大于zone內(nèi)存碎片整理失敗最大order值compact_order_failed,會(huì)增加內(nèi)存碎片整理推遲計(jì)數(shù)器compact_considered,如果內(nèi)存碎片整理推遲計(jì)數(shù)器compact_considered未達(dá)到內(nèi)存碎片整理推遲閥值defer_limit,則會(huì)跳過(guò)本次內(nèi)存碎片整理,如果達(dá)到了,那就需要進(jìn)行內(nèi)存碎片整理。


總結(jié):也就是當(dāng)order小于zone內(nèi)存碎片整理失敗最大order值時(shí),不用進(jìn)行推遲,而order大于zone內(nèi)存碎片整理失敗最大order值時(shí),才考慮是否進(jìn)行推遲,此時(shí)推遲就是continue掃描node當(dāng)中的下一個(gè)zone區(qū)域,這里并不是想下文一下設(shè)置zone SKIP標(biāo)志。


6、Pageblock?skip

struct zone{ ...... unsigned long compact_cached_free_pfn; /* pfn where async and sync compaction migration scanner should start */ unsigned long compact_cached_migrate_pfn[2];
......}

3.2、源碼分析

內(nèi)存碎片整理移動(dòng)發(fā)生條件:

  • 內(nèi)存分配不足時(shí)觸發(fā)direct compact整理內(nèi)存


  • Kswapd內(nèi)存回收后喚醒kcompactd內(nèi)核線程執(zhí)行compact操作,獲取連續(xù)內(nèi)存


  • 手動(dòng)設(shè)置echo 1 > /proc/sys/vm/compact_memory




分析的重點(diǎn)就放在內(nèi)存分配不足的情況,入口函數(shù)從try_to_compact_pages開始

對(duì)源碼詳細(xì)分析參見代碼:https://github.com/linuxzjs/linux-4.14


重點(diǎn)分析5個(gè)關(guān)鍵函數(shù):

1、compaction_suitable

/* 判斷該zone是否可以做內(nèi)存碎片壓縮整理 */enum compact_result compaction_suitable(struct zone *zone, int order, unsigned int alloc_flags, int classzone_idx){ enum compact_result ret; int fragindex; /* * 根據(jù)watermask判斷zone中離散的page是否滿足2^order的內(nèi)存分配請(qǐng)求,如果滿足則繼續(xù)對(duì)zone進(jìn)行內(nèi)存的compact整理zone的內(nèi)存碎片 * 說(shuō)明該zone時(shí)可以做內(nèi)存碎片的壓縮整理的。 */ ret = __compaction_suitable(zone, order, alloc_flags, classzone_idx,zone_page_state(zone, NR_FREE_PAGES));
/* 如果return返回值為COMPACT_CONTINUE,且order > PAGE_ALLOC_COSTLY_ORDER(3)則進(jìn)入一下判斷當(dāng)中 */ if (ret == COMPACT_CONTINUE
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉