當前位置:首頁 > 公眾號精選 > 技術(shù)讓夢想更偉大
[導(dǎo)讀]關(guān)注、星標公眾號,直達精彩內(nèi)容來源:技術(shù)讓夢想更偉大作者:李肖遙前不久組內(nèi)又有一次我比較期待的分享:”Linux的虛擬內(nèi)存”。是某天晚上加班時,我們討論虛擬內(nèi)存的概念時,leader發(fā)現(xiàn)幾位同事對虛擬內(nèi)存認識不清后,特意給這位同學(xué)挑選的主題(笑)。之前了解一些操作系統(tǒng)的概念,主要...




前不久組內(nèi)又有一次我比較期待的分享:”Linux 的虛擬內(nèi)存”。是某天晚上加班時,我們討論虛擬內(nèi)存的概念時,leader 發(fā)現(xiàn)幾位同事對虛擬內(nèi)存認識不清后,特意給這位同學(xué)挑選的主題(笑)。


之前了解一些操作系統(tǒng)的概念,主要是畢業(yè)后對自己大學(xué)四年的荒廢比較懊惱,覺得自己有些對不起計算機專業(yè)出身,于是在工作之余抽出時間看了哈工大在網(wǎng)易云課堂的操作系統(tǒng)公開課,自己也讀了一本講操作系統(tǒng)比較淺的書 《Linux內(nèi)核設(shè)計與實現(xiàn)》,而且去年自己用 C 寫簡單的服務(wù)器時,也追根究底了解了更多的系統(tǒng)底層知識。多虧了這些知識,讓我對應(yīng)用層的知識更有掌控感,也在上次排查問題時助了我一臂之力。


前幾天另一位同事來問另一個虛擬內(nèi)存相關(guān)的問題,我才發(fā)現(xiàn)對于虛擬內(nèi)存,我的理解還不夠深刻,一些概念還有些矛盾。于是翻一下資料重新整理一下這些知識,希望下次在用到它們時能更順暢。


由來

虛擬內(nèi)存

毋庸置疑,虛擬內(nèi)存絕對是操作系統(tǒng)中最重要的概念之一。我想主要是由于內(nèi)存的重要”戰(zhàn)略地位”。CPU太快,但容量小且功能單一,其他 I/O 硬件支持各種花式功能,可是相對于 CPU,它們又太慢。于是它們之間就需要一種潤滑劑來作為緩沖,這就是內(nèi)存大顯身手的地方。


而在現(xiàn)代操作系統(tǒng)中,多任務(wù)已是標配。多任務(wù)并行,大大提升了 CPU 利用率,但卻引出了多個進程對內(nèi)存操作的沖突問題,虛擬內(nèi)存概念的提出就是為了解決這個問題。


上圖是虛擬內(nèi)存最簡單也是最直觀的解釋。


操作系統(tǒng)有一塊物理內(nèi)存(中間的部分),有兩個進程(實際會更多)P1 和 P2,操作系統(tǒng)偷偷地分別告訴 P1 和 P2,我的整個內(nèi)存都是你的,隨便用,管夠??墒聦嵣夏兀僮飨到y(tǒng)只是給它們畫了個大餅,這些內(nèi)存說是都給了 P1 和 P2,實際上只給了它們一個序號而已。只有當 P1 和 P2 真正開始使用這些內(nèi)存時,系統(tǒng)才開始使用輾轉(zhuǎn)挪移,拼湊出各個塊給進程用,P2 以為自己在用 A 內(nèi)存,實際上已經(jīng)被系統(tǒng)悄悄重定向到真正的 B 去了,甚至,當 P1 和 P2 共用了 C 內(nèi)存,他們也不知道。


操作系統(tǒng)的這種欺騙進程的手段,就是虛擬內(nèi)存。對 P1 和 P2 等進程來說,它們都以為自己占用了整個內(nèi)存,而自己使用的物理內(nèi)存的哪段地址,它們并不知道也無需關(guān)心。


分頁和頁表

虛擬內(nèi)存是操作系統(tǒng)里的概念,對操作系統(tǒng)來說,虛擬內(nèi)存就是一張張的對照表,P1 獲取 A 內(nèi)存里的數(shù)據(jù)時應(yīng)該去物理內(nèi)存的 A 地址找,而找 B 內(nèi)存里的數(shù)據(jù)應(yīng)該去物理內(nèi)存的 C 地址。


我們知道系統(tǒng)里的基本單位都是 Byte 字節(jié),如果將每一個虛擬內(nèi)存的 Byte 都對應(yīng)到物理內(nèi)存的地址,每個條目最少需要 8字節(jié)(32位虛擬地址->32位物理地址),在 4G 內(nèi)存的情況下,就需要 32GB 的空間來存放對照表,那么這張表就大得真正的物理地址也放不下了,于是操作系統(tǒng)引入了 頁(Page)的概念。


在系統(tǒng)啟動時,操作系統(tǒng)將整個物理內(nèi)存以 4K 為單位,劃分為各個頁。之后進行內(nèi)存分配時,都以頁為單位,那么虛擬內(nèi)存頁對應(yīng)物理內(nèi)存頁的映射表就大大減小了,4G 內(nèi)存,只需要 8M 的映射表即可,一些進程沒有使用到的虛擬內(nèi)存,也并不需要保存映射關(guān)系,而且Linux 還為大內(nèi)存設(shè)計了多級頁表,可以進一頁減少了內(nèi)存消耗。操作系統(tǒng)虛擬內(nèi)存到物理內(nèi)存的映射表,就被稱為頁表。


內(nèi)存尋址和分配

我們知道通過虛擬內(nèi)存機制,每個進程都以為自己占用了全部內(nèi)存,進程訪問內(nèi)存時,操作系統(tǒng)都會把進程提供的虛擬內(nèi)存地址轉(zhuǎn)換為物理地址,再去對應(yīng)的物理地址上獲取數(shù)據(jù)。CPU 中有一種硬件,內(nèi)存管理單元 MMU(Memory Management Unit)專門用來將翻譯虛擬內(nèi)存地址。CPU 還為頁表尋址設(shè)置了緩存策略,由于程序的局部性,其緩存命中率能達到 98%。


以上情況是頁表內(nèi)存在虛擬地址到物理地址的映射,而如果進程訪問的物理地址還沒有被分配,系統(tǒng)則會產(chǎn)生一個缺頁中斷,在中斷處理時,系統(tǒng)切到內(nèi)核態(tài)為進程虛擬地址分配物理地址。


功能

虛擬內(nèi)存不僅通過內(nèi)存地址轉(zhuǎn)換解決了多個進程訪問內(nèi)存沖突的問題,還帶來更多的益處。


進程內(nèi)存管理

它有助于進程進行內(nèi)存管理,主要體現(xiàn)在:


  • 內(nèi)存完整性:由于虛擬內(nèi)存對進程的”欺騙”,每個進程都認為自己獲取的內(nèi)存是一塊連續(xù)的地址。我們在編寫應(yīng)用程序時,就不用考慮大塊地址的分配,總是認為系統(tǒng)有足夠的大塊內(nèi)存即可。
  • 安全:由于進程訪問內(nèi)存時,都要通過頁表來尋址,操作系統(tǒng)在頁表的各個項目上添加各種訪問權(quán)限標識位,就可以實現(xiàn)內(nèi)存的權(quán)限控制。

數(shù)據(jù)共享

通過虛擬內(nèi)存更容易實現(xiàn)內(nèi)存和數(shù)據(jù)的共享。


在進程加載系統(tǒng)庫時,總是先分配一塊內(nèi)存,將磁盤中的庫文件加載到這塊內(nèi)存中,在直接使用物理內(nèi)存時,由于物理內(nèi)存地址唯一,即使系統(tǒng)發(fā)現(xiàn)同一個庫在系統(tǒng)內(nèi)加載了兩次,但每個進程指定的加載內(nèi)存不一樣,系統(tǒng)也無能為力。


而在使用虛擬內(nèi)存時,系統(tǒng)只需要將進程的虛擬內(nèi)存地址指向庫文件所在的物理內(nèi)存地址即可。如上文圖中所示,進程 P1 和 P2 的 B 地址都指向了物理地址 C。


而通過使用虛擬內(nèi)存使用共享內(nèi)存也很簡單,系統(tǒng)只需要將各個進程的虛擬內(nèi)存地址指向系統(tǒng)分配的共享內(nèi)存地址即可。


SWAP

虛擬內(nèi)存可以讓幫進程”擴充”內(nèi)存。


我們前文提到了虛擬內(nèi)存通過缺頁中斷為進程分配物理內(nèi)存,內(nèi)存總是有限的,如果所有的物理內(nèi)存都被占用了怎么辦呢?


Linux 提出 SWAP 的概念,Linux 中可以使用 SWAP 分區(qū),在分配物理內(nèi)存,但可用內(nèi)存不足時,將暫時不用的內(nèi)存數(shù)據(jù)先放到磁盤上,讓有需要的進程先使用,等進程再需要使用這些數(shù)據(jù)時,再將這些數(shù)據(jù)加載到內(nèi)存中,通過這種”交換”技術(shù),Linux 可以讓進程使用更多的內(nèi)存。


常見問題

在了解虛擬內(nèi)存時,我也有過很多的問題。


32位和64位

最常見的就是 32位和64位的問題了。


CPU 通過物理總線訪問內(nèi)存,那么訪問地址的范圍就受限于機器總線的數(shù)量,在32位機器上,有32條總線,每條總線有高低兩種電位分別代表 bit 的 1 和 0,那么可訪問的最大地址就是 2^32bit = 4GB,所以說 32 位機器上插入大于 4G 的內(nèi)存是無效的,CPU 訪問不到多于 4G 的內(nèi)存。


但 64位機器并沒有 64位總線,而且其最大內(nèi)存還要受限于操作系統(tǒng),Linux 目前支持最大 256G 內(nèi)存。


根據(jù)虛擬內(nèi)存的概念,在 32 位系統(tǒng)上運行 64 位軟件也并無不可,但由于系統(tǒng)對虛擬內(nèi)存地址的結(jié)構(gòu)設(shè)計,64位的虛擬地址在32位系統(tǒng)內(nèi)并不能使用。


直接操作物理內(nèi)存

操作系統(tǒng)使用了虛擬內(nèi)存,我們想要直接操作內(nèi)存該怎么辦呢?


Linux 會將各個設(shè)備都映射到 /dev/目錄下的文件,我們可以通過這些設(shè)備文件直接操作硬件,內(nèi)存也不例外。在 Linux 中,內(nèi)存設(shè)置被映射為 /dev/mem,root 用戶通過對這個文件讀寫,可以直接操作內(nèi)存。


JVM 進程占用虛擬內(nèi)存過多

使用 TOP 查看系統(tǒng)性能時,我們會發(fā)現(xiàn)在 VIRT 這一列,Java 進程會占用大量的虛擬內(nèi)存。


導(dǎo)致這種問題的原因是 Java 使用 Glibc 的 Arena 內(nèi)存池分配了大量的虛擬內(nèi)存并沒有使用。此外,Java 讀取的文件也會被映射為虛擬內(nèi)存,在虛擬機默認配置下 Java 每個線程棧會占用 1M 的虛擬內(nèi)存。具體可以查看 為什么linux下多線程程序如此消耗虛擬內(nèi)存。


而真實占用的物理內(nèi)存要看 RES(resident) 列,這一列的值才是真正被映射到物理內(nèi)存的大小。


常用管理命令

我們也可以自己來管理 Linux 的虛擬內(nèi)存。


查看系統(tǒng)內(nèi)存狀態(tài)

查看系統(tǒng)內(nèi)存情況的方式有很多,free、 vmstat等命令都可輸出當前系統(tǒng)的內(nèi)存狀態(tài),需要注意的是可用內(nèi)存并不只是 free 這一列,由于操作系統(tǒng)的 lazy 特性,大量的 buffer/cache 在進程不再使用后,不會被立即清理,如果之前使用它們的進程再次運行還可以繼續(xù)使用,它們在必要時也是可以被利用的。


此外,通過 cat /proc/meminfo可以查看系統(tǒng)內(nèi)存被使用的詳細情況,包括臟頁狀態(tài)等。詳情可參見:/PROC/MEMINFO之謎。


pmap

如果想單獨查看某一進程的虛擬內(nèi)存分布情況,可以使用 pmap pid命令,它會把虛擬內(nèi)存各段的占用情況從低地址到高地址都列出來。


可以添加 -XX參數(shù)來輸出更詳細的信息。


修改內(nèi)存配置

我們也可以修改 Linux 的系統(tǒng)配置,使用 sysctl vm [-options] CONFIG或 直接讀寫 /proc/sys/vm/目錄下的文件來查看和修改配置。


SWAP 操作

虛擬內(nèi)存的 SWAP 特性并不總是有益,放任進程不停地將數(shù)據(jù)在內(nèi)存與磁盤之間大量交換會極大地占用 CPU,降低系統(tǒng)運行效率,所以有時候我們并不希望使用 swap。


我們可以修改 vm.swappiness=0來設(shè)置內(nèi)存盡量少使用 swap,或者干脆使用 swapoff命令禁用掉 SWAP。


小結(jié)

虛擬內(nèi)存的概念非常容易理解,但是它會衍生出來的一系列非常復(fù)雜的知識。本文只講了些基本原理,略過了很多細節(jié),比如虛擬內(nèi)存尋址中段寄存器的使用,操作系統(tǒng)使用虛擬內(nèi)存增強緩存、緩沖區(qū)的應(yīng)用等,有機會單獨拿出來說。



本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉