當(dāng)前位置:首頁 > 公眾號(hào)精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]來自:武培軒 本文主要來學(xué)習(xí)內(nèi)存屏障和 CPU 緩存知識(shí),以便于我們?nèi)チ私?CPU 對(duì)程序性能優(yōu)化做了哪些努力。 首先來看下 CPU 緩存: CPU 緩存 CPU 緩存是為了提高程序運(yùn)行的性能,CPU 在很多處理上內(nèi)部架構(gòu)做了很多調(diào)整,比如 CPU 高速緩存,大家都知道因?yàn)橛?

原來 CPU 為程序性能優(yōu)化做了這么多

來自:武培軒

本文主要來學(xué)習(xí)內(nèi)存屏障和 CPU 緩存知識(shí),以便于我們?nèi)チ私?CPU 對(duì)程序性能優(yōu)化做了哪些努力。

首先來看下 CPU 緩存:

CPU 緩存

CPU 緩存是為了提高程序運(yùn)行的性能,CPU 在很多處理上內(nèi)部架構(gòu)做了很多調(diào)整,比如 CPU 高速緩存,大家都知道因?yàn)橛脖P很慢,可以通過緩存把數(shù)據(jù)加載到內(nèi)存里面,提高訪問速度,而 CPU 處理也有這個(gè)機(jī)制,盡可能把處理器訪問主內(nèi)存時(shí)間開銷放在 CPU 高速緩存上面,CPU 訪問速度相比內(nèi)存訪問速度又要快好多倍,這就是目前大多數(shù)處理器都會(huì)去利用的機(jī)制,利用處理器的緩存以提高性能。

原來 CPU 為程序性能優(yōu)化做了這么多

多級(jí)緩存

CPU 的緩存分為三級(jí)緩存,所以說多核 CPU 會(huì)有多個(gè)緩存,我們首先來看下一級(jí)緩存(L1 Cache):

L1 Cache 是 CPU 第一層高速緩存,分為數(shù)據(jù)緩存和指令緩存,一般服務(wù)器 CPU 的 L1 緩存的容量通常在 32-4096 KB。

由于 L1 級(jí)高速緩存容量的限制,為了再次提高 CPU 的運(yùn)算速度,在 CPU 外部放置-高速存儲(chǔ)器,即二級(jí)緩存(L2 Cache)。

因?yàn)?L1L2 的容量還是有限,因此提出了三級(jí)緩存,L3 現(xiàn)在的都是內(nèi)置的,它的實(shí)際作用即是,L3 緩存的應(yīng)用可以進(jìn)一步降低內(nèi)存延遲,同時(shí)提升大數(shù)據(jù)量計(jì)算時(shí)處理器的性能,具有較大 L3 緩存的處理器提供更有效的文件系統(tǒng)緩存行為及較短消息和處理器隊(duì)列長度,一般是多核共享一個(gè) L3 緩存。

CPU 在讀取數(shù)據(jù)時(shí),先在 L1 Cache 中尋找,再從 L2 Cache 尋找,再從 L3 Cache 尋找,然后是內(nèi)存,再后是外存儲(chǔ)器硬盤尋找。

如下圖所示,CPU 緩存架構(gòu)中,緩存層級(jí)越接近 CPU core,容量越小,速度越快。CPU Cache 由若干緩存行組成,緩存行是 CPU Cache 中的最小單位,一個(gè)緩存行的大小通常是 64 字節(jié),是 2 的倍數(shù),不同的機(jī)器上為 32 到 64 字節(jié)不等,并且它有效地引用主內(nèi)存中的一塊地址。

原來 CPU 為程序性能優(yōu)化做了這么多
CPU 緩存架構(gòu)

多 CPU 讀取同樣的數(shù)據(jù)進(jìn)行緩存,進(jìn)行不同運(yùn)算之后,最終寫入主內(nèi)存以哪個(gè) CPU 為準(zhǔn)?這就需要緩存同步協(xié)議了:

緩存同步協(xié)議

在這種高速緩存回寫的場景下,有很多 CPU 廠商提出了一些公共的協(xié)議-MESI 協(xié)議,它規(guī)定每條緩存有個(gè)狀態(tài)位,同時(shí)定義了下面四個(gè)狀態(tài):

  • 修改態(tài)(Modified):此 cache 行已被修改過(臟行),內(nèi)容已不同于主存,為此 cache 專有;
  • 專有態(tài)(Exclusive):此 cache 行內(nèi)容同于主存,但不出現(xiàn)于其它 cache 中;
  • 共享態(tài)(Shared):此 cache 行內(nèi)容同于主存,但也出現(xiàn)于其它 cache 中;
  • 無效態(tài)(Invalid):此 cache 行內(nèi)容無效(空行)。

多處理器,單個(gè) CPU 對(duì)緩存中數(shù)據(jù)進(jìn)行了改動(dòng),需要通知給其它 CPU,也就是意味著,CPU 處理要控制自己的讀寫操作,還要監(jiān)聽其他 CPU 發(fā)出的通知,從而保證最終一致。

運(yùn)行時(shí)的指令重排

CPU 對(duì)性能的優(yōu)化除了緩存之外還有運(yùn)行時(shí)指令重排,大家可以通過下面的圖了解下:

原來 CPU 為程序性能優(yōu)化做了這么多

比如圖中有代碼 x = 10;y = z;,這個(gè)代碼的正常執(zhí)行順序應(yīng)該是先將 10 寫入 x,讀取 z 的值,然后將 z 值寫入 y,實(shí)際上真實(shí)執(zhí)行步驟,CPU 執(zhí)行的時(shí)候可能是先讀取 z 的值,將 z 值寫入 y,最后再將 10 寫入 x,為什么要做這些修改呢?

因?yàn)楫?dāng) CPU 寫緩存時(shí)發(fā)現(xiàn)緩存區(qū)正被其他 CPU 占用(例如:三級(jí)緩存),為了提高 CPU 處理性能,可能將后面的讀緩存命令優(yōu)先執(zhí)行。

指令重排并非隨便重排,是需要遵守 as-if-serial 語義的,as-if-serial 語義的意思是指不管怎么重排序(編譯器和處理器為了提高并行度),單線程程序的執(zhí)行結(jié)果不能被改變。編譯器,runtime 和處理器都必須遵守 as-if-serial 語義,也就是說編譯器和處理器不會(huì)對(duì)存在數(shù)據(jù)依賴關(guān)系的操作做重排序。

那么這樣就會(huì)有如下兩個(gè)問題:

  1. CPU 高速緩存下有一個(gè)問題:

緩存中的數(shù)據(jù)與主內(nèi)存的數(shù)據(jù)并不是實(shí)時(shí)同步的,各 CPU(或 CPU 核心)間緩存的數(shù)據(jù)也不是實(shí)時(shí)同步。在同一個(gè)時(shí)間點(diǎn),各 CPU 所看到同一內(nèi)存地址的數(shù)據(jù)的值可能是不一致的

  1. CPU 執(zhí)行指令重排序優(yōu)化下有一個(gè)問題:

雖然遵守了 as-if-serial語義,僅在單 CPU 自己執(zhí)行的情況下能保證結(jié)果正確。多核多線程中,指令邏輯無法分辨因果關(guān)聯(lián),可能出現(xiàn)亂序執(zhí)行,導(dǎo)致程序運(yùn)行結(jié)果錯(cuò)誤。

如何解決上述的兩個(gè)問題呢,這就需要談到內(nèi)存屏障

內(nèi)存屏障

處理器提供了兩個(gè)內(nèi)存屏障(Memory Barrier) 指令用于解決上述兩個(gè)問題:

寫內(nèi)存屏障(Store Memory Barrier):在指令后插入 Store Barrier,能讓寫入緩存中的最新數(shù)據(jù)更新寫入主內(nèi)存,讓其他線程可見。強(qiáng)制寫入主內(nèi)存,這種顯示調(diào)用,CPU 就不會(huì)因?yàn)樾阅芸紤]而去對(duì)指令重排。

讀內(nèi)存屏障(Load Memory Barrier):在指令前插入 Load Barrier,可以讓高速緩存中的數(shù)據(jù)失效,強(qiáng)制從新的主內(nèi)存加載數(shù)據(jù)。強(qiáng)制讀取主內(nèi)存內(nèi)容,讓 CPU 緩存與主內(nèi)存保持一致,避免了緩存導(dǎo)致的一致性問題。

Java 中也有類似的機(jī)制,比如 Synchronizedvolatile 都采用了內(nèi)存屏障的原理。

總結(jié)

本文主要介紹了在提高程序運(yùn)行性能上,CPU 作出了哪些優(yōu)化:緩存和運(yùn)行時(shí)指令重排,最后還介紹了內(nèi)存屏障相關(guān)知識(shí)。

http://dwz.win/7ps

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:

原來 CPU 為程序性能優(yōu)化做了這么多

長按訂閱更多精彩▼

原來 CPU 為程序性能優(yōu)化做了這么多

如有收獲,點(diǎn)個(gè)在看,誠摯感謝


免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場,如有問題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉