123,123,123

[導讀]在計算機系統(tǒng)中，CPU高速緩存(英語：CPU Cache，在本文中簡稱緩存)是用于減少處理器訪問內存所需平均時間的部件。在金字塔式存儲體系中它位于自頂向下的第二層，僅次于CPU寄存器。

在計算機系統(tǒng)中，CPU 高速緩存(英語：CPU Cache，在本文中簡稱緩存)是用于減少處理器訪問內存所需平均時間的部件。在金字塔式存儲體系中它位于自頂向下的第二層，僅次于CPU寄存器。其容量遠小于內存，但速度卻可以接近處理器的頻率。當處理器發(fā)出內存訪問請求時，會先查看緩存內是否有請求數據。如果存在(命中)，則不經訪問內存直接返回該數據;如果不存在(失效)，則要先把內存中的相應數據載入緩存，再將其返回處理器。緩存之所以有效，主要是因為程序運行時對內存的訪問呈現(xiàn)局部性(Locality)特征。這種局部性既包括空間局部性(Spatial Locality)，也包括時間局部性(Temporal Locality)。有效利用這種局部性，緩存可以達到極高的命中率。在處理器看來，緩存是一個透明部件。因此，程序員通常無法直接干預對緩存的操作。但是，確實可以根據緩存的特點對程序代碼實施特定優(yōu)化，從而更好地利用緩存。

我們知道計算機中為了平衡CPU的寄存器和內存的速度差異，CPU 引入了高速緩存CPU Cache，前面我們介紹了什么是CPU Cache，以及CPU Cache的組織架構，本文我們來看看CPU Cache的是如何保證緩存一致性的?

系列文章：突破計算機性能瓶頸的利器CPU CacheCPU Cache是如何映射與尋址的?

單核CPU

在上一篇文章CPU Cache是如何映射與尋址的?中，我們介紹了CPU Cache的組織架構及其進行讀操作時的尋址方式，但是緩存不僅僅只有讀操作，還有寫操作，這會帶來一個新的問題：

當CPU是單核的情況下，CPU執(zhí)行寫入數據操作，當數據寫入CPU Cache之后，此時CPU Cache數據會和內存數據就不一致了(這里前提條件：CPU Cache數據和內存數據原本是一致的)，那么如何保證Cache和內存保持數據一致?

主要有兩種寫入數據的策略：

Write Through寫直達

Write Back寫回

Write Through寫直達

Write Through寫直達是一個比較簡單的寫入策略，顧名思義就是每次CPU執(zhí)行寫操作，如果緩存命中，將數據更新到緩存，同時將數據更新到內存中，來保證Cache 數據和內存數據一致;如果緩存沒有命中，就直接更新內存

這個策略優(yōu)點是簡單可靠，但是速度較慢，可以從上圖看出，每次寫操作都需要與內存接觸，此時緩存失去意義了，當然讀操作時緩存還是能起作用的

Write Back寫回

Write Back寫回，也被稱為延遲寫入，相比于Write Through寫直達策略每次寫操作都需要內存參與;而Write Back策略則是，CPU向緩存寫入數據時，只是把更新的cache區(qū)標記為dirty臟(即Cache Line增加 dirty臟的標記位 ** )，即來表示該Cache Line的數據，和內存中的數據是不一致的，并不同步寫入內存**

也就是說對內存的寫入操作會被推遲，直到當這個Cache Line要被刷入新的數據時，才將Cache Line的數據回寫到內存中

如今CPU Cache更多地采用write back寫回的方式，寫回的核心就是盡可能減少回寫內存的次數，來提升CPU性能，缺點就是實現(xiàn)起來比較復雜

我們來看下它的具體流程是：當CPU發(fā)起寫入操作請求時，如果緩存命中，就直接更新 CPU Cache 里面的數據，并把更新的Cache區(qū)標記為dirty臟

若緩存未命中的話，再判斷緩存區(qū)已滿或者定位到的Cache Line已被占用，緩存就會執(zhí)行替換策略，常見的策略有：隨機替換RR、先進先出FIFO、最近最少使用LRU等，我們后文再詳細介紹;

當被替換的Cache Line被標記為臟，也就是該Cache Line的數據，和內存中的數據是不一致的，此時會觸發(fā)操作：將Cache Line中的數據回寫到內存中;然后，再把當前要寫入的數據，寫入到 Cache里，同時把Cache Line標記成臟

如果Cache Line的數據沒有被標記成臟的、緩存區(qū)未滿、定位到的Cache Line未被占用，那么直接把數據寫入到 Cache 里面，同時把Cache Line標記成臟

隨機替換 (Random Replacement，RR) ，顧名思義就是隨機選擇被替換的緩存塊

實現(xiàn)簡單，在緩存大小較大時表現(xiàn)良好，能夠減少緩存替換的次數，提高緩存命中率

但是沒有利用 “局部性原理”，無法提高緩存命中率;且算法性能不穩(wěn)定，在緩存大小較小時，隨機替換可能導致頻繁的緩存替換，降低了緩存的命中率

FIFO

先進先出(First-In-First-Out, FIFO)，根據數據進入緩存的順序，每次將最早進入緩存的數據先出去，也就是先進入緩存的數據先被淘汰。

實現(xiàn)簡單，適合短期的緩存數據;但不合適長期存儲數據的場景，緩存中的數據可能早已經過時;當緩存大小不足時，容易產生替換過多的情況，從而降低了緩存的效率

FIFO 算法存在Belady貝萊迪現(xiàn)象：在某些情況下，緩存容量增大，命中率反而降低。概率比較小，但是危害是無限的

貝萊迪在1969年研究FIFO算法時，發(fā)現(xiàn)了一個反例，使用4個頁框時的缺頁次數比3個頁框時的缺頁多，由于在同一時刻，使用4個頁框時緩存中保存的頁面并不完全包含使用3個頁框時保存的頁面，二者不是超集子集關系，造成都某些特殊的頁面請求序列，4個頁框命中率反而低

CPU緩存的容量比內存小的多但是交換速度卻比內存要快得多。緩存的出現(xiàn)主要是為了解決CPU運算速度與內存讀寫速度不匹配的矛盾，因為CPU運算速度要比內存讀寫速度快很多，這樣會使CPU花費很長時間等待數據到來或把數據寫入內存?！? [1]緩存大小是CPU的重要指標之一，而且緩存的結構和大小對CPU速度的影響非常大，CPU內緩存的運行頻率極高，一般是和處理器同頻運作，工作效率遠遠大于系統(tǒng)內存和硬盤。實際工作時，CPU往往需要重復讀取同樣的數據塊，而緩存容量的增大，可以大幅度提升CPU內部讀取數據的命中率，而不用再到內存或者硬盤上尋找，以此提高系統(tǒng)性能。但是從CPU芯片面積和成本的因素來考慮，緩存都很小。按照數據讀取順序和與CPU結合的緊密程度，CPU緩存可以分為一級緩存，二級緩存，部分高端CPU還具有三級緩存，每一級緩存中所儲存的全部數據都是下一級緩存的一部分，這三種緩存的技術難度和制造成本是相對遞減的，所以其容量也是相對遞增的。當CPU要讀取一個數據時，首先從一級緩存中查找，如果沒有找到再從二級緩存中查找，如果還是沒有就從三級緩存或內存中查找。一般來說，每級緩存的命中率大概都在80%左右，也就是說全部數據量的80%都可以在一級緩存中找到，只剩下20%的總數據量才需要從二級緩存、三級緩存或內存中讀取，由此可見一級緩存是整個CPU緩存架構中最為重要的部分。