多核嵌入式系統(tǒng)的節(jié)能機遇與策略

時間：2018-06-11 18:00:02

關(guān)鍵字： tba 中斷請求多核嵌入式開發(fā) 嵌入式系統(tǒng) 陷阱邏輯單元

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]本文列舉了多核嵌入式系統(tǒng)存在的一些主要局限，并對解決這些局限的可行方案進行了探討。將以一些嵌入式系統(tǒng)為例，指出利用現(xiàn)有架構(gòu)改進系統(tǒng)節(jié)能效果的機遇。

本文列舉了多核嵌入式系統(tǒng)存在的一些主要局限，并對解決這些局限的可行方案進行了探討。將以一些嵌入式系統(tǒng)為例，指出利用現(xiàn)有架構(gòu)改進系統(tǒng)節(jié)能效果的機遇。多核處理器與新興的嵌入式平臺的結(jié)合能夠滿足現(xiàn)代嵌入式應(yīng)用所需的高計算能力。但是，此類嵌入式應(yīng)用需要進行高頻切換，這將導(dǎo)致功耗較大、芯片溫度過高，以及電源接地噪聲。開發(fā)人員可以通過本文找出改進現(xiàn)代嵌入式系統(tǒng)節(jié)能效果的機會，并了解實現(xiàn)電源效率最大化的可行方案。

多核處理器的自主節(jié)能

本文以甲骨文（Oracle）/SunMicrosystem公司的UltraSPARC T1處理器為例展開論述。選擇UltraSPARC T1的原因是，其設(shè)計源代碼、仿真工具及設(shè)計驗證套件均為開源，而且可以從Oracle公司網(wǎng)站上下載。本文將利用此案例討論從哪方面以及通過何種方式實現(xiàn)節(jié)能。

圖1顯示了與處理器每個內(nèi)核相關(guān)的陷阱邏輯單元。陷阱實現(xiàn)了軟件從低級到高級特權(quán)模式（例如從用戶模式到管理或監(jiān)督模式）的控制矢量傳遞。就UltraSPARC T1處理器而言，Tcc指令以及因指令引起的異常、復(fù)位、異步錯誤或中斷請求均會導(dǎo)致陷阱的發(fā)生。

圖1：陷阱邏輯單元

通常，陷阱會導(dǎo)致SPARC流水線被沖刷（Flush）。處理器狀態(tài)將被存儲在陷阱寄存器堆棧中，而陷阱處理程序代碼則將被執(zhí)行?？刂频膶嶋H傳遞是通過含有每個陷阱處理程序前八個指令的陷阱表來實現(xiàn)的。用于將陷阱傳遞到特權(quán)模式中的表格的虛擬基址在陷阱基址（TBA）寄存器中被指定。表格中的位移則取決于陷阱的類型和當前的陷阱級別。當遇到DONE（完成）或RETRY（重試）指令時，陷阱處理程序代碼執(zhí)行完畢。陷阱可能與SPARC內(nèi)核流水線同步或異步。圖2顯示了與SPARC內(nèi)核其他硬件模塊相關(guān)的TLU中的陷阱控制和數(shù)據(jù)流。從IFU、EXU、LSU及TLU傳入的陷阱的優(yōu)先級最先被解析，解析的陷阱類型被確定。根據(jù)陷阱類型，以及在隊列中沒有其他更高優(yōu)先級的中斷或異步陷阱待處理的情況下，系統(tǒng)將向LSU發(fā)送沖刷信號，以提交之前未完成的所有命令。此外，陷阱類型也決定了什么樣的處理器狀態(tài)寄存器需要被存儲到陷阱寄存器堆棧中。之后，將選擇陷阱基址并將其發(fā)往流水線做進一步執(zhí)行。

圖2：芯片框圖

圖2顯示了多核嵌入式處理器的芯片布局。該處理器有可變數(shù)量的內(nèi)核、L2緩存體（bank）、內(nèi)核外浮點單元（FPU）及輸入輸出邏輯，而且它們通過芯片上的網(wǎng)絡(luò)互連。在CASPER仿真環(huán)境中，設(shè)計師可以對各種架構(gòu)參數(shù)進行修改。

節(jié)能機遇

對于上述多核嵌入式處理器，已確定了以下內(nèi)核級和芯片級節(jié)能候選元素（PSC）：

1.寄存器文件，即線程專用單元。每個線程都有一個160雙字（64位）的寄存器文件，而且當線程的某個任務(wù)被阻塞或空轉(zhuǎn)時可以節(jié)省大量功耗。

2.數(shù)據(jù)緩存未命中時，用以排列數(shù)據(jù)的加載未命中隊列（LMQ）。線程之間可以共享加載未命中隊列，但通過這種方法節(jié)省的功耗較少。

3.分支預(yù)測器。分支歷史表可以是線程專用的，因此可以節(jié)省大量功耗。

4.當內(nèi)核中所有線程的所有任務(wù)發(fā)生阻塞或空閑時，或沒有任務(wù)被調(diào)度到內(nèi)核中的任何線程時，整個內(nèi)核可以節(jié)省大量功耗。

5.內(nèi)核中用于硬件和軟件中斷的陷阱單元。研究結(jié)果顯示，在UltraSPARC T1處理器中，用于典型SPECJBB網(wǎng)絡(luò)處理應(yīng)用的陷阱指令在所有指令中所占的百分比還不到1%.這表明，陷阱單元是非常好的潛在節(jié)能元素。請注意，雖然在大部分時間內(nèi)其余的陷阱邏輯可能處在節(jié)能模式下，接收陷阱的輸入接收隊列需一直保持在活躍狀態(tài)，但隊列的功耗可以忽略不計。

6.在緩存體和輸入輸出緩沖器之間控制數(shù)據(jù)流的用于L2緩存的DMA控制器。

7.內(nèi)核和L2緩存體之間的命令和數(shù)據(jù)隊列。

8.當需要訪問片外緩存或主存儲器時，只有在片上L2緩存有緩存未命中時才會被激活的緩存未命中路徑邏輯。

節(jié)能策略

基于上述PSC制定出的自主硬件節(jié)能方案包括電源門控（數(shù)據(jù)不被保留）、時鐘門控（數(shù)據(jù)在正常操作時被保留）和DVFS（同步電壓及頻率調(diào)整）。DVFS僅用于整個內(nèi)核，或類似于DMS控制器、互連網(wǎng)絡(luò)、緩存體、輸入輸出緩沖器或FPU的片上計算單元這樣的一個芯片級組件（圖3）。但是，對于內(nèi)核中的組件和芯片級組件而言，電源和時鐘門控均適用。圖4顯示了推薦的核內(nèi)（局部電源管理）級和全局芯片級分層節(jié)能架構(gòu)。在圖4中的虛線上方，局部電源管理單元在內(nèi)核中運行，對電源狀態(tài)寄存器（PSR，與不同的PSC相關(guān)）中的內(nèi)容進行監(jiān)控，執(zhí)行節(jié)能算法，以及對相應(yīng)電源控制寄存器（PCR）當中的數(shù)值進行修改以激活或關(guān)閉節(jié)能模式。片上模擬電壓調(diào)節(jié)器和時鐘調(diào)節(jié)器將讀取PCR中的內(nèi)容，并通過讀取的數(shù)據(jù)對PSC上的DVFS、電源門控、時鐘門控進行控制。請注意，LPMU并不直接控制整個內(nèi)核中的節(jié)能單元（如DVFS）。反之，LPMU將通過內(nèi)核控制狀態(tài)寄存器（CSR）向全局電源管理單元（GPMU）發(fā)送信號，CSR轉(zhuǎn)而通過內(nèi)核控制寄存器（CCR）實現(xiàn)內(nèi)核級節(jié)能。內(nèi)核中的電源狀態(tài)寄存器通過陷阱邏輯和解碼器進行更新，當需要進行特定中斷服務(wù)或要對特定指令進行解碼時，陷阱邏輯和解碼器將會發(fā)出PSC即將激活的信號。同樣，PSC也可以對自身的PSR進行更新，從而在系統(tǒng)長時間不工作（空閑或阻塞狀態(tài)，最好在內(nèi)核中對其進行局部監(jiān)控）時發(fā)出即將節(jié)能的信號。

圖3：自主硬件節(jié)能邏輯的架構(gòu)

圖4：全局電源管理單元

在圖4中的虛線下方及內(nèi)核外部是芯片級GPMU，它將會讀取片上傳感器上熱點和電源接地噪聲（它們是全局可觀測現(xiàn)象）的數(shù)據(jù)，并為內(nèi)核及其他芯片級組件做出相應(yīng)的智能節(jié)能決定。GPMU通過內(nèi)核狀態(tài)寄存器（CSR）和內(nèi)核控制寄存器（CCR）與內(nèi)核及其他組件進行交互。整個內(nèi)核的電源門控、時鐘門控以及DVFS通過GPMU進行控制。圖5展示了GPMU的交互（CR和SR分別表示控制寄存器和狀態(tài)寄存器）。請注意，本文在邏輯上將所有芯片級組件都視為內(nèi)核。

案例研究：英特爾迅馳中的節(jié)能

英特爾迅馳雙核處理器（Core Duo）局部采用了自主電源管理方案，它是英特爾公司針對移動市場開發(fā)的首款通用芯片多處理（CMP）商用嵌入式處理器。這種內(nèi)核可實現(xiàn)兩個主要目標：首先，在平臺所能承受的最高溫度下實現(xiàn)性能的最大化；其次，電池的續(xù)航能力比前幾代處理器更強。

操作系統(tǒng)將英特爾雙核處理器視為兩個獨立的執(zhí)行單元，但在與電源管理相關(guān)的所有操作中，平臺則將整個處理器視為單一實體。英特爾選擇將內(nèi)核電源管理與整個CPU和平臺的電源管理分開。為了實現(xiàn)這個目標，必須讓電源及溫度控制單元成為內(nèi)核邏輯單元的一部分，而不是像以往那樣作為芯片組的一部分。將電源及溫度管理數(shù)據(jù)流遷移至處理器后，就可以采用一種允許所有內(nèi)核根據(jù)自身需求請求節(jié)能狀態(tài)的硬件協(xié)調(diào)機制，從而最大化單個內(nèi)核的節(jié)能效果。CPU將按照兩個內(nèi)核請求中的最低標準確定并進入相應(yīng)的節(jié)能狀態(tài)，例如芯片組電源管理硬件和數(shù)據(jù)流的單一CPU實體。由此，軟件可以按照ACPI協(xié)議對每個內(nèi)核單獨進行管理，而實際的電源管理則遵守平臺和CPU的共享資源限制條件。多核處理器內(nèi)核之間的相關(guān)性較復(fù)雜，內(nèi)核對系統(tǒng)級參數(shù)的作用還不確定，而且ACPI電源管理協(xié)議也不是針對如此復(fù)雜的多核處理器而開發(fā)的。因此，需要開發(fā)一種新型的電源管理方案，這樣的方案必須能在新興的多核嵌入式處理器中將硬件節(jié)能邏輯和由操作系統(tǒng)控制的調(diào)度更好地整合到一起。

英特爾推出的雙核處理器被分割成三個域。內(nèi)核、各內(nèi)核的一級緩存以及局部溫度管理邏輯單元作為電源管理域獨立運行。此外，包括二級緩存、總線接口及中斷控制器在內(nèi)的共享資源形成另一個電源管理域。所有域?qū)⒐蚕硗粋€電源平面和同一個單核PLL，因此均在相同的頻率和電平下運行。與細粒度節(jié)能方案相比，這是一個基本限制。但是，每個域都有獨立的時鐘分配（主干（spine））。內(nèi)核的時鐘分布主線單獨進行門控，從而實現(xiàn)最基本的內(nèi)核級節(jié)能方案。只有在兩個內(nèi)核都處在空閑狀態(tài)且沒有共享操作（總線操作和緩存訪問）的情況下，才能對資源共享主干進行門控。若需要，即使在兩個內(nèi)核的時鐘都停止的情況下，也可以將資源共享時鐘保持在活躍狀態(tài)，以便進行L2偵聽和中斷控制器信息分析。英特爾Core Duo技術(shù)還引入了包括L2動態(tài)調(diào)整在內(nèi)的增強型電源管理特性。為了實現(xiàn)節(jié)能，系統(tǒng)必須進入更低電壓的空閑狀態(tài)，而為了達到這一目的，必須動態(tài)地調(diào)整/關(guān)閉L2緩存，從而為DeepC4狀態(tài)做準備。