如何實(shí)現(xiàn)高性能的DSP處理

時(shí)間：2010-01-05 00:06:10

關(guān)鍵字： DSP 高速緩存指令外部存儲(chǔ)器

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]如何實(shí)現(xiàn)高性能的DSP處理

　應(yīng)用開發(fā)通常開始于在個(gè)人電腦或工作站編寫的C原型代碼，然后將代碼移植到嵌入式處理器中，并加以優(yōu)化。本系列文章則將這種層面的優(yōu)化在系統(tǒng)級(jí)擴(kuò)展到包括以下三方面的技術(shù)：內(nèi)存管理，DMA管理，系統(tǒng)中斷管理。這些優(yōu)化措施與程序代碼優(yōu)化同樣重要。

　　在大多數(shù)系統(tǒng)中，有很多的數(shù)據(jù)需要傳輸，并需要很高的數(shù)據(jù)傳輸速率。因此，你最終會(huì)混合使用處理器中的所有存儲(chǔ)器，如內(nèi)部存儲(chǔ)器和外部存儲(chǔ)器。

　　軟件架構(gòu)選擇

　　在開始設(shè)計(jì)之前，我們必須確定使用什么類型的軟件“架構(gòu)”，所謂架構(gòu)是在嵌入式系統(tǒng)中搬移程序代碼和數(shù)據(jù)的軟件底層結(jié)構(gòu)。由于架構(gòu)定義了使用多少存儲(chǔ)和其他系統(tǒng)資源，因此，架構(gòu)也影響系統(tǒng)的性能。設(shè)計(jì)的架構(gòu)也能反映某些性能特性、是否易于使用，以及其他應(yīng)用要求。軟件架構(gòu)劃分為以下幾類：高速實(shí)時(shí)處理；易編程要求優(yōu)于對(duì)性能的要求；以性能為第一考慮。

　　第一類高速實(shí)時(shí)處理架構(gòu)，對(duì)于安全性至關(guān)重要的應(yīng)用程序或沒有外部存儲(chǔ)器的系統(tǒng)是很理想的。在這種情況下，要么是無法忍受緩沖數(shù)據(jù)所需的時(shí)間，或者是沒有相應(yīng)的系統(tǒng)資源，由于沒有外部存儲(chǔ)器，故所有工作都需在片內(nèi)完成。在這種情況下，需要先讀取并處理數(shù)據(jù)，再進(jìn)行判決，然后刪除數(shù)據(jù)。然而，這里必須保證的是，在當(dāng)前幀的所有處理完成前正在使用的緩沖數(shù)據(jù)幀不會(huì)被覆蓋。

　　例如，車道偏離系統(tǒng)就是一個(gè)安全性至關(guān)重要的應(yīng)用。在這個(gè)系統(tǒng)中，通常不能在做出判斷前等待33毫秒的全幀數(shù)據(jù)，更好的做法是處理幀的一部分。例如，您可以從幀末尾處開始檢測車道，因此只需讀入數(shù)據(jù)幀末尾部分的數(shù)據(jù)。

　　第二種架構(gòu)通常用在是否易于編程是最重要的考慮因素的情況。這種架構(gòu)對(duì)于需要快速面市的應(yīng)用，以及需要迅速開發(fā)樣機(jī)和易于編程超過對(duì)性能的要求等應(yīng)用都是十分理想的，它也同樣降低了開發(fā)難度。

　　當(dāng)需要達(dá)到系統(tǒng)的最優(yōu)性能時(shí)，第三類架構(gòu)就是合適的選擇。由于重點(diǎn)是性能，所以需要對(duì)某些因素，諸如處理器、數(shù)據(jù)流、帶寬效率和優(yōu)化技術(shù)等的選擇，做仔細(xì)的考慮。然而，這種架構(gòu)的不足之處在于可復(fù)用性和可升級(jí)性方面有所降低。

　　在開發(fā)周期中，事先規(guī)劃好指令和數(shù)據(jù)流是十分重要的，這也包括對(duì)是否需要外部存儲(chǔ)器或者緩存做出重要決定。這樣，開發(fā)人員就可以集中精力利用處理器的結(jié)構(gòu)特點(diǎn)，并調(diào)整性能，而不需要重新審視初始設(shè)計(jì)。

　　高速緩存概述

　　高速緩存能夠以很快的存取時(shí)間(通常是單個(gè)周期)將指令和數(shù)據(jù)存儲(chǔ)在處理器片內(nèi)存儲(chǔ)器中。高速緩存的實(shí)現(xiàn)是因?yàn)闇p少了系統(tǒng)對(duì)單周期訪問的存儲(chǔ)器資源數(shù)量的需求?；诟咚倬彺娴奶幚砥鹘Y(jié)構(gòu)，開始時(shí)將數(shù)據(jù)放置在低成本的低速外部存儲(chǔ)器中，需要時(shí)，高速緩存可自動(dòng)地將其中的指令和數(shù)據(jù)傳輸?shù)教幚砥鞯钠瑑?nèi)存儲(chǔ)器。[!--empirenews.page--]

　　指令和數(shù)據(jù)高速緩存為Blackfin處理器核提供了最高帶寬的傳輸路徑，但高速緩存存在的問題是它不能預(yù)測程序接下來需要的究竟是哪些數(shù)據(jù)和指令，因此，高速緩存提供了一些功能，使用戶可以控制高速緩存的操作。在Blackfin處理器中一些關(guān)鍵的指令段就可以鎖定到高速指令緩存中，這樣在需要的時(shí)候可以直接使用。

　　值得注意的是，當(dāng)高速緩存決定需要保留哪些指令時(shí)，它會(huì)自動(dòng)保留最近使用最多的指令段。由于DSP軟件花費(fèi)大部分的時(shí)間在循環(huán)上，這樣DSP程序往往會(huì)重復(fù)訪問相同的指令。因此，在不需要任何用戶干預(yù)情況下，指令高速緩存可以大大提高系統(tǒng)性能。

　　此外，除了高速指令緩存的功能外，高速數(shù)據(jù)緩存還提供了“直寫”和“回寫”模式。在“直寫”模式中，在高速緩存中對(duì)數(shù)據(jù)的修改要傳送到外部存儲(chǔ)器中?？傊?，編程最好開始采用“回寫”模式，可以提高10-15％的效率，在大多數(shù)算法中，比“直寫”模式更加有效率。如果數(shù)據(jù)在多種資源中需要共享，由于要維護(hù)數(shù)據(jù)的一致性，因此采用“直寫”模式也是有用的。比如，在ADSP-BF561處理器中，要實(shí)現(xiàn)兩個(gè)處理器核數(shù)據(jù)的共享，則“直寫”模式就十分有用。在單核處理器中，如果DMA控制器和高速緩存訪問同樣的數(shù)據(jù)，這種模式也是有益的。

　　利用DMA提升性能

　　DMA是提高系統(tǒng)性能的另一個(gè)有效工具。因?yàn)镈MA的訪問獨(dú)立于處理器核，處理器核可以專注于處理數(shù)據(jù)。在理想的配置中，處理器核只需要設(shè)置DMA控制器，并在數(shù)據(jù)傳輸完畢時(shí)響應(yīng)中斷即可。

　　通常，高速外設(shè)和其他大多數(shù)外設(shè)都具有DMA傳輸能力。某些DMA控制器也允許外部存儲(chǔ)器與內(nèi)部存儲(chǔ)器，以及存儲(chǔ)器空間內(nèi)的數(shù)據(jù)傳遞。若設(shè)計(jì)者仔細(xì)地設(shè)計(jì)系統(tǒng)，將取得巨大的性能提升，因?yàn)槿魏蜠MA控制器傳輸?shù)臄?shù)據(jù)都不需要處理器核“操心”。

　　Blackfin處理器支持二維DMA的傳輸，如圖1所示。左側(cè)顯示的是輸入緩沖區(qū)數(shù)據(jù)，紅、綠、藍(lán)三基色數(shù)據(jù)交替放置。一維到二維的DMA轉(zhuǎn)換將交替的數(shù)據(jù)轉(zhuǎn)換成獨(dú)立的紅、綠、藍(lán)數(shù)據(jù)。圖1的左下角為讀入數(shù)據(jù)的偽程序代碼。如果沒有DMA控制器，這些數(shù)據(jù)傳輸就只能由處理器核完成。使用DMA 控制器后，則DMA負(fù)責(zé)數(shù)據(jù)傳輸，傳輸完畢并中斷處理器核，處理器核則可解放出來做其他任務(wù)，如數(shù)據(jù)處理等。

　　圖1：二維DMA存儲(chǔ)器訪問模式。[!--empirenews.page--]

　　DMA也可以與高速緩存聯(lián)合使用。通常，DMA傳輸首先將高速外設(shè)中的數(shù)據(jù)讀入到處理器的外部存儲(chǔ)器，數(shù)據(jù)高速緩存則將數(shù)據(jù)從外部存儲(chǔ)器讀入到處理器內(nèi)部。進(jìn)行這種操作通常需要使用“乒乓”緩沖器，一個(gè)緩沖區(qū)用于數(shù)據(jù)傳輸，另一個(gè)用于數(shù)據(jù)處理，圖2說明了這種操作方式。DMA控制器將數(shù)據(jù)傳輸?shù)?buffer0時(shí)，處理器核則訪問buffer1，反之亦然。

　　圖2：DMA和高速緩存聯(lián)合使用時(shí)數(shù)據(jù)一致性的維護(hù)。

　　當(dāng)聯(lián)合使用DMA和高速緩存時(shí)，維持DMA控制器讀入的數(shù)據(jù)與高速緩存中數(shù)據(jù)的一致性是很重要的，圖2說明了如何完成這一操作。當(dāng)外設(shè)生成新的數(shù)據(jù)，DMA控制器則將數(shù)據(jù)放置在一個(gè)新的緩沖區(qū)，并產(chǎn)生中斷，通知處理器核可以處理這些數(shù)據(jù)。當(dāng)處理器核處理該緩沖區(qū)數(shù)據(jù)前，與該緩沖區(qū)相應(yīng)的高速緩存行被設(shè)為無效，從而強(qiáng)制高速緩存從主存儲(chǔ)器中取出數(shù)據(jù)，這樣就可以確保一致性。這種方法主要的缺點(diǎn)是它不能達(dá)到單一DMA模型的性能，這里DMA控制器采用將緩沖區(qū)的數(shù)據(jù)直接讀入內(nèi)部存儲(chǔ)器的模式。

　　指令劃分

　　指令劃分(instruction partitioning)通常比較簡單。如果程序代碼能容納在內(nèi)部存儲(chǔ)器中，只需要關(guān)閉指令高速緩存，直接把程序代碼映射到內(nèi)部存儲(chǔ)器就可以獲得最大的效能。然而，多數(shù)應(yīng)用程序代碼不能全部容納在內(nèi)部存儲(chǔ)器中，所以必須打開高速指令緩存。

　　高速緩存容量通常小于外部存儲(chǔ)器，但這并不是一個(gè)問題，因?yàn)閷?duì)于多數(shù)嵌入式軟件，“通常20％的程序代碼的運(yùn)行時(shí)間占整個(gè)運(yùn)行時(shí)間的80％”。大多數(shù)情況下，最耗時(shí)間的程序代碼都很小，足夠放置到高速緩存中，所以高速緩存器能夠充分發(fā)揮其作用。

　　為了提高性能，還可以使用指令的線鎖機(jī)制(line-locking mechanism)，鎖定程序的最關(guān)鍵的部分代碼。如需要進(jìn)一步提高性能，可以關(guān)閉指令高速緩存并采用“存儲(chǔ)器覆蓋”的機(jī)制代替，該機(jī)制使用DMA將程序代碼傳輸?shù)揭粋€(gè)存儲(chǔ)器塊，而同時(shí)在另一個(gè)存儲(chǔ)器塊上執(zhí)行操作。

　　數(shù)據(jù)劃分

　　數(shù)據(jù)劃分通常沒有指令劃分那么簡單。和程序代碼劃分一樣，如果數(shù)據(jù)緩沖區(qū)可以被容納在內(nèi)部存儲(chǔ)器中，你就沒有多余的工作。如果不是，首要任務(wù)就是要區(qū)分靜態(tài)數(shù)據(jù)(如用于查找表)和動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)高速緩存在靜態(tài)數(shù)據(jù)方面使用較好，而DMA通常在動(dòng)態(tài)數(shù)據(jù)方面性能更佳。

　　即使使用了數(shù)據(jù)高速緩存，也通常需要設(shè)立一個(gè)外設(shè)DMA傳輸通道，將數(shù)據(jù)從外設(shè)傳輸?shù)酵獠看鎯?chǔ)器。如果采用了數(shù)據(jù)高速緩存，可以將這些數(shù)據(jù)讀入到內(nèi)部存儲(chǔ)器，只要在訪問數(shù)據(jù)前使高速緩存的緩沖區(qū)無效即可。如果正在使用DMA，則可以建立DMA傳輸，將數(shù)據(jù)從外部存儲(chǔ)器讀入到內(nèi)部存儲(chǔ)器。