如何實(shí)現(xiàn)高性能的DSP處理
應(yīng)用開發(fā)通常開始于在個(gè)人電腦或工作站編寫的C原型代碼,然后將代碼移植到嵌入式處理器中,并加以優(yōu)化。本系列文章則將這種層面的優(yōu)化在系統(tǒng)級(jí)擴(kuò)展到包括以下三方面的技術(shù):內(nèi)存管理,DMA管理,系統(tǒng)中斷管理。這些優(yōu)化措施與程序代碼優(yōu)化同樣重要。
在大多數(shù)系統(tǒng)中,有很多的數(shù)據(jù)需要傳輸,并需要很高的數(shù)據(jù)傳輸速率。因此,你最終會(huì)混合使用處理器中的所有存儲(chǔ)器,如內(nèi)部存儲(chǔ)器和外部存儲(chǔ)器。
軟件架構(gòu)選擇
在開始設(shè)計(jì)之前,我們必須確定使用什么類型的軟件“架構(gòu)”,所謂架構(gòu)是在嵌入式系統(tǒng)中搬移程序代碼和數(shù)據(jù)的軟件底層結(jié)構(gòu)。由于架構(gòu)定義了使用多少存儲(chǔ)和其他系統(tǒng)資源,因此,架構(gòu)也影響系統(tǒng)的性能。設(shè)計(jì)的架構(gòu)也能反映某些性能特性、是否易于使用,以及其他應(yīng)用要求。軟件架構(gòu)劃分為以下幾類:高速實(shí)時(shí)處理;易編程要求優(yōu)于對(duì)性能的要求;以性能為第一考慮。
第一類高速實(shí)時(shí)處理架構(gòu),對(duì)于安全性至關(guān)重要的應(yīng)用程序或沒有外部存儲(chǔ)器的系統(tǒng)是很理想的。在這種情況下,要么是無法忍受緩沖數(shù)據(jù)所需的時(shí)間,或者是沒有相應(yīng)的系統(tǒng)資源,由于沒有外部存儲(chǔ)器,故所有工作都需在片內(nèi)完成。在這種情況下,需要先讀取并處理數(shù)據(jù),再進(jìn)行判決,然后刪除數(shù)據(jù)。然而,這里必須保證的是,在當(dāng)前幀的所有處理完成前正在使用的緩沖數(shù)據(jù)幀不會(huì)被覆蓋。
例如,車道偏離系統(tǒng)就是一個(gè)安全性至關(guān)重要的應(yīng)用。在這個(gè)系統(tǒng)中,通常不能在做出判斷前等待33毫秒的全幀數(shù)據(jù),更好的做法是處理幀的一部分。例如,您可以從幀末尾處開始檢測(cè)車道,因此只需讀入數(shù)據(jù)幀末尾部分的數(shù)據(jù)。
第二種架構(gòu)通常用在是否易于編程是最重要的考慮因素的情況。這種架構(gòu)對(duì)于需要快速面市的應(yīng)用,以及需要迅速開發(fā)樣機(jī)和易于編程超過對(duì)性能的要求等應(yīng)用都是十分理想的,它也同樣降低了開發(fā)難度。
當(dāng)需要達(dá)到系統(tǒng)的最優(yōu)性能時(shí),第三類架構(gòu)就是合適的選擇。由于重點(diǎn)是性能,所以需要對(duì)某些因素,諸如處理器、數(shù)據(jù)流、帶寬效率和優(yōu)化技術(shù)等的選擇,做仔細(xì)的考慮。然而,這種架構(gòu)的不足之處在于可復(fù)用性和可升級(jí)性方面有所降低。
在開發(fā)周期中,事先規(guī)劃好指令和數(shù)據(jù)流是十分重要的,這也包括對(duì)是否需要外部存儲(chǔ)器或者緩存做出重要決定。這樣,開發(fā)人員就可以集中精力利用處理器的結(jié)構(gòu)特點(diǎn),并調(diào)整性能,而不需要重新審視初始設(shè)計(jì)。
高速緩存概述
高速緩存能夠以很快的存取時(shí)間(通常是單個(gè)周期)將指令和數(shù)據(jù)存儲(chǔ)在處理器片內(nèi)存儲(chǔ)器中。高速緩存的實(shí)現(xiàn)是因?yàn)闇p少了系統(tǒng)對(duì)單周期訪問的存儲(chǔ)器資源數(shù)量的需求?;诟咚倬彺娴奶幚砥鹘Y(jié)構(gòu),開始時(shí)將數(shù)據(jù)放置在低成本的低速外部存儲(chǔ)器中,需要時(shí),高速緩存可自動(dòng)地將其中的指令和數(shù)據(jù)傳輸?shù)教幚砥鞯钠瑑?nèi)存儲(chǔ)器。[!--empirenews.page--]
指令和數(shù)據(jù)高速緩存為Blackfin處理器核提供了最高帶寬的傳輸路徑,但高速緩存存在的問題是它不能預(yù)測(cè)程序接下來需要的究竟是哪些數(shù)據(jù)和指令,因此,高速緩存提供了一些功能,使用戶可以控制高速緩存的操作。在Blackfin處理器中一些關(guān)鍵的指令段就可以鎖定到高速指令緩存中,這樣在需要的時(shí)候可以直接使用。
值得注意的是,當(dāng)高速緩存決定需要保留哪些指令時(shí),它會(huì)自動(dòng)保留最近使用最多的指令段。由于DSP軟件花費(fèi)大部分的時(shí)間在循環(huán)上,這樣DSP程序往往會(huì)重復(fù)訪問相同的指令。因此,在不需要任何用戶干預(yù)情況下,指令高速緩存可以大大提高系統(tǒng)性能。
此外,除了高速指令緩存的功能外,高速數(shù)據(jù)緩存還提供了“直寫”和“回寫”模式。在“直寫”模式中,在高速緩存中對(duì)數(shù)據(jù)的修改要傳送到外部存儲(chǔ)器中??傊幊套詈瞄_始采用“回寫”模式,可以提高10-15%的效率,在大多數(shù)算法中,比“直寫”模式更加有效率。如果數(shù)據(jù)在多種資源中需要共享,由于要維護(hù)數(shù)據(jù)的一致性,因此采用“直寫”模式也是有用的。比如,在ADSP-BF561處理器中,要實(shí)現(xiàn)兩個(gè)處理器核數(shù)據(jù)的共享,則“直寫”模式就十分有用。在單核處理器中,如果DMA控制器和高速緩存訪問同樣的數(shù)據(jù),這種模式也是有益的。
利用DMA提升性能
DMA是提高系統(tǒng)性能的另一個(gè)有效工具。因?yàn)镈MA的訪問獨(dú)立于處理器核,處理器核可以專注于處理數(shù)據(jù)。在理想的配置中,處理器核只需要設(shè)置DMA控制器,并在數(shù)據(jù)傳輸完畢時(shí)響應(yīng)中斷即可。
通常,高速外設(shè)和其他大多數(shù)外設(shè)都具有DMA傳輸能力。某些DMA控制器也允許外部存儲(chǔ)器與內(nèi)部存儲(chǔ)器,以及存儲(chǔ)器空間內(nèi)的數(shù)據(jù)傳遞。若設(shè)計(jì)者仔細(xì)地設(shè)計(jì)系統(tǒng),將取得巨大的性能提升,因?yàn)槿魏蜠MA控制器傳輸?shù)臄?shù)據(jù)都不需要處理器核“操心”。
Blackfin處理器支持二維DMA的傳輸,如圖1所示。左側(cè)顯示的是輸入緩沖區(qū)數(shù)據(jù),紅、綠、藍(lán)三基色數(shù)據(jù)交替放置。一維到二維的DMA轉(zhuǎn)換將交替的數(shù)據(jù)轉(zhuǎn)換成獨(dú)立的紅、綠、藍(lán)數(shù)據(jù)。圖1的左下角為讀入數(shù)據(jù)的偽程序代碼。如果沒有DMA控制器,這些數(shù)據(jù)傳輸就只能由處理器核完成。使用DMA 控制器后,則DMA負(fù)責(zé)數(shù)據(jù)傳輸,傳輸完畢并中斷處理器核,處理器核則可解放出來做其他任務(wù),如數(shù)據(jù)處理等。
圖1:二維DMA存儲(chǔ)器訪問模式。[!--empirenews.page--]
DMA也可以與高速緩存聯(lián)合使用。通常,DMA傳輸首先將高速外設(shè)中的數(shù)據(jù)讀入到處理器的外部存儲(chǔ)器,數(shù)據(jù)高速緩存則將數(shù)據(jù)從外部存儲(chǔ)器讀入到處理器內(nèi)部。進(jìn)行這種操作通常需要使用“乒乓”緩沖器,一個(gè)緩沖區(qū)用于數(shù)據(jù)傳輸,另一個(gè)用于數(shù)據(jù)處理,圖2說明了這種操作方式。DMA控制器將數(shù)據(jù)傳輸?shù)?buffer0時(shí),處理器核則訪問buffer1,反之亦然。
圖2:DMA和高速緩存聯(lián)合使用時(shí)數(shù)據(jù)一致性的維護(hù)。
當(dāng)聯(lián)合使用DMA和高速緩存時(shí),維持DMA控制器讀入的數(shù)據(jù)與高速緩存中數(shù)據(jù)的一致性是很重要的,圖2說明了如何完成這一操作。當(dāng)外設(shè)生成新的數(shù)據(jù),DMA控制器則將數(shù)據(jù)放置在一個(gè)新的緩沖區(qū),并產(chǎn)生中斷,通知處理器核可以處理這些數(shù)據(jù)。當(dāng)處理器核處理該緩沖區(qū)數(shù)據(jù)前,與該緩沖區(qū)相應(yīng)的高速緩存行被設(shè)為無效,從而強(qiáng)制高速緩存從主存儲(chǔ)器中取出數(shù)據(jù),這樣就可以確保一致性。這種方法主要的缺點(diǎn)是它不能達(dá)到單一DMA模型的性能,這里DMA控制器采用將緩沖區(qū)的數(shù)據(jù)直接讀入內(nèi)部存儲(chǔ)器的模式。
指令劃分
指令劃分(instruction partitioning)通常比較簡(jiǎn)單。如果程序代碼能容納在內(nèi)部存儲(chǔ)器中,只需要關(guān)閉指令高速緩存,直接把程序代碼映射到內(nèi)部存儲(chǔ)器就可以獲得最大的效能。然而,多數(shù)應(yīng)用程序代碼不能全部容納在內(nèi)部存儲(chǔ)器中,所以必須打開高速指令緩存。
高速緩存容量通常小于外部存儲(chǔ)器,但這并不是一個(gè)問題,因?yàn)閷?duì)于多數(shù)嵌入式軟件,“通常20%的程序代碼的運(yùn)行時(shí)間占整個(gè)運(yùn)行時(shí)間的80%”。大多數(shù)情況下,最耗時(shí)間的程序代碼都很小,足夠放置到高速緩存中,所以高速緩存器能夠充分發(fā)揮其作用。
為了提高性能,還可以使用指令的線鎖機(jī)制(line-locking mechanism),鎖定程序的最關(guān)鍵的部分代碼。如需要進(jìn)一步提高性能,可以關(guān)閉指令高速緩存并采用“存儲(chǔ)器覆蓋”的機(jī)制代替,該機(jī)制使用DMA將程序代碼傳輸?shù)揭粋€(gè)存儲(chǔ)器塊,而同時(shí)在另一個(gè)存儲(chǔ)器塊上執(zhí)行操作。
數(shù)據(jù)劃分
數(shù)據(jù)劃分通常沒有指令劃分那么簡(jiǎn)單。和程序代碼劃分一樣,如果數(shù)據(jù)緩沖區(qū)可以被容納在內(nèi)部存儲(chǔ)器中,你就沒有多余的工作。如果不是,首要任務(wù)就是要區(qū)分靜態(tài)數(shù)據(jù)(如用于查找表)和動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)高速緩存在靜態(tài)數(shù)據(jù)方面使用較好,而DMA通常在動(dòng)態(tài)數(shù)據(jù)方面性能更佳。
即使使用了數(shù)據(jù)高速緩存,也通常需要設(shè)立一個(gè)外設(shè)DMA傳輸通道,將數(shù)據(jù)從外設(shè)傳輸?shù)酵獠看鎯?chǔ)器。如果采用了數(shù)據(jù)高速緩存,可以將這些數(shù)據(jù)讀入到內(nèi)部存儲(chǔ)器,只要在訪問數(shù)據(jù)前使高速緩存的緩沖區(qū)無效即可。如果正在使用DMA,則可以建立DMA傳輸,將數(shù)據(jù)從外部存儲(chǔ)器讀入到內(nèi)部存儲(chǔ)器。