基于Shared Memory 的多核算法處理系統(tǒng)及實(shí)現(xiàn)
隨著電子產(chǎn)業(yè).工商業(yè)以及軍事化產(chǎn)業(yè)的迅猛發(fā)展,越來越多的復(fù)雜運(yùn)算已經(jīng)無法單純利用算法上的優(yōu)化處理來大幅提升執(zhí)行速度.為了解決日益復(fù)雜的計(jì)算問題,利用多核處理勢必成為一種大勢所趨.所以著手從多核和單核對比出發(fā),利用Xilinx 的XUP Virtex-2 Pro建立多核處理平臺(基于Shared Memory通信機(jī)制)以及單核平臺,并將相同的圖像處理算法DCT分別運(yùn)行在所構(gòu)造的基于FPGA的單核和多核硬件平臺上,觀察實(shí)驗(yàn)結(jié)果,比較多核和單核運(yùn)行所需的時間以及資源的消耗,最終的結(jié)果有力的說明多核在圖像處理方面的絕對優(yōu)勢.
0
基于FPGA的嵌入式應(yīng)用在近幾年來作為一個比較新穎的課題,已經(jīng)在通信.消費(fèi)電子.醫(yī)療.工業(yè)和軍事等諸多領(lǐng)域占據(jù)了相當(dāng)重要的地位.相對于其他芯片來說,使用FPGA設(shè)計(jì)的電路執(zhí)行速度快.上市時間短.成本低廉.可靠性高以及易于維護(hù)升級.正是這些優(yōu)點(diǎn)才使得FPGA的應(yīng)用范圍越來越廣泛,備受各個領(lǐng)域設(shè)計(jì)師們的青睞.但是有關(guān)于它在多核體系上的研究卻一直很少有人涉及.本文在研究各種核間通信機(jī)制的基礎(chǔ)上,提出了一種基于Mailbox核間機(jī)制的多核處理系統(tǒng),在該系統(tǒng)中集成了Xilinx的軟核處理器Microblaze,其降低了使用多信號處理板但來的成本問題同時還節(jié)省了空間,對更好的發(fā)揮多核系統(tǒng)提出了新的解決方案.
1 總線機(jī)制與核間通信機(jī)制
在多核嵌入式系統(tǒng)的設(shè)計(jì)中,核間通信機(jī)制與核間傳輸總線在選用時很有講究,常用的總線有:OPB總線.PLB總線.XCL總線.FSL總線.LMB總線,同時多核通信系統(tǒng)中常用的通信機(jī)制以及通信手段包括:Mailbox,Mu-tex,Shared Memory,Interrupt,PLBv46_PLBv46 Bridge,FSL互連機(jī)制,DMA Controller等.如圖1所示.
1.1 PLB總線
PLB 總線(Processor Local Bus)總線包括了一個總線控制單元.一個看門狗定時器以及獨(dú)立的地址和讀/寫數(shù)據(jù)路徑單元,另外,還包括了一個可選用的DCR(Device Control Register)從接口以提供對總線錯誤狀態(tài)寄存器的訪問.
1.2 LMB總線
LMB 總線主要用來連接片上BRAM(BlockRAM).為了能在一個時鐘周期內(nèi)完成訪問,LMB采用了最少的控制信號和簡單協(xié)議的方式.它分為指令寄存器DLMB 和數(shù)據(jù)寄存器ILMB 兩類接口,而且這些接口只和BRAM連接.
1.3 Shared Memory通信機(jī)制
共享內(nèi)存是一種典型的快速異步通信機(jī)制,因其使得零拷貝有可能實(shí)現(xiàn),固非常適用于大于1 000 B的大型數(shù)據(jù)量共享的情況,共享內(nèi)存可分為兩種:BlockRAM和外部內(nèi)存DDRR.
2 RGB2YCrCb 算法以及DCT算法介紹
RGB,YCrCb是表示顏色時經(jīng)常用到的兩種顏色空間,在應(yīng)用中經(jīng)常需要實(shí)現(xiàn)它們之間的轉(zhuǎn)換.例如在人臉檢測中就常常用到Y(jié)CrCb空間,因?yàn)橐话愕膱D像都是基于RGB 空間的,在RGB 空間里人臉的膚色受亮度影響相當(dāng)大,所以膚色點(diǎn)很難從非膚色點(diǎn)中分離出來,也就是說在此空間經(jīng)過處理后,膚色點(diǎn)是離散的點(diǎn),中間嵌有很多非膚色,這為膚色區(qū)域標(biāo)定(人臉標(biāo)定.眼睛等)帶來了難題.如果把RGB轉(zhuǎn)為YCrCb空間的話,可以忽略Y(亮度)的影響,因?yàn)樵摽臻g受亮度影響很小,膚色會產(chǎn)生很好的類聚.
而DCT 變換是視頻壓縮編解碼器中很重要的一部分,被廣泛應(yīng)用于各種視頻格式的編碼算法中,例如:
JPEG,MPEG1,MPEG2,H.264等.
DCT 是先將整體圖像分為N×N 的像素塊,然后對N×N 的像素塊逐一進(jìn)行DCT變換.由于大多數(shù)圖像的高頻分量較小,對應(yīng)于圖像高頻分量的系數(shù)經(jīng)常為零,加上人眼對于高頻成分的失真不太敏感,所以可以用更粗糙的量化.因此,傳送變換系數(shù)的數(shù)碼率要大大小于傳送圖像像素所用的數(shù)碼率.圖像到達(dá)接收端后通過反離散余弦變換回到樣值,雖然會有一定的是真,但人眼是可以接受的,公式如下:
式中C(u) 和C(v) 在u.v 為0時等于1 2 ,其他情況下均為1,而x,u = 0,1,2,…,M – 1 ; y,v = 0,1,2,…,N – 1.
3 多核系統(tǒng)設(shè)計(jì)環(huán)境與系統(tǒng)軟硬件的設(shè)計(jì)
本文所采用的軟件開發(fā)環(huán)境是Xilinx 公司旗下的ISE 10.1開發(fā)套件,硬件開發(fā)平臺采用的是Xilinx 的XUP Virtex-2 Pro[8-9]開發(fā)板,而ISE 10.1開發(fā)套件嵌入了EDK 開發(fā)包(其集成了Xilinx Platform studio,SoftwareDevelopment,庫文件生成器,編譯工具等開發(fā)模塊),這樣就大大方便了軟硬件的開發(fā).
3.1 利用XPS向?qū)нM(jìn)行多核硬件系統(tǒng)設(shè)計(jì)
打開XPS 軟件后,首先利用Base System Builder向?qū)Ы⒁粋€單核系統(tǒng),在此基礎(chǔ)上通過添加新的Micro-blaze 處理器軟核以及必要的內(nèi)存塊.數(shù)據(jù)指令控制器和相應(yīng)的外圍設(shè)備來完成多核系統(tǒng)的創(chuàng)建.有關(guān)基于BRAM的共享內(nèi)存機(jī)制已經(jīng)簡要的介紹過,這里不再重復(fù).整個系統(tǒng)的框架如圖2所示.
硬件系統(tǒng)采用的總線機(jī)制為PLB總線,所有的Mi-croblaze均掛在這兩條總線上,并且以Microblaze0作為主處理器,其他用作從處理器.
設(shè)計(jì)中PLB總線的從設(shè)備主要是xps-uartlite,它作為系統(tǒng)的主要驗(yàn)證手段,通過串口打印可以在PC機(jī)終端里輸出核間通信信息.LMB 總線則用于連接片上BRAM 和MB 的各個LMB 接口,實(shí)現(xiàn)了D/I LMB 端口與啟動內(nèi)存塊.數(shù)據(jù)/指令控制器的互連.
PLB 橋的作用是使得所有的處理器可以共享外圍設(shè)備,如串口RS 232等.
3.2 利用EDK套件進(jìn)行多核軟件開發(fā)
在軟件開發(fā)過程中,一方面除了需要注意重要的宏定義以及數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)外,如在RGB2YCrCb處理中,為了在后續(xù)的代碼中對內(nèi)存進(jìn)行操作,需要對這些內(nèi)存地址進(jìn)行預(yù)先的宏定義以及設(shè)計(jì)有關(guān)BMP圖片信息頭的數(shù)據(jù)結(jié)構(gòu)和信息獲取函數(shù);另一方面也要注意算法的設(shè)計(jì).編譯與部署.具體算法的核心部分設(shè)計(jì)如下所述.
RGB2YCrCb的核心算法如下:
4 硬件實(shí)現(xiàn)
4.1 測試所搭建的硬件系統(tǒng)的步驟
(1)點(diǎn)擊Hardware 下的Generate Bitstream 按鈕,生成配置FPGA所需要的比特流文件;
(2)將PC 機(jī)與Virtex-2 Pro 開發(fā)板正確連接,并且給開發(fā)板上電;
(3)打開超級終端或是Putty工具,設(shè)置正確的參數(shù)(如波特率.奇偶校驗(yàn)位以及流控制位等),確保和創(chuàng)建硬件系統(tǒng)時的設(shè)置一致;
(4)點(diǎn)擊Device Configuration 下的Download Bit-stream進(jìn)行比特流的下載配置;
(5)觀察終端中的打印信息,判斷是否和Tes-tapp_Memory.c文件中的一致.
4.2.1 圖像算法在單核上的執(zhí)行流程
(1)算法按照宏塊順序往下處理,先處理第一個宏塊;
(2)對第一個宏塊的前4個Y分量進(jìn)行RGB2YCrCb處理,完成后對YCrCb結(jié)果做DCT(YMatrix,color)變換;
(3)對第一個宏塊的Cr 分量進(jìn)行RGB2YCrCb 處理,完成后對YCrCb結(jié)果做DCT(CrMatrix,color)變換;
(4)對第一個宏塊的Cb 分量進(jìn)行RGB2YCrCb 處理,完成后對YCrCb結(jié)果做DCT(CbMatrix,color)變換;
(5)返回到步驟(1)進(jìn)行第二個宏塊的處理.
基于單核架構(gòu)的處理流程是一個串行執(zhí)行過程,體現(xiàn)在宏塊于宏塊之間是處于一種阻塞等待性的機(jī)制,換言之,只要宏塊0的任何一個分量(Y/Cr/Cb)沒有獨(dú)立處理且最終完全處理完畢后處理器都必須等待,而無法轉(zhuǎn)向宏塊1進(jìn)行后續(xù)的處理.
4.2.2 下載比特流,配置FPGA
(1)正確連接好Virtex-2 Pro 開發(fā)板,并給板子上電;
(2)打開一個超級終端或是Putty工具,注意設(shè)置匹配的波特率.奇偶校驗(yàn)位以及流控制位;
(3)對于需要運(yùn)行的應(yīng)用程序,右單擊選中Markto Initialize BRAMs以初始化內(nèi)存塊;
(4)在Device Configuration 中點(diǎn)擊Download Bit-stream下載比特流,配置FPGA;
(5)修改shm.c文件中Trycount值(該值為一幅8 KB圖片進(jìn)行循環(huán)處理的次數(shù)),然后重新編譯.下載并配置FPGA,統(tǒng)計(jì)每次處理完成的時間,并填寫表1.
4.3 多核執(zhí)行圖像處理算法以及時間測量
4.3.1 圖像算法在多核上的執(zhí)行流程
(1)算法仍以宏塊處理為單位,MB0先對第一個宏塊進(jìn)行處理;
(2)MB0對第一個宏塊的4個Y分量進(jìn)行RGB2Y變換,并將中間結(jié)果寫入內(nèi)存,作為MB1 進(jìn)行DCT(YMa-trix,color)的輸入數(shù)據(jù);
(3)MB1讀取顏色轉(zhuǎn)換后的Y 分量,對其進(jìn)行DCT(YMatrix,color);
(4)MB0在將Y分量寫入共享之后,立即開始Cr分量的RGB2Cr變換,并將Cr結(jié)果寫入共享作為MB1進(jìn)行DCT(CrMatrix,color)變換的輸入數(shù)據(jù);
(5)MB1讀取顏色轉(zhuǎn)換后的Cr 分量,對其進(jìn)行DCT(CrMatrix,color);
(6)MB0 在將Cr 分量寫入共享之后,立即開始Cb分量的RGB2Cb 變換,并將Cb 結(jié)果寫入共享作為MB1進(jìn)行DCT(CbMatrix,color)變換的輸入數(shù)據(jù);
(7)MB1讀取顏色轉(zhuǎn)換后的Cb 分量,對其進(jìn)行DCT(CbMatrix,color);
(8)MB0完成一個宏塊的處理之后不等待,即可返回步驟狀態(tài)進(jìn)行第二個宏塊的處理,而MB1 則以MB0的處理過程循環(huán)往復(fù).
基于雙核架構(gòu)的處理流程也是一個并行執(zhí)行過程,體現(xiàn)在當(dāng)MB0做好RGB2YCrCb(所有分量的顏色變換)之后,只需將處理的中間結(jié)果寫入內(nèi)存作為MB1 進(jìn)行DCT 變換的出入數(shù)據(jù),而無需等待MB1 上DCT 處理進(jìn)程的完成,在MB1 進(jìn)行上一個宏塊的DCT 變換處理過程中,MB0 已經(jīng)轉(zhuǎn)向宏塊1 進(jìn)行下一輪的各個分量的RGB2YCrCb處理.
4.3.2 下載下載比特流,配置FPGA
所有步驟同單核配置過程.運(yùn)行后同樣要改寫shm.c文件中的Trycount值,記錄時間,并填寫表2.
通過表1,表2的對比,很容易發(fā)現(xiàn),多核體系在時間上有明顯的優(yōu)勢.
4.4 單核/多核體系占用資源對比
通過編譯,在生成的編譯報(bào)告中將兩者所用的資源統(tǒng)計(jì)如表3所示.從表中可以看到在硬件資源的占用上,雙核體系的確消耗的資源較多.
5 結(jié)語
多核系統(tǒng)由于采用了并行環(huán)路體系并摒棄了單核阻塞狀態(tài)下的等待時間,從而能夠達(dá)到處理時間上的優(yōu)化,但是另一方面其對片上資源的消耗也會隨著從處理器的增加與日俱增,這也印證了“速度與面積”不能兼得這條原則,所以在工程中一定要做好權(quán)衡,權(quán)衡算法性能優(yōu)化和硬件資源占用率的取舍,最好能夠折中.
當(dāng)然在處理如圖像處理.信號處理類的一些復(fù)雜算法時,多核機(jī)制還是相當(dāng)具有可取性的,畢竟在實(shí)際工程中,往往不介意以空間資源消耗來獲取時間上的優(yōu)化處理.