ARM NEON技術(shù)在車位識(shí)別算法中的應(yīng)用

時(shí)間：2013-12-03 19:42:53

關(guān)鍵字： ARM NEO BSP 寄存器

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]為了在車位檢測(cè)系統(tǒng)中不使用DSP的情況下，達(dá)到實(shí)時(shí)處理和節(jié)約成本的目的，在嵌入式Linux系統(tǒng)中使用了CORTEX-A系列的NEON協(xié)處理器技術(shù)來優(yōu)化一種車位圖像檢測(cè)算法的代碼。

0 引言

隨著城市越來越多家庭擁有汽車，相應(yīng)的停車場(chǎng)建設(shè)數(shù)目也越來越多，停車場(chǎng)管理系統(tǒng)也越來越重要。

而國(guó)內(nèi)城市車多人多，空間擁擠給停車廠管理帶來諸多不便。車位檢測(cè)系統(tǒng)設(shè)計(jì)成嵌入式終端是一個(gè)好的選擇。圖像檢測(cè)算法的復(fù)雜度給實(shí)時(shí)檢測(cè)帶來難題，一般的圖像處理都是基于DSP完成，這帶來了成本的上升。

ARM 公司CORTEX-A 系列處理器的出現(xiàn)，極大地緩解了這個(gè)難題。

ARM 平臺(tái)能夠很好地支持Linux 系統(tǒng)，Linux 系統(tǒng)具有強(qiáng)大的網(wǎng)絡(luò)通訊功能，也給程序移植等帶來便利。本文的檢測(cè)算法在ARM平臺(tái)基于NEON技術(shù)進(jìn)行了優(yōu)化，在保證檢測(cè)精度的同時(shí)，處理速度提升明顯，與使用DSP相比，大大節(jié)約了成本，為停車場(chǎng)管理系統(tǒng)的研究提供新的方向。

1 ARM NEON技術(shù)介紹

ARM 的NEON 通用SIMD 引擎可有效處理當(dāng)前和將來的多媒體格式，從而改善用戶體驗(yàn)。NEON 技術(shù)是通過清晰方式構(gòu)建的，并可無縫用于其本身的獨(dú)立流水線和寄存器文件。NEON 技術(shù)是ARM Cortex-A系列處理器的128 位SIMD(單指令多數(shù)據(jù))體系結(jié)構(gòu)擴(kuò)展，旨在為多媒體應(yīng)用提供更加強(qiáng)大的加速功能，從而明顯改善程序性能。它具有32 個(gè)寄存器，64 位寬(是16 個(gè)寄存器，128 位寬的雙倍視圖)NEON 指令特點(diǎn)如下：

(1)寄存器被視為同一數(shù)據(jù)類型的元素的矢量;

(2)數(shù)據(jù)類型可為：有符號(hào)/無符號(hào)的8 位、16 位、32 位、64 位單精度浮點(diǎn);

(3)指令在所有通道中執(zhí)行同一操作。

NEON 寄存器可在多個(gè)通道內(nèi)進(jìn)行并行運(yùn)算，如圖1所示。

NEON 的指令都是以v 字母開頭的，例如：vadd.i16q0,q1,q2,這就是一個(gè)NEON 的指令了，很明顯的特點(diǎn)就是v 開頭，i 主要用來表明是一個(gè)整型(int)，16 表示一個(gè)16 位的型，q0,q1,q2 都是128 位的寄存器(q 打頭的寄存器都是128 位的)。這個(gè)指令就是讓q1,q2 中裝載8 個(gè)16位的數(shù)據(jù)，然后執(zhí)行加法操作，最后放到q0中去。這么一個(gè)指令就完成了8次加法運(yùn)算，這也就是性能的提升，對(duì)于其他運(yùn)算也是如此。

2 系統(tǒng)設(shè)計(jì)和算法介紹

本系統(tǒng)基于CORTEX-A8平臺(tái)實(shí)現(xiàn)，車位檢測(cè)系統(tǒng)架構(gòu)如圖2所示。

采集通過模擬攝像頭，由TVP5150解碼后輸出8位Y∶Cb∶Cr=4∶2∶2的數(shù)據(jù)傳送的A8平臺(tái)，TVP5150驅(qū)動(dòng)基于VIDEO FOR LINUX2(V4L2)開發(fā)，因此視頻采集程序調(diào)用V4L2相關(guān)API函數(shù)即可完成。然后調(diào)用相關(guān)圖像處理程序，提取多個(gè)圖像特征，與背景圖像對(duì)比，進(jìn)行有車無車檢測(cè)，然后TCP/IP網(wǎng)絡(luò) 將圖像和有車位車情況發(fā)送到上位機(jī)。

車位檢測(cè)算法流程如圖3所示。

本系統(tǒng)目前在一處地下停車場(chǎng)進(jìn)行測(cè)試驗(yàn)證，如圖4在停車中采集到的背景和待測(cè)圖像，通過對(duì)100幅采集到800×600 分辨率的現(xiàn)場(chǎng)圖像，在CORTEX-A8 平臺(tái)上進(jìn)行測(cè)試，平均檢測(cè)時(shí)間為538 ms,該算法在地下停車場(chǎng)中準(zhǔn)確率97%.表1 中給出了處理一幅待測(cè)圖像CORTEX-A8 和ARM11 平臺(tái)優(yōu)化前平均時(shí)間的測(cè)試對(duì)比結(jié)果(均使用GCC交叉編譯)。

3 圖像處理算法在CORTEX-A8 平臺(tái)上的優(yōu)化

本系統(tǒng)是Cortex-A8和Linux系統(tǒng)上搭建，Linux下使用的編譯器為GCC.本文中使用普通C 語言優(yōu)化和NEON編程優(yōu)化對(duì)圖像相關(guān)函數(shù)進(jìn)行了優(yōu)化，并進(jìn)行了測(cè)試對(duì)比，下面給出方差函數(shù)variance代碼進(jìn)行優(yōu)化前后的對(duì)比說明，如圖5優(yōu)化前的代碼。[!--empirenews.page--]

3.1 C語言級(jí)別優(yōu)化

對(duì)于一般C語言級(jí)別的優(yōu)化，對(duì)于圖像這類矩陣數(shù)據(jù)而言，主要針對(duì)循環(huán)優(yōu)化。以第一個(gè)循環(huán)為例，如圖6對(duì)于C語言級(jí)別循環(huán)優(yōu)化后的代碼如圖6所示。

由優(yōu)化后的結(jié)果可見，通過對(duì)循環(huán)展開，有效的減少了循環(huán)跳轉(zhuǎn)次數(shù)，跳轉(zhuǎn)為原來的1 4 .但是也可以發(fā)現(xiàn)，加法運(yùn)算次數(shù)，幾乎和原來相同并沒有減少。對(duì)于其他for循環(huán)和其他函數(shù)進(jìn)行優(yōu)化后，測(cè)試時(shí)間對(duì)比如表2所示。

由表中數(shù)據(jù)可見，使用普通C 語言界別優(yōu)化，并沒有明顯提升，原因是在Linux系統(tǒng)上使用GCC編譯器進(jìn)行編譯的，在選擇-O2 級(jí)別優(yōu)化的時(shí)候，已經(jīng)對(duì)循環(huán)進(jìn)行了優(yōu)化，所以運(yùn)行速度沒有明顯提升。

3.2 使用NEON技術(shù)的優(yōu)化

GCC 編譯器從4.3 版本開始，很好地提供了對(duì)ARM NEON 技術(shù)的支持。例如GCC 中的函數(shù)：

uint32x2_t vadd_u32(uint32x2_t,uint32x2_t)，對(duì)應(yīng)匯語言：vadd.i32 d0,d0,d0.uint32x2_t代表這個(gè)數(shù)據(jù)類型是2 個(gè)32 位無符號(hào)整型。在使用GCC 編譯器中的NEON 技術(shù)時(shí)，需要包含頭文件.NEON增強(qiáng)指令集是在Cortex-A系列發(fā)布后才具有的功能，因此ARM11 無法使用NEON 技術(shù)。對(duì)方差函數(shù)variance第一個(gè)for循環(huán)優(yōu)化后的代碼對(duì)比如圖7所示。

由優(yōu)化后程序代碼可見，循環(huán)跳轉(zhuǎn)次數(shù)為原來的1 4 ,但是由于使用了NEON 相關(guān)的vld1q_u32 函數(shù)，一次可在NEON的128位寄存器中裝入4個(gè)32位數(shù)值，調(diào)用vaddq_u32可對(duì)4個(gè)數(shù)據(jù)時(shí)同時(shí)進(jìn)行加法運(yùn)算，在一個(gè)指令周期就完成了4次加法運(yùn)算，理論上加法運(yùn)算次數(shù)為原來的1 4 ,大大提高了運(yùn)算性能。

對(duì)于第二個(gè)for循環(huán)也可以采用類似方法優(yōu)化，只是調(diào)用的函數(shù)略有不同，具體考參考GCC的技術(shù)文檔，有詳細(xì)的使用說明。

其他函數(shù)如預(yù)處理、角點(diǎn)、相關(guān)度函數(shù)的優(yōu)化和此方法類似，重點(diǎn)針對(duì)循環(huán)和可以并行運(yùn)算的代碼進(jìn)行優(yōu)化。

表3 中給出了Cortex-A8 平臺(tái)使用NEON 技術(shù)優(yōu)化后與ARM11測(cè)試時(shí)間的對(duì)比。

4 結(jié)語

通過使用ARM NEON 技術(shù)，對(duì)于圖像處理這類矩陣運(yùn)算進(jìn)行并行優(yōu)化，可大大提高處理速度，進(jìn)行優(yōu)化后，速度較優(yōu)化前提升了達(dá)2倍之多，較ARM11提升了8 倍的速度。ARM COTEX-A 系列所使用的NEON 技術(shù)，不僅使車位圖像檢測(cè)算法的速度有很大提升，在信號(hào)處理等多媒體處理算法中，也有廣闊的應(yīng)用前景。