ARM NEON技術(shù)在車位識別算法中的應(yīng)用
0 引言
隨著城市越來越多家庭擁有汽車,相應(yīng)的停車場建設(shè)數(shù)目也越來越多,停車場管理系統(tǒng)也越來越重要。
而國內(nèi)城市車多人多,空間擁擠給停車廠管理帶來諸多不便。車位檢測系統(tǒng)設(shè)計成嵌入式終端是一個好的選擇。圖像檢測算法的復(fù)雜度給實時檢測帶來難題,一般的圖像處理都是基于DSP完成,這帶來了成本的上升。
ARM 公司CORTEX-A 系列處理器的出現(xiàn),極大地緩解了這個難題。
ARM 平臺能夠很好地支持Linux 系統(tǒng),Linux 系統(tǒng)具有強大的網(wǎng)絡(luò)通訊功能,也給程序移植等帶來便利。本文的檢測算法在ARM平臺基于NEON技術(shù)進(jìn)行了優(yōu)化,在保證檢測精度的同時,處理速度提升明顯,與使用DSP相比,大大節(jié)約了成本,為停車場管理系統(tǒng)的研究提供新的方向。
1 ARM NEON技術(shù)介紹
ARM 的NEON 通用SIMD 引擎可有效處理當(dāng)前和將來的多媒體格式,從而改善用戶體驗。NEON 技術(shù)是通過清晰方式構(gòu)建的,并可無縫用于其本身的獨立流水線和寄存器文件。NEON 技術(shù)是ARM Cortex-A系列處理器的128 位SIMD(單指令多數(shù)據(jù))體系結(jié)構(gòu)擴(kuò)展,旨在為多媒體應(yīng)用提供更加強大的加速功能,從而明顯改善程序性能。它具有32 個寄存器,64 位寬(是16 個寄存器,128 位寬的雙倍視圖)NEON 指令特點如下:
(1)寄存器被視為同一數(shù)據(jù)類型的元素的矢量;
(2)數(shù)據(jù)類型可為:有符號/無符號的8 位、16 位、32 位、64 位單精度浮點;
(3)指令在所有通道中執(zhí)行同一操作。
NEON 寄存器可在多個通道內(nèi)進(jìn)行并行運算,如圖1所示。
NEON 的指令都是以v 字母開頭的,例如:vadd.i16q0,q1,q2,這就是一個NEON 的指令了,很明顯的特點就是v 開頭,i 主要用來表明是一個整型(int),16 表示一個16 位的型,q0,q1,q2 都是128 位的寄存器(q 打頭的寄存器都是128 位的)。這個指令就是讓q1,q2 中裝載8 個16位的數(shù)據(jù),然后執(zhí)行加法操作,最后放到q0中去。這么一個指令就完成了8次加法運算,這也就是性能的提升,對于其他運算也是如此。
2 系統(tǒng)設(shè)計和算法介紹
本系統(tǒng)基于CORTEX-A8平臺實現(xiàn),車位檢測系統(tǒng)架構(gòu)如圖2所示。
采集通過模擬攝像頭,由TVP5150解碼后輸出8位Y∶Cb∶Cr=4∶2∶2的數(shù)據(jù)傳送的A8平臺,TVP5150驅(qū)動基于VIDEO FOR LINUX2(V4L2)開發(fā),因此視頻采集程序調(diào)用V4L2相關(guān)API函數(shù)即可完成。然后調(diào)用相關(guān)圖像處理程序,提取多個圖像特征,與背景圖像對比,進(jìn)行有車無車檢測,然后TCP/IP網(wǎng)絡(luò) 將圖像和有車位車情況發(fā)送到上位機。
車位檢測算法流程如圖3所示。
本系統(tǒng)目前在一處地下停車場進(jìn)行測試驗證,如圖4在停車中采集到的背景和待測圖像,通過對100幅采集到800×600 分辨率的現(xiàn)場圖像,在CORTEX-A8 平臺上進(jìn)行測試,平均檢測時間為538 ms,該算法在地下停車場中準(zhǔn)確率97%.表1 中給出了處理一幅待測圖像CORTEX-A8 和ARM11 平臺優(yōu)化前平均時間的測試對比結(jié)果(均使用GCC交叉編譯)。
3 圖像處理算法在CORTEX-A8 平臺上的優(yōu)化
本系統(tǒng)是Cortex-A8和Linux系統(tǒng)上搭建,Linux下使用的編譯器為GCC.本文中使用普通C 語言優(yōu)化和NEON編程優(yōu)化對圖像相關(guān)函數(shù)進(jìn)行了優(yōu)化,并進(jìn)行了測試對比,下面給出方差函數(shù)variance代碼進(jìn)行優(yōu)化前后的對比說明,如圖5優(yōu)化前的代碼。[!--empirenews.page--]
3.1 C語言級別優(yōu)化
對于一般C語言級別的優(yōu)化,對于圖像這類矩陣數(shù)據(jù)而言,主要針對循環(huán)優(yōu)化。以第一個循環(huán)為例,如圖6對于C語言級別循環(huán)優(yōu)化后的代碼如圖6所示。
由優(yōu)化后的結(jié)果可見,通過對循環(huán)展開,有效的減少了循環(huán)跳轉(zhuǎn)次數(shù),跳轉(zhuǎn)為原來的1 4 .但是也可以發(fā)現(xiàn),加法運算次數(shù),幾乎和原來相同并沒有減少。對于其他for循環(huán)和其他函數(shù)進(jìn)行優(yōu)化后,測試時間對比如表2所示。
由表中數(shù)據(jù)可見,使用普通C 語言界別優(yōu)化,并沒有明顯提升,原因是在Linux系統(tǒng)上使用GCC編譯器進(jìn)行編譯的,在選擇-O2 級別優(yōu)化的時候,已經(jīng)對循環(huán)進(jìn)行了優(yōu)化,所以運行速度沒有明顯提升。
3.2 使用NEON技術(shù)的優(yōu)化
GCC 編譯器從4.3 版本開始,很好地提供了對ARM NEON 技術(shù)的支持。例如GCC 中的函數(shù):
uint32x2_t vadd_u32(uint32x2_t,uint32x2_t),對應(yīng)匯語言:vadd.i32 d0,d0,d0.uint32x2_t代表這個數(shù)據(jù)類型是2 個32 位無符號整型。在使用GCC 編譯器中的NEON 技術(shù)時,需要包含頭文件
由優(yōu)化后程序代碼可見,循環(huán)跳轉(zhuǎn)次數(shù)為原來的1 4 ,但是由于使用了NEON 相關(guān)的vld1q_u32 函數(shù),一次可在NEON的128位寄存器中裝入4個32位數(shù)值,調(diào)用vaddq_u32可對4個數(shù)據(jù)時同時進(jìn)行加法運算,在一個指令周期就完成了4次加法運算,理論上加法運算次數(shù)為原來的1 4 ,大大提高了運算性能。
對于第二個for循環(huán)也可以采用類似方法優(yōu)化,只是調(diào)用的函數(shù)略有不同,具體考參考GCC的技術(shù)文檔,有詳細(xì)的使用說明。
其他函數(shù)如預(yù)處理、角點、相關(guān)度函數(shù)的優(yōu)化和此方法類似,重點針對循環(huán)和可以并行運算的代碼進(jìn)行優(yōu)化。
表3 中給出了Cortex-A8 平臺使用NEON 技術(shù)優(yōu)化后與ARM11測試時間的對比。
4 結(jié)語
通過使用ARM NEON 技術(shù),對于圖像處理這類矩陣運算進(jìn)行并行優(yōu)化,可大大提高處理速度,進(jìn)行優(yōu)化后,速度較優(yōu)化前提升了達(dá)2倍之多,較ARM11提升了8 倍的速度。ARM COTEX-A 系列所使用的NEON 技術(shù),不僅使車位圖像檢測算法的速度有很大提升,在信號處理等多媒體處理算法中,也有廣闊的應(yīng)用前景。