H.264視頻編碼器在DSP上的實現(xiàn)與優(yōu)化

時間：2011-01-10 08:59:56

關(guān)鍵字： DSP 視頻編碼器 BSP CACHE

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]H.264視頻編碼器在DSP上的實現(xiàn)與優(yōu)化

摘要：在DM642 EVM平臺上實現(xiàn)了 H.264視頻編碼器，并從內(nèi)存分配、Cache優(yōu)化、代碼優(yōu)化以及匯編程序級優(yōu)化等幾個方面對編碼器進行了優(yōu)化。實驗結(jié)果表明，優(yōu)化后的編碼器能保持較高的圖象質(zhì)量和壓縮效率，并具有較好的實時性能。

1 引言

　　H.264/AVC是ITU-T視頻編碼專家組和ISO/IEC運動圖象專家組聯(lián)合提出的新一代視頻編碼標準。在相同的條件下，與MPEG-1、MPEG-2、H.263、MPEG-4等標準相比，H.264/AVC能夠減少50%的碼流。但是，H.264的高編碼效率是以高運算量和高復雜度為代價的。

　　本文采用具有較高運算速度和較強數(shù)據(jù)處理能力的DM642 EVM作為H.264視頻編碼器實現(xiàn)和優(yōu)化的DSP硬件平臺，實現(xiàn)了 H.264視頻編碼算法，并對算法程序進行了綜合優(yōu)化。實驗結(jié)果表明，經(jīng)過優(yōu)化的 H.264視頻編碼器能保持較高的圖象質(zhì)量和壓縮效率，并具有較好的實時性能。

2 H.264視頻編碼技術(shù)及DM642 EVM開發(fā)平臺

　　2.1 H264視頻編碼技術(shù)

　　H.264壓縮算法采用與H.263和MPEG-4類似的基于塊的混和編碼方法，采用幀內(nèi)(Intra)和幀間(Inter)兩種編碼模式。為了提高編碼效率、壓縮比和圖象質(zhì)量，H.264采用了許多新的編碼技術(shù)，這些技術(shù)主要有：

　?、?H.264標準壓縮系統(tǒng)由視頻編碼層(VCL，Video Coding Layer)和網(wǎng)絡(luò)抽象層(NAL，Network Abstraction Layer)兩部分組成。

　　⑵ H.264采用幀內(nèi)預測，昀大程度地減少圖象的空間冗余信息。

　?、?H.264的幀間預測采用多幀參考幀（參考的個數(shù)為1～5）、高精度的內(nèi)插算法(包括1/4和 1/8精度)、多種變形搜索塊等新的方法，在很大程度上提高運動估計與補償?shù)男省?/p>

　　⑷ 1/4、1/8象素精度的亞象素運動估計：對于QCIF視頻格式使用1/4象素精度預測方式，對于CIF視頻格式使用1/8象素精度預測方法。

　　⑸ 殘差圖象的4x4整數(shù)DCT變換技術(shù)，逆變換過程中沒有匹配錯誤問題。

　?、?新的環(huán)路濾波技術(shù)及熵編碼技術(shù)等。

　　2.2 DM642 EVM開發(fā)平臺DM642

　　EVM是TI推出的一款專門面向多媒體應(yīng)用的開發(fā)平臺,板上資源包括：DM642 CPU芯片、4M×64bit同步動態(tài)存儲器(SDRAM)、4M×8bit FLASH存儲器和一路視頻編碼和兩路視頻解碼等，其結(jié)構(gòu)如圖1所示。DM642基于C64X內(nèi)核，主頻高達600MHz，采用超長指令字(VLIW)結(jié)構(gòu)，每個指令周期可并行處理8條32位的指令，處理能力達4800MIPS；片上內(nèi)存采用二級緩存Cache結(jié)構(gòu)，L1由16KB的數(shù)據(jù)Cache L1D和16KB的程序Cache L1P組成，256KB的L2可配置成SRAM或Cache，大幅度提高了程序的運行性能；片內(nèi)64位的EMIF(External MemoryInterface)接口可以與SDRAM、Flash等存儲器件無縫連接，極大地方便了大量數(shù)據(jù)的搬移；DM642包括了3個專用的視頻端口(VP0～VP2)，用于接收、處理視頻數(shù)據(jù)，提高了整個系統(tǒng)的性能；DM642自帶的EMAC口以及從EMIF口擴展出來的ATA口，還為處理完成后產(chǎn)生的海量數(shù)據(jù)提供了存儲通道。因此，實現(xiàn)H.264的視頻算法，高性能的DM642 EVM是一個理想的硬件平臺。

3 H.264視頻編碼器的實現(xiàn)與優(yōu)化

　　3.1 編碼器的實現(xiàn)

　　H.264視頻編碼器的實現(xiàn)有多種方法，不過大部分都是進行移植、優(yōu)化的操作。H.264代碼要在DSP的軟件平臺CCS環(huán)境下運行，需要注意幾個問題：如配置文件、庫文件的改動、數(shù)據(jù)類型的調(diào)整、匯編程序的處理、內(nèi)存終結(jié)模式的調(diào)整等。

　　H.264編碼采用變換和預測的混合編碼方法，其原理如圖2所示。輸入幀或者場Fn以宏塊為單位被編碼器處理，即將圖象分成子圖象塊，以子圖象塊作為編碼單元。當采用幀內(nèi)預測編碼時，預測值P是由當前片中已編碼的參考圖象經(jīng)過運動補償(MC)后得出的，其中參考圖象用F1n-1表示；為了提高預測精度，從而提高壓縮比，實際的參考圖象可在過去或未來已編碼解碼重建和濾波的幀中選擇。預測值P和當前塊相減后，產(chǎn)生一個殘差塊Dn，經(jīng)塊變換、量化后產(chǎn)生一組量化后的變化系數(shù)X，再經(jīng)過熵編碼，與解碼所需的一些邊信息（如預測模式量化參數(shù)、運動矢量等）一起組成一個壓縮后的碼流，經(jīng)過NAL供傳輸和存儲用。

[!--empirenews.page--]

3.2 內(nèi)存分配及Cache優(yōu)化

　　與PC機相比，DSP的程序數(shù)據(jù)存儲空間非常有限。因此，對于視頻編碼這種需要處理大量數(shù)據(jù)的程序而言，必須合理安排數(shù)據(jù)和程序的存儲方式，實現(xiàn)對存儲器的優(yōu)化。實驗表明，合理利用兩級緩存并配合低工作頻率外部存儲器，系統(tǒng)的效率能達到全部使用高工作頻率內(nèi)部存儲器的80％～90％。

　　本文將占據(jù)較大空間的數(shù)據(jù)或使用頻率不高的程序放在片外存儲器中，啟用L2 Cache,調(diào)用C6000的芯片支持庫CSL中的CACHE-setL2Mode函數(shù)，將L2設(shè)置為198KB的SRAM和64KB的Cache模式。并根據(jù)H.264算法本身的結(jié)構(gòu)，采取以下方法對存儲器進行優(yōu)化：利用CCS的分析工具Profile分析C代碼，將反復調(diào)用的程序段(例如DCT變換和IDCT變換)放在片內(nèi)程序存儲區(qū)中，把頻繁用到的數(shù)據(jù)段(如編碼表)放在片內(nèi)數(shù)據(jù)存儲器中，把運用次數(shù)較少的程序和數(shù)據(jù)段放在片外存儲器中，避免對程序或數(shù)據(jù)進行不必要的反復搬移。

　　在H.264編碼器運行過程中，由于一幀圖象的數(shù)據(jù)量很大，因此將參考幀和當前幀數(shù)據(jù)放到片外存儲器中，需要用到時，再將它們從外部存儲器搬到片內(nèi)存儲器中，以提高程序的運行效率。

　　3.3 代碼優(yōu)化

　　進行代碼優(yōu)化，先要找出程序的瓶頸，即占用CPU時間較多的代碼，然后對其進行有針對性的優(yōu)化。使用CCS提供的代碼剖析工具Profile可以統(tǒng)計顯示出程序中各個重要段和函數(shù)的運行時間，找出運算量較大的程序段，優(yōu)化這些程序段，對于提高算法的性能有巨大影響。

　?、?聯(lián)合使用-pm和-03編譯選項，對代碼進行項目級的優(yōu)化：CCS提供了強大功能的編譯選項，從-O0到-O3共四級優(yōu)化。-O3編譯選項使能軟件流水和其他優(yōu)化方法，-pm選項從程序代碼角度，把整個項目的所有源程序聯(lián)合起來，作為一個模塊來處理。-pm和-03兩個選項聯(lián)合使用，能進行一系列的優(yōu)化，并且代碼尺寸變小很多。

　?、?使用const、restrict 關(guān)鍵字修飾指針：const指示編譯器其修飾的指針所指向的內(nèi)容不能修改；restrict指示編譯器其修飾的指針與其他指針指向的內(nèi)容不會覆蓋，這些信息使兩個指針不會訪問同一存儲器地址，可以消除存儲器之間的相關(guān)性，這樣可以并行執(zhí)行多個數(shù)據(jù)的讀取和運算，使代碼運行達到昀大效率。

　?、?對短字長數(shù)據(jù)使用寬長度的存儲器訪問（數(shù)據(jù)打包處理）：即當CPU執(zhí)行一連串短型數(shù)據(jù)（如16bit數(shù)據(jù)）操作時，可將數(shù)據(jù)類型設(shè)置為32bit長度的int型，這樣可以一次性訪問2個短型數(shù)據(jù)，然后使用C6000指令，同時進行兩個數(shù)據(jù)的操作，減少了對內(nèi)存的訪問，這比采用16bit長度short型節(jié)約一半的時間。

　?、?循環(huán)展開，把C語言中的循環(huán)打開，把多循環(huán)變?yōu)樯傺h(huán)，減少循環(huán)嵌套，使得可能并行的指令增加，從而改進軟件流水編排，改善代碼性能。

　?、?減少C函數(shù)的調(diào)用，盡量使用系統(tǒng)提供的內(nèi)聯(lián)函數(shù)（intrinsics函數(shù)）代替C函數(shù)，C6000編譯器提供了許多intrinsics，是直接與C6000匯編指令映射的在線函數(shù)，可以快速優(yōu)化C代碼，這樣減少許多不必要的操作，提高代碼運算速度。

　?、?使用軟件流水技術(shù)，軟件流水是一種對循環(huán)中的指令進行調(diào)度優(yōu)化的技術(shù)，利用軟件流水可生成非常緊湊的循環(huán)代碼。當編譯時采用-O2或-O3級別的優(yōu)化選項時，編譯器將對程序中的循環(huán)進行軟件流水。通過軟件流水的優(yōu)化，可以大大提高循環(huán)代碼的效率，極大地實現(xiàn)指令的并行性。

　　3.4 匯編程序級優(yōu)化

　　通過 profile clock工具找出效率很低的部分，使用線形匯編繼續(xù)優(yōu)化。線性匯編語言是 C6000系列 DSP獨有的一種編程語言，介于高級語言和低級語言之間。和標準的匯編語言不同的是，在編寫線性匯編程序時可不必考慮指令的延時、指令的并行、寄存器的使用和功能單元的分配等，匯編優(yōu)化器將根據(jù)代碼的情況自動確定這些信息。匯編程序優(yōu)化可通過對自動編譯生成的匯編文件進行修改而進行。匯編優(yōu)化其實就是根據(jù)以上各個方面的特點，采取針對性的方法，以獲得盡可能高的程序效率。常用的匯編偽指令如下：

　　⑴ 定義一個可被匯編優(yōu)化器優(yōu)化且可被 C/C++當做函數(shù)調(diào)用的線性匯編代碼段的偽指令：

　　label .cproc [ var1,[var2,…] ]

.endproc [!--empirenews.page--]

⑵ 定義一個可被匯編優(yōu)化器優(yōu)化的線性匯編代碼段的偽指令：

　　label .proc [ reg1,[reg2,…] ]

.endproc [ reg1,[reg2,…] ]

　　線性匯編優(yōu)化時還需要考慮以下幾個方面：① 平均分配使用功能單元，提高代碼的并
行度。② 使流水線核心循環(huán)的時鐘周期數(shù)昀小。

4 實驗結(jié)果

　　經(jīng)過以上各種算法優(yōu)化后，基于DSP硬件平臺DM642 EVM的H.264編碼算法的性能得到了極大提高。實驗中采用Foreman、Container、News三個H.264標準測試序列，分別代表高、中、低運動格式，采用IPP編碼模式，對優(yōu)化前后的算法進行了測試。

　　表3給出了優(yōu)化前后對各種標準測試序列進行編碼后的測試結(jié)果，算法優(yōu)化在保證圖象質(zhì)量的前提下，極大提高了編碼速度，視頻圖象較好地實現(xiàn)了實時性編碼要求。

　　本文重點探討了H.264視頻編碼算法在DM642 EVM硬件平臺上的實現(xiàn)和優(yōu)化，經(jīng)過優(yōu)化后算法具有較好的實現(xiàn)性和實時性。在此基礎(chǔ)上，還可以在調(diào)整代碼結(jié)構(gòu)方面進行優(yōu)化，使其更加適合DSP的指令系統(tǒng)。此外還可以更合理的利用TMS320DM642芯片的結(jié)構(gòu)和豐富的外部接口，更高效的實現(xiàn)編解碼器算法。