淺談電視系統(tǒng)中的音頻加解嵌技術(shù)
摘 要:闡述了電視系統(tǒng)中的音頻嵌入技術(shù),音視頻信號標(biāo)準(zhǔn),嵌入格式和加解嵌在電視系統(tǒng)中的應(yīng)用。通過使用音頻嵌入技術(shù),大大降低了電視信號的傳輸成本,提高了音頻信號的傳輸質(zhì)量,解決了音視頻信號傳輸中不同步的問題,實(shí)現(xiàn)了音視頻無損耗傳輸,提高了電視節(jié)目的質(zhì)量。
0 引言:
隨著電視事業(yè)的飛速發(fā)展,數(shù)字電視技術(shù)也得到了突飛猛進(jìn)的發(fā)展。在電視信號模數(shù)轉(zhuǎn)換和傳輸?shù)倪^程中,視頻信號和音頻信號的處理方式和特點(diǎn)有著明顯的差異,導(dǎo)致數(shù)字視頻滯后于數(shù)字音頻。表現(xiàn)為國家和聲音不同步。
音頻嵌入技術(shù)使以往必須分開傳送的音頻和視頻信號可合并在一根視頻電纜中傳輸,從而大大簡化了演播室中音視頻互聯(lián)所需的硬件開銷和音視頻信號的路由策略,并可實(shí)現(xiàn)音頻和視頻的同步傳輸與播放。
本文以SMPTE 259M標(biāo)準(zhǔn)定義的SD I ( Serial DIGItal In2ter—face)信號作為數(shù)字視頻標(biāo)準(zhǔn),其最大優(yōu)點(diǎn)就是提供了大量的輔助數(shù)據(jù)區(qū)(An—cillary Data Space) ,可以用來嵌入音頻信號以及其他有用信號?,F(xiàn)有視頻格式的輔助數(shù)據(jù)區(qū)可容納最多16個通道的音頻數(shù)據(jù),足以滿足當(dāng)前電視系統(tǒng)的絕大多數(shù)需要。
1 數(shù)字音視頻標(biāo)準(zhǔn):
1. 1 AES/EBU數(shù)字音頻信號:
AES/EBU標(biāo)準(zhǔn)的串行數(shù)字音頻信號可以傳輸2個通道( channel)的音頻數(shù)據(jù), 2個通道既可以是來自同一聲音源的立體聲信號,也可以是完全不同的兩路單音頻信號。AES/EBU音頻信號的最小傳輸單位是長度為64 bit 的幀( flame) ,每幀數(shù)據(jù)包含2個32 bit的子幀,對應(yīng)于2個通道音頻的各1個采樣。每個子幀都由4 bit前導(dǎo)碼、4 bit輔助數(shù)據(jù)、20 bit音頻數(shù)據(jù)和4 bit其他數(shù)據(jù)組成,依照標(biāo)準(zhǔn)能夠支持48 kHz, 44. 1 kHz, 32 kHz 3種采樣率以及16~24 bit的采樣字長。子幀格式見圖1。
圖1 AES/EBU串行音頻的幀格式
在1個子幀中, 4 bit的輔助數(shù)據(jù)用于容納音頻采樣字中超出20 bit的部分。當(dāng)音頻字長為21~24 bit時,第4 bit是最低有效位。當(dāng)20 bit的編碼字長足夠使用時, 8~27 bit為取樣碼, 4~7 bit是輔助取樣位。V,U, C, P分別為有效位、用戶數(shù)據(jù)位、信道狀態(tài)位和奇偶校驗(yàn)位。
在連續(xù)的AES/EBU串行音頻數(shù)據(jù)流中,音頻幀被進(jìn)一步組織為192幀的數(shù)據(jù)包,數(shù)據(jù)包的第1幀中第1個子幀的前導(dǎo)碼為Z,其余所有的子幀l和子幀2的前導(dǎo)碼分別為X和Y。1個數(shù)據(jù)包中2個音頻通道的信道狀態(tài)位分別被組裝成192 bit的數(shù)據(jù)組,這一數(shù)據(jù)組給出了諸如音頻取樣字長、取樣頻率之類與音頻信號有關(guān)的重要信息,并指出了用戶數(shù)據(jù)位的格式信息。
1. 2 分量視頻信號:
625一line標(biāo)準(zhǔn)的數(shù)字分量視頻信號格式如圖2a所示。
一幀圖像共有625 行, 每行有1 728 個10 bit的數(shù)據(jù)字(word) 。1~312行為第1場, 313~625行為第2場。其中奇數(shù)場的第5 行和偶數(shù)場的第318 行保留用作檢錯處理( ErrorDetecTION and Handlin9, EDH) ,奇數(shù)場的第6行和偶數(shù)場的第319行保留用作垂直間隔切換點(diǎn)(VerticalIntervalSwitching Point) ,除此之外的總共621行的輔助數(shù)據(jù)空間全部可以用來嵌入音頻數(shù)據(jù)。
分量視頻行的數(shù)據(jù)格式如圖2b所示,一行視頻由1 728word組成,前288 word是數(shù)字行消隱區(qū),后1 440word是數(shù)字有效行數(shù)據(jù)區(qū)。其中行消隱區(qū)的開頭和結(jié)尾各有4 word的時序參考信號(Timing Reference Signal, TRS) ,分別為EAV(End of ActiveVideo)和SAV ( STartof Active Video) 。嵌入的音頻數(shù)據(jù)放置在每行視頻行消隱區(qū)的EAV和SAV之間,并且必須緊接著EAV放置”。
1. 3 輔助數(shù)據(jù)空間:
分量視頻信號的輔助數(shù)據(jù)包格式如圖3所示。前3個數(shù)據(jù)字是同步頭。視頻信號中全0和全1的數(shù)據(jù)字是專門預(yù)留給同步標(biāo)志使用的,故接收端通過這一包頭能可靠識別出嵌入在視頻中的音頻數(shù)據(jù)。其后的D ID (Data ID)定義了輔助數(shù)據(jù)包的特定類型,接收端根據(jù)D ID可對用戶數(shù)據(jù)進(jìn)行正確解讀。DBN (Data Block Number)是一個實(shí)現(xiàn)連續(xù)性指示的計(jì)數(shù)器,對于所有D ID編號相同的輔助數(shù)據(jù)包,DBN依次加1,實(shí)現(xiàn)連續(xù)計(jì)數(shù),以使接收端可以判斷數(shù)據(jù)是否有中斷。DC (Data Count)給出了其后的用戶數(shù)據(jù)個數(shù),最后是從D ID到用戶數(shù)據(jù)結(jié)尾的校驗(yàn)和,接收端通過校驗(yàn)和可判斷接收到的數(shù)據(jù)包中是否含有錯誤。
1. 4 音頻嵌入格式:
AES/EBU數(shù)字信號按照一定格式進(jìn)行打包,填充進(jìn)視頻行消隱區(qū)即可實(shí)現(xiàn)音頻嵌入。依據(jù)標(biāo)準(zhǔn)規(guī)定,可以嵌入的音頻最少2路,最多16路。嵌入到視頻數(shù)據(jù)中的音頻包有3種:音頻控制包、音頻數(shù)據(jù)包((AudioControl Packet, ACP) Audio Data Packet, ADP) 和擴(kuò)展數(shù)據(jù)包( Extended DataPacket, EDP) 。它們應(yīng)該盡量均勻地嵌入視頻信號中,以減小系統(tǒng)中的buffer所占用的資源。
音頻控制包格式如圖4a所示。待嵌入的音頻每4路為1個音頻組,每個音頻組都擁有自己獨(dú)立的一個控制包。控制包在每場視頻切換點(diǎn)(Video Switching Point)后面的視頻行中傳輸一次,它包含了采樣率、音頻聲道有效性指示、音頻處理延時等信息。控制包在輔助數(shù)據(jù)空間中的位置必須先于其他任何音頻包。
音頻數(shù)據(jù)包(圖4b)攜帶的是有效音頻信號,每一個AES/EBU音頻子幀中的20 bit音頻取樣碼和V,U, C 3個位通過一定的格式,映射為數(shù)據(jù)包中連續(xù)的3 word。將來自2個音頻對的4個子幀的音頻數(shù)據(jù)按順序排列,數(shù)據(jù)包就可以承載多達(dá)4路AES/EBU音頻信號的1個或多個采樣。
當(dāng)音頻采樣字長超過20 bit時,音頻子幀中的4 bit輔助數(shù)據(jù)被打包進(jìn)擴(kuò)展數(shù)據(jù)包(圖4c) ,每2個子幀的共8位輔助數(shù)據(jù)拼成擴(kuò)展包中的一個有效word。
音頻數(shù)據(jù)包和擴(kuò)展包必須放在每行視頻中緊接在EAV之后的位置上。擴(kuò)展包必須和相關(guān)的音頻數(shù)據(jù)包放置在同一輔助數(shù)據(jù)區(qū)中,并且緊接在音頻數(shù)據(jù)包后面。
2 結(jié)束語:
通過音頻嵌入技術(shù)在電視節(jié)目錄制和播出中的應(yīng)用,實(shí)現(xiàn)了音視頻無損耗傳輸,提高了音頻信號的傳輸質(zhì)量,解決了音視頻信號傳輸中不同步的問題,大大降低了電視信號的傳輸成本,提高了電視節(jié)目的質(zhì)量。