WebRTC的JitterBuff介紹

時間：2020-08-05 10:33:02

關(guān)鍵字： webrtc jitterbuff

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 前言如果網(wǎng)絡是理想的，即無丟包、無抖動、低延時，那么接收到一幀完整數(shù)據(jù)就直接播放，效果一定會非常好。但是實際的網(wǎng)絡往往很復雜，尤其是無線網(wǎng)絡。如果還是這樣直接播放，網(wǎng)絡稍微變差，視頻就會卡頓，出

前言如果網(wǎng)絡是理想的，即無丟包、無抖動、低延時，那么接收到一幀完整數(shù)據(jù)就直接播放，效果一定會非常好。但是實際的網(wǎng)絡往往很復雜，尤其是無線網(wǎng)絡。如果還是這樣直接播放，網(wǎng)絡稍微變差，視頻就會卡頓，出現(xiàn)馬賽克等異常情況。所以，在接收端對接收的數(shù)據(jù)做一個緩沖是很有必要的。緩沖一定是以延時作為代價的，延時越大，對抖動的過濾效果越好。一個優(yōu)秀的視頻jitterbuffer，不僅要能夠?qū)G包、亂序、延時到達等異常情況進行處理，而且還要能夠讓視頻平穩(wěn)的播放，盡可能的避免出現(xiàn)明顯的加速播放和緩慢播放。主流的實時音視頻框架基本都會實現(xiàn)jitterbuffer功能，諸如WebRTC、doubango等。WebRTC的jitterbuffer相當優(yōu)秀，按照功能分類的話，可以分為jitter和buffer。buffer主要對丟包、亂序、延時到達等異常情況進行處理，還會和NACK、FEC、FIR等QOS相互配合。jitter主要根據(jù)當前幀的大小和延時評估出jitter delay，再結(jié)合decode delay、render delay以及音視頻同步延時，得到render TIme，來控制平穩(wěn)的渲染視頻幀。下面將分別對jitter和buffer做介紹。 Buffer

buffer運行機制圖 buffer對接收到的rtp包的主要處理操作如下：

第一次接收到一個視頻包，從freeframes隊列中彈出一個空frame塊，用來放置這個包。

之后每次接收到一個RTP包，根據(jù)時間戳在incompleteframes和decodableframes中尋找，看是否已經(jīng)接收到過相同時間戳的包，如果找到，則彈出該frame塊，否則，從freeframes彈出一個空frame。

根據(jù)包的序列號，找到應該插入frame的位置，并更新state。其中state有empty、incomplete、decodable和complete，empty為沒有數(shù)據(jù)的狀態(tài)，incomplete為至少有一個包的狀態(tài)，decodable為可解碼狀態(tài)，complete為這一幀所有數(shù)據(jù)都已經(jīng)到齊。decodable會根據(jù)decode_error_mode 有不同的規(guī)則，QOS的不同策略會設置不同的decode_error_mode ，包含kNoErrors、kSelecTIveErrors以及kWithErrors。decode_error_mode 就決定了解碼線程從buffer中取出來的幀是否包含錯誤，即當前幀是否有丟包。

根據(jù)不同的state將frame幀push回到隊列中去。其中state為incomplete時，push到incompleteframes隊列，decodable和complete狀態(tài)的frame，push回到decodableframes隊列中。

freeframes隊列有初始size，freeframes隊列為空時，會增加隊列size，但有最大值。也會定期從incompleteframes和decodable隊列中清除一些過時的frame，push到freeframes隊列。

解碼線程取出frame,解碼完成之后，push回freeframes隊列。

jitterbuffer與QOS策略聯(lián)系緊密，比如，incompleteframes和decodable隊列清除一些frame之后，需要FIR（關(guān)鍵幀請求），根據(jù)包序號檢測到丟包之后要NACK（丟包重傳）等。 Jitter所謂jitter就是一種抖動。具體如何解釋呢？從源地址發(fā)送到目標地址，會發(fā)生不一樣的延遲，這樣的延遲變動就是jitter。 jitter會帶來什么影響？jitter會讓音視頻的播放不平穩(wěn)，如音頻的顫音，視頻的忽快忽慢。那么如何對抗jitter呢？增加延時。需要增加一個因為jitter而存在的delay，即jitterdelay。

更新jitterdelay圖其中，frameDelayMS指的是一幀數(shù)據(jù)因為分包和網(wǎng)絡傳輸所造成的延時總和、幀間延遲。具體如下圖，即RTP1和RTP2到達Receiver的時間差。

幀間延遲圖 framesizeBytes指當前幀數(shù)據(jù)大小，incompleteFrame指是否為完整的幀，UpdateEsTImate為根據(jù)這三個參數(shù)來更新jitterdelay的模塊，這個模塊為核心模塊，其中會用到卡爾曼濾波對幀間延遲進行濾波。 JitterDelay =theta[0] * (MaxFS – AvgFS) + [noiseStdDevs * sqrt(varNoise) –noiseStdDevOffset] 其中theta[0]是信道傳輸速率的倒數(shù)，MaxFS是自會話開始以來所收到的最大幀大小，AvgFS表示平均幀大小。noiseStdDevs表示噪聲系數(shù)2.33，varNoise表示噪聲方差，noiseStdDevOffset是噪聲扣除常數(shù)30。UpdateEsTImate會不斷地對varNoise等進行更新。在得到jitterdelay之后，通過jitterdelay+ decodedelay +renderdelay，再確保大于音視頻同步的延時，加上當前系統(tǒng)時間得到rendertime，這樣就可以控制播放時間?？刂撇シ?，也就間接控制了buffer的大小。
取幀，解碼播放

取幀解碼播放圖本文只介紹jitterbuffer相關(guān)內(nèi)容，所以這里只詳細介紹取幀這一步。解碼線程會一直從buffer中尋找期望的數(shù)據(jù)，這里說的期望的數(shù)據(jù)分為必須完整的和可以不完整的。如果期望的數(shù)據(jù)是完整的，那就要從decodableframes隊列取出狀態(tài)為complete的frame，如果期望的數(shù)據(jù)可以是不完整的，就要從decodableframes和incompleteframes隊列取出數(shù)據(jù)。取數(shù)據(jù)之前，總是先去找到數(shù)據(jù)的時間戳，然后計算完jitterdelay和渲染時間，再經(jīng)過一段時間的延時（這個延時為渲染時間減去當前時間、decodedelay和render delay）之后再去取得數(shù)據(jù)，傳遞到解碼，渲染。取完整的幀時，有一個最大等待時間，即當前buffer中沒有完整的幀，那么可以等待一段時間，以期望在這段時間里，可以出現(xiàn)完整的幀。后記從上述原理可以看出，WebRTC中的接收buffer并非是固定的，而是根據(jù)網(wǎng)絡波動等因素隨時變化的。jitter則是為了對抗網(wǎng)絡波動造成的抖動，使得視頻能夠平穩(wěn)播放。那么，jitterbuffer是否存在可以優(yōu)化的空間呢？jitterbuffer已經(jīng)較為優(yōu)秀，但我們可以通過調(diào)整里面的一些策略，來使視頻質(zhì)量更好。比如，增大緩沖區(qū)，因為jitterbuffer是動態(tài)的，直接增大freeframes的size是無效的，只能通過調(diào)整延時，來增大緩沖區(qū)。再比如，調(diào)整等待時間，以期望獲得更多完整的幀。再如，配合NACK，F(xiàn)IR、FEC等QOS策略，來對抗丟包。當然，這都是以犧牲延時為代價的?？傊?，要在延時和丟包、抖動之間做出平衡。