專為大規(guī)模交互式流媒體而生——AMD發(fā)布集成雙5nm VPU的Alveo MA35D加速卡
視頻流媒體市場總額將從2021年的61個Billion一路增長,至2028年達到213個Billion。流媒體大漲的背后技術(shù)挑戰(zhàn)來自新一代的交互模型,會是“多對多”的形式。這種交互模型的變化,將會徹底改變基礎(chǔ)設(shè)施的部署模式。
傳統(tǒng)的直播場景為廣播流媒體的形式,是“一對多”的模式;而新一代的直播場景,是“多對多”的模式,每個人都是主播,每個端即是數(shù)據(jù)源也是接收器。這意味著原來通過云集中的方式能夠獲得的經(jīng)濟效益已經(jīng)不復存在了,因此需要徹底改變基礎(chǔ)設(shè)施部署模式。
為了迎合這種流媒體變革趨勢,AMD于近日發(fā)布了最新的Alveo MA35D加速卡。AMD 視頻戰(zhàn)略與市場開發(fā)主管 Sean Gardner在媒體會上進行了精彩的分享。
“每個人都是主播”,流媒體基礎(chǔ)設(shè)施部署模式改變
疫情催生了直播市場的增長,而在疫情結(jié)束之后,實況直播市場增長勢頭不減。據(jù)調(diào)查數(shù)據(jù)顯示,視頻時長定的年復合增長率達到20%。從2021年610億美元市場,一路增長至202年2130億的市場規(guī)模。而這其中主要的推動力,就來自于視頻直播。從2021年的全球視頻時長統(tǒng)計數(shù)據(jù)來看,直播占據(jù)了70%的比例。
傳統(tǒng)的廣播流直播的方式主要是“一對多”,是由軟件和CPU提供支持。由于視頻流的數(shù)量比較少,同時時延比較可控,因此可以用比較傳統(tǒng)的現(xiàn)有網(wǎng)絡(luò)支持。
而新一代的直播場景中,每個人都是主播,這也就意味著每個客戶端既是數(shù)據(jù)源也是接收器。這樣的應(yīng)用場景要求在端側(cè)的多流視頻處理能力提升。與之同時的,整個基礎(chǔ)設(shè)置的部署模式也會發(fā)生變革。
傳統(tǒng)的GPU和CPU不能更加高效地處理這種多對多的直播流媒體場景,因此AMD發(fā)布了其最新的Alveo MA35D加速卡,專門針對“多對多”的業(yè)務(wù)場景,使其更具可拓展性和商業(yè)可行性。
Alveo MA35D具備兩個5nm基于ASIC的、支持AV1壓縮標準的視頻處理單元(VPU),每卡支持 32 路 1080p60 轉(zhuǎn)碼密度,專為推動大規(guī)模直播互動流媒體服務(wù)新時代而打造。據(jù)AMD視頻戰(zhàn)略與市場開發(fā)主管Sean Gardner介紹,“MA”是代表媒體加速器(Media Accelerator),35代表Alveo U30后的新一代產(chǎn)品,D表示兩個(dual)視頻處理單元意思。
與前代Alveo U30相比,Alveo MA35D實現(xiàn)了全面提升:通道密度提高了 4 倍、每通道功耗降低了 2 倍、時延降低了 4 倍。
Alveo MA35D:專為多對多直播場景而生的加速卡
取得如此好的性能表現(xiàn),是因為Alevo MA35D硬件專為直播場景而設(shè)計,是硬件架構(gòu)和應(yīng)用場景進行了緊密的耦合的結(jié)果。市面上很多的解決方案目前都是在消費者事業(yè)部產(chǎn)生的,而AMD則是針對云和基礎(chǔ)設(shè)施而研發(fā)的。
Alveo MA35D主要體現(xiàn)在兩大技術(shù)突破。一是采用了專門的視頻處理單元(5nm的ASIC),二是采用AI實現(xiàn)了智能的視頻處理。
Alveo MA35D 采用專用視頻處理單元(VPU)加速整體視頻處理。通過在視頻處理單元上執(zhí)行所有視頻處理功能,可以最大限度減少 CPU 和加速器之間的數(shù)據(jù)遷移,進而降低整體時延并實現(xiàn)通道密度最大化,達到每卡高達 32 路 1080p60、8 路 4Kp60 或 4 路 8Kp30 的轉(zhuǎn)碼密度。在芯片四角有四個分離的支持AV1壓縮標準的編碼器(MP)單元模塊,使得客戶在部署應(yīng)用的時候,能夠享受最大的靈活性??蛻艨梢砸贿呌门f的壓縮標準,一邊加入新的壓縮標準。該平臺還針對主流 H.264 和 H.265 編解碼器提供了超低時延支持,并配備下一代 AV1 轉(zhuǎn)碼器引擎,可節(jié)省高達 52% 的帶寬。
另一個創(chuàng)新在于Alveo MA35D加速卡上集成了人工智能( AI )處理器和專用視頻質(zhì)量引擎,能夠以更低的帶寬提升體驗質(zhì)量。AI 處理器會逐幀評估內(nèi)容并動態(tài)調(diào)整編碼器設(shè)置,以提高感知視覺質(zhì)量,同時最大限度降低比特率。優(yōu)化技術(shù)則包括用于文本和面部分辨率的感興趣區(qū)域( ROI )編碼、用于糾正劇烈運動和復雜場景的偽影檢測,以及用于比特率優(yōu)化預(yù)測洞察的內(nèi)容感知編碼。
在發(fā)布會現(xiàn)場AMD展示了一個晚間新聞的例子:當畫面從主持人切換到體育賽事,再切回主持人的時候,通過Alveo MA35D上的VQ分析IP模塊,可以快速實現(xiàn)主持人的邊緣的捕捉,實現(xiàn)近乎實時的動態(tài)處理。Sean表示,在人工智能進行動態(tài)調(diào)整和變化的過程中,會形成一個反饋環(huán),來確保所做的決策不是錯誤的。通過VQ分析可以確保視頻每一幀的質(zhì)量,一旦出現(xiàn)錯誤都可以及時調(diào)整。盡管類似的方案中已經(jīng)在傳統(tǒng)的模式中得以應(yīng)用,但通過AMD Alveo MA35D實現(xiàn)的這個方案得以在非常低時延的應(yīng)用場景中實現(xiàn)。
過AI技術(shù),在視頻轉(zhuǎn)碼過程中可以更精準地捕捉到例如人臉等重點區(qū)域,然后在終點區(qū)域分配更多的比特,在其他非重點區(qū)域激進地進行壓縮,降低比特率。但因為捕捉到了人臉這樣的重點區(qū)域進行了更精細地處理,所以最終轉(zhuǎn)碼的效果會更好。
為交互式流媒體帶來具有經(jīng)濟效益的拓展
帶寬的消耗對于流媒體客戶來說是非常大的一項運營開支,數(shù)據(jù)顯示,每個通道的成本是50美元,每通道的功耗是1瓦??蛻粼谠u估效率的時候主要看的是每平方占地面積的成本,以及每個通道的功耗。
通過AI技術(shù)對重點和非重點區(qū)域分配不同的比特和壓縮率,是一種更有效節(jié)省帶寬的方式。而同時,AMD也致力于編碼解碼器方面進行改善。如下圖所示,對比其他壓縮標準,在達到同等的視覺質(zhì)量的前提下,AMD AV1的編碼器在帶寬上的節(jié)省高達52%。
在卡的層面上,Alveo MA35D對32路通道都做了優(yōu)化。配備8張卡的1U機架式服務(wù)器可提供256個通道,以實現(xiàn)每服務(wù)器、每機架或每數(shù)據(jù)中心轉(zhuǎn)碼密度最大化。
Sean表示,Alveo MA35D能夠大大的改善經(jīng)濟性,從而使得新的應(yīng)用場景變得商業(yè)可行。Alveo MA35D卡可通過以每流1瓦的功率每卡提供多達32路1080p60轉(zhuǎn)碼密度。4K編碼時延最低8毫秒,僅為常規(guī)處理時間(16毫秒)的一半。此外Alveo MA35D還具備22 TOPS AI算力(INT8),可以支持非常多的新的應(yīng)用場景。同時AMD也確保Alveo MA35D加速卡的成本效益,1595美元的建議零售價對客戶而言也非常有吸引力。
結(jié)語
“在流媒體處理的功耗方面,絕大部分GPU卡的功耗都要達到75瓦,而Alveo MA35D一般來說是35瓦左右?!盇MD 產(chǎn)品管理與營銷總監(jiān) Girish Malipeddi分享到。
“但Alveo MA35D對于CPU和GPU并非競品,而是補充性的產(chǎn)品?!盨ean分享到,“有一些應(yīng)用需要三者協(xié)作來提供非常具有成本效益和高性能的解決方案。例如云電競或云游戲,GPU盡可能多的去呈現(xiàn)游戲內(nèi)容,Alveo MA35D完成所有的低時延高質(zhì)量的編碼,AMD EPYC CPU可以完成所有的應(yīng)用級的系統(tǒng)處理。這樣的組合能夠給客戶提供最高的密度,同時以非常優(yōu)惠的價位和很低的功耗來實現(xiàn)?!?
20230414_6439478072c3c__專為大規(guī)模交互式流媒體而生的加速卡——AMD發(fā)布集成雙5nm VPU的Alveo MA35D加速卡