原創(chuàng)

專為大規(guī)模交互式流媒體而生——AMD發(fā)布集成雙5nm VPU的Alveo MA35D加速卡

時間：2023-04-14 20:34:32

關(guān)鍵字： AMD Xilinx 加速卡 VPU Alveo MA35D

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]視頻流媒體市場總額將從2021年的61個Billion一路增長，至2028年達到213個Billion。流媒體大漲的背后技術(shù)挑戰(zhàn)來自新一代的交互模型，會是“多對多”的形式。這種交互模型的變化，將會徹底改變基礎(chǔ)設(shè)施的部署模式。

視頻流媒體市場總額將從2021年的61個Billion一路增長，至2028年達到213個Billion。流媒體大漲的背后技術(shù)挑戰(zhàn)來自新一代的交互模型，會是“多對多”的形式。這種交互模型的變化，將會徹底改變基礎(chǔ)設(shè)施的部署模式。

傳統(tǒng)的直播場景為廣播流媒體的形式，是“一對多”的模式；而新一代的直播場景，是“多對多”的模式，每個人都是主播，每個端即是數(shù)據(jù)源也是接收器。這意味著原來通過云集中的方式能夠獲得的經(jīng)濟效益已經(jīng)不復存在了，因此需要徹底改變基礎(chǔ)設(shè)施部署模式。

為了迎合這種流媒體變革趨勢，AMD于近日發(fā)布了最新的Alveo MA35D加速卡。AMD 視頻戰(zhàn)略與市場開發(fā)主管 Sean Gardner在媒體會上進行了精彩的分享。

“每個人都是主播”，流媒體基礎(chǔ)設(shè)施部署模式改變

疫情催生了直播市場的增長，而在疫情結(jié)束之后，實況直播市場增長勢頭不減。據(jù)調(diào)查數(shù)據(jù)顯示，視頻時長定的年復合增長率達到20%。從2021年610億美元市場，一路增長至202年2130億的市場規(guī)模。而這其中主要的推動力，就來自于視頻直播。從2021年的全球視頻時長統(tǒng)計數(shù)據(jù)來看，直播占據(jù)了70%的比例。

傳統(tǒng)的廣播流直播的方式主要是“一對多”，是由軟件和CPU提供支持。由于視頻流的數(shù)量比較少，同時時延比較可控，因此可以用比較傳統(tǒng)的現(xiàn)有網(wǎng)絡(luò)支持。

而新一代的直播場景中，每個人都是主播，這也就意味著每個客戶端既是數(shù)據(jù)源也是接收器。這樣的應(yīng)用場景要求在端側(cè)的多流視頻處理能力提升。與之同時的，整個基礎(chǔ)設(shè)置的部署模式也會發(fā)生變革。

傳統(tǒng)的GPU和CPU不能更加高效地處理這種多對多的直播流媒體場景，因此AMD發(fā)布了其最新的Alveo MA35D加速卡，專門針對“多對多”的業(yè)務(wù)場景，使其更具可拓展性和商業(yè)可行性。

Alveo MA35D具備兩個5nm基于ASIC的、支持AV1壓縮標準的視頻處理單元（VPU），每卡支持 32 路 1080p60 轉(zhuǎn)碼密度，專為推動大規(guī)模直播互動流媒體服務(wù)新時代而打造。據(jù)AMD視頻戰(zhàn)略與市場開發(fā)主管Sean Gardner介紹，“MA”是代表媒體加速器（Media Accelerator），35代表Alveo U30后的新一代產(chǎn)品，D表示兩個（dual）視頻處理單元意思。

與前代Alveo U30相比，Alveo MA35D實現(xiàn)了全面提升：通道密度提高了 4 倍、每通道功耗降低了 2 倍、時延降低了 4 倍。

Alveo MA35D：專為多對多直播場景而生的加速卡

取得如此好的性能表現(xiàn)，是因為Alevo MA35D硬件專為直播場景而設(shè)計，是硬件架構(gòu)和應(yīng)用場景進行了緊密的耦合的結(jié)果。市面上很多的解決方案目前都是在消費者事業(yè)部產(chǎn)生的，而AMD則是針對云和基礎(chǔ)設(shè)施而研發(fā)的。

Alveo MA35D主要體現(xiàn)在兩大技術(shù)突破。一是采用了專門的視頻處理單元（5nm的ASIC），二是采用AI實現(xiàn)了智能的視頻處理。

Alveo MA35D 采用專用視頻處理單元（VPU）加速整體視頻處理。通過在視頻處理單元上執(zhí)行所有視頻處理功能，可以最大限度減少 CPU 和加速器之間的數(shù)據(jù)遷移，進而降低整體時延并實現(xiàn)通道密度最大化，達到每卡高達 32 路 1080p60、8 路 4Kp60 或 4 路 8Kp30 的轉(zhuǎn)碼密度。在芯片四角有四個分離的支持AV1壓縮標準的編碼器（MP）單元模塊，使得客戶在部署應(yīng)用的時候，能夠享受最大的靈活性?？蛻艨梢砸贿呌门f的壓縮標準，一邊加入新的壓縮標準。該平臺還針對主流 H.264 和 H.265 編解碼器提供了超低時延支持，并配備下一代 AV1 轉(zhuǎn)碼器引擎，可節(jié)省高達 52% 的帶寬。

另一個創(chuàng)新在于Alveo MA35D加速卡上集成了人工智能（ AI ）處理器和專用視頻質(zhì)量引擎，能夠以更低的帶寬提升體驗質(zhì)量。AI 處理器會逐幀評估內(nèi)容并動態(tài)調(diào)整編碼器設(shè)置，以提高感知視覺質(zhì)量，同時最大限度降低比特率。優(yōu)化技術(shù)則包括用于文本和面部分辨率的感興趣區(qū)域（ ROI ）編碼、用于糾正劇烈運動和復雜場景的偽影檢測，以及用于比特率優(yōu)化預(yù)測洞察的內(nèi)容感知編碼。

在發(fā)布會現(xiàn)場AMD展示了一個晚間新聞的例子：當畫面從主持人切換到體育賽事，再切回主持人的時候，通過Alveo MA35D上的VQ分析IP模塊，可以快速實現(xiàn)主持人的邊緣的捕捉，實現(xiàn)近乎實時的動態(tài)處理。Sean表示，在人工智能進行動態(tài)調(diào)整和變化的過程中，會形成一個反饋環(huán)，來確保所做的決策不是錯誤的。通過VQ分析可以確保視頻每一幀的質(zhì)量，一旦出現(xiàn)錯誤都可以及時調(diào)整。盡管類似的方案中已經(jīng)在傳統(tǒng)的模式中得以應(yīng)用，但通過AMD Alveo MA35D實現(xiàn)的這個方案得以在非常低時延的應(yīng)用場景中實現(xiàn)。

過AI技術(shù)，在視頻轉(zhuǎn)碼過程中可以更精準地捕捉到例如人臉等重點區(qū)域，然后在終點區(qū)域分配更多的比特，在其他非重點區(qū)域激進地進行壓縮，降低比特率。但因為捕捉到了人臉這樣的重點區(qū)域進行了更精細地處理，所以最終轉(zhuǎn)碼的效果會更好。

為交互式流媒體帶來具有經(jīng)濟效益的拓展

帶寬的消耗對于流媒體客戶來說是非常大的一項運營開支，數(shù)據(jù)顯示，每個通道的成本是50美元，每通道的功耗是1瓦?？蛻粼谠u估效率的時候主要看的是每平方占地面積的成本，以及每個通道的功耗。

通過AI技術(shù)對重點和非重點區(qū)域分配不同的比特和壓縮率，是一種更有效節(jié)省帶寬的方式。而同時，AMD也致力于編碼解碼器方面進行改善。如下圖所示，對比其他壓縮標準，在達到同等的視覺質(zhì)量的前提下，AMD AV1的編碼器在帶寬上的節(jié)省高達52%。

在卡的層面上，Alveo MA35D對32路通道都做了優(yōu)化。配備8張卡的1U機架式服務(wù)器可提供256個通道，以實現(xiàn)每服務(wù)器、每機架或每數(shù)據(jù)中心轉(zhuǎn)碼密度最大化。

Sean表示，Alveo MA35D能夠大大的改善經(jīng)濟性，從而使得新的應(yīng)用場景變得商業(yè)可行。Alveo MA35D卡可通過以每流1瓦的功率每卡提供多達32路1080p60轉(zhuǎn)碼密度。4K編碼時延最低8毫秒，僅為常規(guī)處理時間（16毫秒）的一半。此外Alveo MA35D還具備22 TOPS AI算力（INT8），可以支持非常多的新的應(yīng)用場景。同時AMD也確保Alveo MA35D加速卡的成本效益，1595美元的建議零售價對客戶而言也非常有吸引力。

結(jié)語

“在流媒體處理的功耗方面，絕大部分GPU卡的功耗都要達到75瓦，而Alveo MA35D一般來說是35瓦左右?！盇MD 產(chǎn)品管理與營銷總監(jiān) Girish Malipeddi分享到。

“但Alveo MA35D對于CPU和GPU并非競品，而是補充性的產(chǎn)品?！盨ean分享到，“有一些應(yīng)用需要三者協(xié)作來提供非常具有成本效益和高性能的解決方案。例如云電競或云游戲，GPU盡可能多的去呈現(xiàn)游戲內(nèi)容，Alveo MA35D完成所有的低時延高質(zhì)量的編碼，AMD EPYC CPU可以完成所有的應(yīng)用級的系統(tǒng)處理。這樣的組合能夠給客戶提供最高的密度，同時以非常優(yōu)惠的價位和很低的功耗來實現(xiàn)?！?