移動(dòng)光追實(shí)現(xiàn)大規(guī)模普及的技術(shù)基礎(chǔ),移動(dòng)GPU邁向更高能效和可拓展性
掃描二維碼
隨時(shí)隨地手機(jī)看文章
光線追蹤技術(shù)顯著提高了圖形渲染質(zhì)量,但目前更多出現(xiàn)在PC和筆記本這些終端設(shè)備上,由于功耗和成本問題尚未在移動(dòng)設(shè)備上實(shí)現(xiàn)大規(guī)模搭載。但毫無疑問的是,這已經(jīng)成為了手機(jī)芯片廠商和手機(jī)廠商共同押注的方向。在2021年,Imagination的CXT系列首次在移動(dòng)GPU上實(shí)現(xiàn)了硬件光追,讓移動(dòng)端的光追成為可能。在移動(dòng)GPU上實(shí)現(xiàn)硬件光追是第一步,追求更好的能效表現(xiàn)和可拓展性則是第二步。近日發(fā)布的全新DXT系列GPU上,Imagination又引入了新的技術(shù),讓移動(dòng)光追的功耗和可拓展性大大提升,從而為移動(dòng)光追從實(shí)現(xiàn)到大規(guī)模搭載,奠定了技術(shù)基礎(chǔ)。
手游沉浸式體驗(yàn),硬件光追必不可少
近年來,移動(dòng)游戲市場迎來飛速發(fā)展。據(jù)data.ai和IDC的數(shù)據(jù)顯示,2022年移動(dòng)游戲市場將超過1360 億美元,比游戲市場整體增長速度快 1.7 倍;移動(dòng)游戲在全球年度消費(fèi)者支出中所占的市場份額將超過 60%。ABI 2022年的調(diào)查顯示,手機(jī)游戲用戶會(huì)從26億增長到2030年的39億,到2026年,85%的游戲玩家首選在手機(jī)上玩游戲。
隨著手機(jī)游戲用戶的增多,對于手機(jī)游戲的體驗(yàn)的要求也愈來愈高。在游戲內(nèi)容上,有著幾個(gè)重要的趨勢:一是更高的幀率(120FPS+);二是后處理方面的新需求增加,例如運(yùn)動(dòng)模糊處理、焦距變換和藝術(shù)效果等;三是內(nèi)容復(fù)雜度提升,例如幾何、紋理和陰影等;四是需要更好的光照和陰影效果。移動(dòng)手游玩家希望在獲得更具沉浸感的體驗(yàn),并且不能影響到游戲的流程體驗(yàn)。
其中光線追蹤是一種圖形渲染技術(shù),通過算法來跟蹤和模擬真實(shí)世界中發(fā)生的光的實(shí)際路徑,開發(fā)人員可以利用光反射、折射和吸收來在游戲中提供類似真實(shí)世界的反射和陰影效果。與非光線追蹤的游戲相比,支持光線追蹤的游戲?qū)⑻峁└嗉?xì)節(jié)和動(dòng)態(tài)圖形質(zhì)量。這種圖形質(zhì)量的提升并不僅僅局限于照射和陰影,像水的倒影、一些金屬材質(zhì)的光影反射等也會(huì)有明顯的提升。
因此光追是提升手游沉浸感的有效途徑,2022年的旗艦手機(jī)已經(jīng)搭載了光線追蹤技術(shù),2032年的旗艦手機(jī)也都必然會(huì)搭載這一技術(shù)。而在旗艦手機(jī)之后,光追技術(shù)逐漸將會(huì)下放到中端手機(jī)中,實(shí)現(xiàn)大規(guī)模的搭載。但光追需要進(jìn)行大量的光線折射、二次反射的并行計(jì)算。手機(jī)的終端形態(tài)決定了其對于功耗的要求更為苛刻,因此硬件光追要實(shí)現(xiàn)在手機(jī)上的大規(guī)模搭載,需要確保功耗達(dá)到在移動(dòng)端的要求,在此基礎(chǔ)上,才難談去追求更好的光追體驗(yàn)。
僅僅在軟件上進(jìn)行優(yōu)化是不夠的,移動(dòng)GPU中需要集成專門的光追處理硬件單元,實(shí)現(xiàn)光追計(jì)算的加速,實(shí)現(xiàn)整體更低的能效。
Imagination在上一代的CXT中就已經(jīng)實(shí)現(xiàn)了硬件光追計(jì)算單元(RAC)的集成,而在最新的DXT中,通過可配置的RAC、結(jié)合FSR技術(shù),讓光追技術(shù)在移動(dòng)端的配置更為靈活高效,從而實(shí)現(xiàn)了更低的功耗和更高的性能表現(xiàn)。
從CXT到DXT:可配置RAC讓移動(dòng)光追邁入大規(guī)模應(yīng)用
目前光線追蹤技術(shù)有所不同,因此有必要對其進(jìn)行區(qū)分。要對比GPU的光追的效果,首先需要進(jìn)入一套評估體系。作為移動(dòng)硬件光追的先行者,Imagnation率先提出了一套叫做RTLS(Ray Tracing Level Syetem)的光追等級系統(tǒng)。RTLS一共分為五個(gè)等級:
第一級的光線追蹤技術(shù),都是采用純軟件的方式,硬件資源的開銷比較大,CPU的資源占用較高。
第二級的光線追蹤技術(shù)中,對于一些光或三角形碰撞采用硬件處理,節(jié)省了CPU的資源,目前典型的桌面顯卡采用的都是這一類技術(shù)。
第三級的光線追蹤技術(shù)對BVH回溯提供了硬件支持,從而進(jìn)一步實(shí)現(xiàn)了功耗的降低。
第四級的光線追蹤技術(shù)菜了光的自動(dòng)測試和回溯外,還把相同光線上的光束統(tǒng)一計(jì)算,采用統(tǒng)一的指令運(yùn)行。
第五級的光線追蹤技術(shù),會(huì)進(jìn)一步將會(huì)更多計(jì)算工作負(fù)荷從原來的GPU的渲染器或著色器中分離出來,轉(zhuǎn)移到專門的硬件上去加速,從而省下更多的GPU資源來做其他動(dòng)態(tài)渲染,這樣可以在性能提升的同時(shí)降低功耗。
Imagination從CXT系列的發(fā)布起,就實(shí)現(xiàn)了第四級的光追技術(shù)。CXT開始采用了名為Photon架構(gòu),內(nèi)置專門的光線追蹤計(jì)算單元RAC,將光追的功耗降低到了移動(dòng)平臺(tái)可以搭載的水平。而近日最新發(fā)布的DXT系列GPU,則在第四級光追的基礎(chǔ)上,實(shí)現(xiàn)了可拓展的RAC,并可以結(jié)合FSR技術(shù),從而實(shí)現(xiàn)更小硬件資源下的更好光追效果。
Imagination的全新系列GPU,基本上遵循著一年一代的發(fā)布節(jié)奏,并且每一代都具有特殊的意義。第一代的A系列,奠定了高能效的架構(gòu)的基礎(chǔ);第二代的B系列,則引入了原生可拓展的架構(gòu)特點(diǎn),支持chiplet的設(shè)計(jì)方式;第三代CXT系列則將硬件光追在移動(dòng)端的實(shí)現(xiàn)提供了可能;最新的第四代DXT,進(jìn)一步解決了在移動(dòng)端進(jìn)行大規(guī)模搭載的技術(shù)難題,實(shí)現(xiàn)了光追技術(shù)的可拓展性和更低功耗。
Imagination 公司首席營銷官David Harold表示,L4級別的光線追蹤針對“相關(guān)性”去做的能耗和開銷的減少,對移動(dòng)端光線追蹤的實(shí)際應(yīng)用至關(guān)重要。市面上宣稱有了光線追蹤技術(shù)的手機(jī),其實(shí)用的都還是第一級別的軟件解決方案,真正使用起來能耗會(huì)非常嚇人。DXT具有硬件級別的光線追蹤技術(shù),滿足移動(dòng)端可接受的能耗開銷,可以更好地讓光線追蹤技術(shù)盡快鋪開到更多設(shè)備。
對于手機(jī)廠商而言,可拓展的RAC讓其在構(gòu)建不同定位產(chǎn)品時(shí),進(jìn)行不同能力等級的光追技術(shù)搭載,實(shí)現(xiàn)了極大開發(fā)效率的提高。例如主流手機(jī)系列對于芯片面積比較在意,就可以選擇配置小一點(diǎn)的RAC;旗艦手機(jī)更在意游戲高性能,就可以選擇4 RAC的配置。這樣手機(jī)廠商就可以在設(shè)計(jì)時(shí)以最小的改動(dòng),完成不同檔位手機(jī)的不同光追效果配置。
對于開發(fā)者而言,耗費(fèi)了大量的開發(fā)精力開發(fā)的具備光線追蹤的游戲內(nèi)容,如果僅限于高端手機(jī)上,則會(huì)無法達(dá)到足夠的回饋。而有了DXT的可拓展RAC之后,中端手機(jī)上也可以實(shí)現(xiàn)光線追蹤技術(shù)的搭載。最初的中端手機(jī)中可能只有0.5個(gè)RAC的單元,但也能夠運(yùn)行光追游戲內(nèi)容,因此開發(fā)者對于移動(dòng)端的光追游戲內(nèi)容的開發(fā)熱情將會(huì)提高。
手機(jī)廠商和開發(fā)者都可以通過可拓展的RAC這一特性,獲得足夠的動(dòng)力,從而真正將移動(dòng)光追生態(tài)推起來,實(shí)現(xiàn)市場覆蓋率的提高。
DXT中的“黃金搭檔”:光線追蹤+FSR技術(shù)
DXT系列的高配型號DXT72-2304 RT3實(shí)現(xiàn)了50%的性能增加和計(jì)算能力增加,標(biāo)配達(dá)到2.25T浮點(diǎn)運(yùn)算能力,72GB像素填充能力,9TB的AI推理能力,同時(shí)把第四級別的光線追蹤技術(shù)進(jìn)行了可配置化、可擴(kuò)展化,F(xiàn)SR技術(shù)搭配光線追蹤一起使用,使得游戲體驗(yàn)更加流暢和真實(shí),針對游戲環(huán)境引進(jìn)的2D Dual-Rate Texturing功能,可以讓Texuring數(shù)量翻倍。
據(jù)Imagination官方介紹:PowerVR Photon架構(gòu)的主要特點(diǎn)是RAC,這是一種新的低功耗專用硬件GPU組件,相比效率較低的 RTLS 2級架構(gòu),它可以加速和卸載更多來自著色器內(nèi)核的光線追蹤計(jì)算。RAC包含了光線存儲(chǔ)(Ray Store)、光線任務(wù)調(diào)度器(Ray Task Scheduler)和相干性聚集器(Coherency Gatherer),并與兩個(gè)128寬的統(tǒng)一著色器集群(USC)緊密耦合,USC擁有高速專用數(shù)據(jù)通路,可以實(shí)現(xiàn)最高效且功耗最低的光線追蹤部署。Ray Store可以在處理過程中將光線數(shù)據(jù)結(jié)構(gòu)保存在芯片上,并提供對 RAC中所有單元的高帶寬讀寫訪問,從而避免了將光線數(shù)據(jù)存儲(chǔ)或讀取至動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)所造成的速度降低或功耗增加。Ray Task Scheduler可以卸載著色器集群的任務(wù),并通過專用硬件部署和追蹤光線工作負(fù)載,同時(shí)保持高光線吞吐量和低功耗。獨(dú)特的Coherency Gatherer單元可以分析所有傳播中的光線,并將整個(gè)場景中的光線綁定成多個(gè)相干組,從而能夠以更高的效率對它們進(jìn)行處理。
Imagination中國區(qū)技術(shù)總監(jiān)艾克先生表示,RAC單元中BTU、DTTU、PTU,完成的是第二級的光線追蹤技術(shù),可以在三角形和光和進(jìn)行碰撞檢測。然后引入調(diào)度器(BPS)和光線存儲(chǔ)(RS),方便在BVH里面回溯。因?yàn)榛厮莸臅r(shí)候需要消耗大量的資源,所以引入了PCG。PCG能夠把相同的光束聚合在一起統(tǒng)一計(jì)算,然后用相同的指令完成并行計(jì)算,節(jié)省了大量的功耗,從而實(shí)現(xiàn)了第三級的硬件光追。在第三級的基礎(chǔ)上加上光線存儲(chǔ)以及光線任務(wù)的調(diào)度器等,綜合在一起就達(dá)到RTLS級別中的第四級。
DXT系列的另一大特點(diǎn)在于光追技術(shù)和FSR(Fragment Shading Rate)技術(shù)的結(jié)合,帶來了更靈活的硬件資源消耗,從而實(shí)現(xiàn)了更低的功耗表現(xiàn)。據(jù)悉,F(xiàn)SR跟VRS效果是一樣的,默認(rèn)直接支持VFSR這項(xiàng)技術(shù),可以讓游戲開發(fā)者針對不同的區(qū)域定義Fragment Shade的執(zhí)行次數(shù)。游戲開發(fā)者知道畫面的哪些背景在后面、哪些場景在前面、哪些場景運(yùn)動(dòng)比較快,可以對不同的區(qū)域進(jìn)行執(zhí)行的設(shè)定。采用1×1就是傳統(tǒng)的16模塊都運(yùn)行1次,如果是4×4這樣的大塊運(yùn)行1次,可以獲得93%左右的Fragment運(yùn)算能力的節(jié)省。開發(fā)者可以自己選擇是需要更好的視覺效果還是更高效的光追效果,實(shí)現(xiàn)更好的整體效果平衡。
如下圖所示,左側(cè)帶有VFRS技術(shù),右圖沒有,兩個(gè)畫面并沒有肉眼可見的區(qū)別。但從熱力圖中就可以看到,藍(lán)色區(qū)域采用4×4的Fragment Shade,可以節(jié)省出來大量的運(yùn)算資源,能夠讓GPU處于休眠狀態(tài),或者是給后面的畫面提供更精致的運(yùn)算。
光線追蹤技術(shù)可以很好地和FSR技術(shù)結(jié)合在一起,沒有開啟的話可能需要每幀6.9MB的運(yùn)算能力,但如果配上FSR計(jì)算,運(yùn)算1次或者運(yùn)算2次,細(xì)節(jié)表現(xiàn)更加真實(shí),1幀畫面只需要3.2MB的光數(shù)計(jì)算能力,配合可擴(kuò)展的RAC,其實(shí)用更小的RAC就能夠?qū)崿F(xiàn)這個(gè)場景下的游戲光追效果,會(huì)給客戶帶來更好的沉浸式體驗(yàn)。
“這二者是很好的黃金搭檔,光線追蹤技術(shù)和FSR技術(shù)結(jié)合在一起,使得能夠用更小的功耗實(shí)現(xiàn)更真實(shí)感的畫面。”艾克分享到,“就像這張圖片顯示的,不同的區(qū)域可以用不同的運(yùn)算,實(shí)現(xiàn)的效果更加真實(shí)?!?
除了上述的光追相關(guān)特性外,DXT還有幾項(xiàng)關(guān)鍵的技術(shù)更新。
2D Dual-Rate Texturing可以應(yīng)用于游戲后處理階段,因?yàn)橛辛水嬅嬉院笮枰~外進(jìn)行處理,降噪或者Super Solution。
GPU中有一個(gè)固件處理器,負(fù)責(zé)高級調(diào)度和工作負(fù)載的優(yōu)先級處理。而在DXT中,已經(jīng)切換成了RISC-V架構(gòu)的處理器,相比前代帶來40%的調(diào)度性能提高,實(shí)現(xiàn)了更快的事件處理和更多的功能。
Pipelined Data Master帶來全域性的畫圖和5%的計(jì)算性能提升。之前有一個(gè)Data Master運(yùn)行的時(shí)候另外一個(gè)就要等待,而現(xiàn)在有了這項(xiàng)技術(shù),前一個(gè)Data Master運(yùn)行時(shí),后面一個(gè)任務(wù)就可以提前準(zhǔn)備好,所以調(diào)度的間隙就會(huì)很小,帶來5%的性能提升。
此外還有硬件的HDR,可以通過標(biāo)準(zhǔn)API支持,也會(huì)給畫面的亮度、對比度帶來更加真實(shí)的效果提升。
DXT提供了三個(gè)不同定位的產(chǎn)品型號:面向主流機(jī)的、面向高端機(jī)的、面向旗艦機(jī)的。主流機(jī)定位的IMG DXT-8-256更追求單位面積性能;高端機(jī)定位的IMG DXT-48-1536則更關(guān)注更高性能實(shí)現(xiàn);旗艦機(jī)定位的IMG DXT-72-2304則追求更高性能和手機(jī)整體表現(xiàn)。
結(jié)語
其實(shí)CXT中搭載的RAC已經(jīng)實(shí)現(xiàn)了移動(dòng)硬件光追的技術(shù)基礎(chǔ),但DXT的最大意義則在于通過可拓展的RAC,讓移動(dòng)光追整個(gè)生態(tài)的快速發(fā)展提供了進(jìn)階的路線。Imagination公司技術(shù)產(chǎn)品管理高級總監(jiān)Stephen Barton表示,移動(dòng)光追的實(shí)現(xiàn),并不意味著從今天開始就要把所有內(nèi)容完全用光追技術(shù)打造的路線來推,而是推薦大家在現(xiàn)有的游戲內(nèi)容中逐步地、一點(diǎn)一點(diǎn)加入光追的元素,包括光追打造的光影效果。一步一步隨著市場上設(shè)備越來越多地使用這些硬件級別支持光追的設(shè)備,那個(gè)時(shí)候再把光追內(nèi)容進(jìn)一步增加,這將是一個(gè)漸進(jìn)的過程?!?a href="/tags/Imagination" target="_blank">Imagination的光追加速集群(RAC)是獨(dú)立于GPU本身的光柵化性能以外的存在,如果是有余力的游戲開發(fā)者,可以想一想怎么將其利用起來,思考要不要在其游戲內(nèi)容中加入更多的光影效果。”