Tegra 4 GPU架構(gòu)解析:比iPad4還快?
頂著“全球第一款四核A15處理器”的光環(huán),NVIDIA Tegra 4看起來很誘人,但只能說局限在CPU方面,GPU圖形核心卻是另外一回事兒。不說別的,黃仁勛在發(fā)布會上只展示CPU的強大,對于GPU表現(xiàn)卻只字不提,由此就可見一斑。
Tegra 4 CPU部分包括五個Cortex-A15架構(gòu)核心,其中四個是主力,頻率最高可達(dá)1.9GHz,第五個則是專門的節(jié)能核心,最新消息顯示頻率在700-800MHz之間,用于執(zhí)行輕負(fù)載。
GPU部分仍然叫做GeForce ULP,并未使用現(xiàn)在業(yè)界通行的統(tǒng)一渲染架構(gòu),而依然是古老的像素、頂點分離式,最要命的是不支持新的OpenGL ES 3.0標(biāo)準(zhǔn)規(guī)范,和其他家的方案相比就輸了一大截。NVIDIA對此的解釋是,這種架構(gòu)更適合在Tegra 4設(shè)計期間的移動媒體類型——嘴硬,新產(chǎn)品設(shè)計就不考慮未來么?
Tegra 2/3/4這三代產(chǎn)品的圖形核心都有不同數(shù)量的GPU核心組成,或者說是Vec4 ALU單元的獨立組件,可同時執(zhí)行標(biāo)量和矢量操作。在架構(gòu)上,它們都是源于NV4x,但和當(dāng)年并不完全相同,比如那時候還是Vec3+Scalar,即每一組著色器單元中只有三個是通用的,第四個僅能執(zhí)行標(biāo)量操作。
Tegra 2只有單個Vec4頂點著色器單元和單個Vec4像素著色器單元,分別有4個核心,因此總計8核心。
Tegra 3將像素單元的數(shù)量增加了一倍,頂點單元沒變,因此總計12個核心。
Tegra 4擴充到了6個頂點單元(FP32 24核心)、4個3-deep像素單元(FP20 48核心),總的核心數(shù)量達(dá)到了72個,六倍于Tegra 3,最高頻率全部都超過了Tegra 3的520MHz,但具體數(shù)值仍然不詳。
除了核心規(guī)模上的猛增,Tegra 4同樣還有其他很多圖形技術(shù)的改進(jìn)和增強,比如像素著色單元設(shè)計的效率更高、終于支持真正的MSAA多重采樣抗鋸齒和幀緩沖壓縮(Color/Z)、支持24-bit Z/Stencil ROP(之前是16-bit)、最大紋理分辨率從2K×2K提高到4K×4K、百分比漸進(jìn)過濾(PCT)支持陰影、硬件支持FP16過濾器與混合,但還不支持適應(yīng)性縮放紋理壓縮(ASTC).
從理論上計算,Tegra 4 GPU的頻率即便只有520MHz,浮點性能也會達(dá)到74.8GFlops,超過了iPad4 A6X處理器里邊PowerVR 554MP4圖形核心的71.6GFlops。當(dāng)然了,這只是理論上的,不代表實際性能(看看現(xiàn)在的A卡和N卡你就知道了),在應(yīng)用和游戲里還需要相應(yīng)的優(yōu)化,特別是Tegra 4還是非統(tǒng)一架構(gòu)。
正因為如此,泄露的Tegra 4GLBenchmark成績才比較慘,NVIDIA方面也是對此不屑一顧,聲稱在最終頻率上,Tegra 4無論基準(zhǔn)測試還是3D游戲都要快于A6X。