Tegra 4/4i、Icera i500架構(gòu)深度解析

時(shí)間：2013-03-04 08:01:54

關(guān)鍵字： ICE TEGRA NVIDIA GPU

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] CES 2013大展上，NVIDIA發(fā)布了全球首款四核A15架構(gòu)移動處理器“Tegra 4”(代號Wayne)，伴隨而來的是4G/LTE基帶“Icera i500”。MWC 2013大會上，NVIDIA又帶來了整合基帶的“Tegra 4i”(代號Grey)，同樣

CES 2013大展上，NVIDIA發(fā)布了全球首款四核A15架構(gòu)移動處理器“Tegra 4”(代號Wayne)，伴隨而來的是4G/LTE基帶“Icera i500”。MWC 2013大會上，NVIDIA又帶來了整合基帶的“Tegra 4i”(代號Grey)，同樣四核心，但架構(gòu)上基于Cortex-A9，而所用基帶正是Icera i500。

AnandTech近日撰文，深度解析了Tegra 4、Icera i500、Tegra 4i的硬件架構(gòu)設(shè)計(jì)，還有部分性能數(shù)據(jù)。感興趣的隨我來。

【Tegra 4：A15架構(gòu)細(xì)節(jié)、功耗控制】

NVIDIA其實(shí)是ARM指令集架構(gòu)的授權(quán)擁有者，但這一次，Tegra 4使用的還是處理器授權(quán)，而不是NVIDIA自己設(shè)計(jì)的定制核心(就像高通Krait、蘋果Swift那樣的)，那要到“丹佛工程”上才能實(shí)現(xiàn)。

對于A15的架構(gòu)情況，之前因?yàn)橘Y料有限，我們了解得并不多，而得益于Tegra 4的白皮書等文檔，終于可以一窺A15內(nèi)部世界了。更深入的解析會有機(jī)會單獨(dú)闡述，這里只從較高層面上看看。

A15的架構(gòu)要比A9寬得多、深得多，整數(shù)流水線也從9級增加到了15級，但是分支預(yù)測同樣改進(jìn)顯著，但愿能比彌補(bǔ)長流水線的缺憾。

A15的前端寬了50%，指令拾取帶寬翻番，有利于提升指令級并行(ILP)，而為了充分利用三寬度發(fā)射，ARM大大增加了重排序緩沖(ROB)和所有相關(guān)數(shù)據(jù)結(jié)構(gòu)的尺寸。A9可以在重排序緩沖內(nèi)保留大約32-40個已解碼指令，A15則能保留128個，僅此一點(diǎn)就足以反映兩種架構(gòu)的巨大差異：A9是基于A8的自然演化，A15則是一次全新的飛躍式革命。

執(zhí)行核心方面，A15的規(guī)模仍然更大，執(zhí)行端口、執(zhí)行單元都要比A9的多，均有助于提升ILP、單線程性能，還采用了多重、獨(dú)立的發(fā)射隊(duì)列的方式，以保持高頻率。每一個發(fā)射隊(duì)列都可以接受最多三條指令，所有的發(fā)射隊(duì)列都可以并行分發(fā)。

A15也可以執(zhí)行亂序指令，但能力更強(qiáng)了。A9上所有的浮點(diǎn)/NEON指令都必須順序執(zhí)行，但在A15上可以亂序，但是它依然不能重排序所有內(nèi)存操作：獨(dú)立載入可以亂序執(zhí)行，但是存儲不能在載入之前完成。

A15還改用了集成式二級緩存結(jié)構(gòu)，而不是A9上的獨(dú)立IP塊。A15的一級、二級緩存延遲基本沒變，不過在一些情況下應(yīng)該會比A9多上1-2個時(shí)鐘周期。二級緩存TLB和其它數(shù)據(jù)結(jié)構(gòu)明顯增大，以滿足整個架構(gòu)的需要。

緩存容量上，一級還是32KB指令、32KB數(shù)據(jù)，但是二級增至2MB，并為所有核心共享(Tegra 4的第五個節(jié)能核心還有自己的512KB二級緩存)，任何核心只要允許都可以單獨(dú)占用全部2MB二級緩存。

A15是目前唯一可以在性能上超越當(dāng)今流行A9核心的ARM架構(gòu)，不過性能也不菲。根據(jù)三星最新公布的數(shù)據(jù)，A15可以提供最多3倍于A9的性能，但核心面積要達(dá)到4倍，功耗則要付出6倍。面積還好說，功耗就是大麻煩了。

而為了讓大家對新架構(gòu)的功耗放心，NVIDIA給出了這么一張圖：

更多執(zhí)行資源以提升ILP、更多的亂序利用、更好地內(nèi)存子系統(tǒng)以提升內(nèi)存級并行(MLP)、更智能的分支預(yù)測、平衡的移動應(yīng)用功耗……這些都是說A15架構(gòu)的功耗控制特性的，而下方兩行展示了Tegra 3、Tegra 4的功耗對比。

NVIDIA宣稱，SPECint2000測試(可充分壓榨CPU資源)中Tegra 4/3的單線程整數(shù)成績是相同的，但是Tegra 4的功耗要低40%，再用性能除以功耗，Tegra 4在能效方面要勝出75%。

不過這樣的對比并不太公平，因?yàn)榇藭r(shí)Tegra 3的頻率是最高的1.6GHz，Tegra 4則只有825MHz，電壓和功耗自然都低得多。Tegra 4如果全速運(yùn)行，功耗自然要高得多，雖然性能也會上去，但恐怕能效方面不會太好看。

但這也可能成為Tegra 4用于移動設(shè)備時(shí)的一種政策：刻意限制頻率以控制功耗。而之所以選擇825MHz，因?yàn)樗彩堑谖鍌€節(jié)能專用核心的最高頻率，一般時(shí)候應(yīng)該是700-800MHz。

順便說一句，Tegra 4里的四個主力核心都使用相同的電壓和頻率層，只是每個核心都可以通過電源柵極單獨(dú)開關(guān)，這和Intel的設(shè)計(jì)方式差不多，但不如高通每個核心的電壓和頻率層都是單獨(dú)的。

說起頻率，Tegra 4四個主力核心最高都可達(dá)1.9GHz，而如果使用少量核心，可以加速到更高速度，具體如何還得看設(shè)備廠商的選擇。

【Tegra 4i：A9 r4p1架構(gòu)最新版】

除了不同架構(gòu)之間的進(jìn)化，ARM每一個架構(gòu)也都有不同的版本，比如說同樣是A9，Tegra 2使用的是r1p1，Tegra 3里邊是r2p9，Tegra 4i又換成了最新的r4p1。

A9 r4p1架構(gòu)的GHB、二級緩存TLB、BTAC都增大了三倍，趕上了A15的水平，分別有16K、512、4096，這可以改進(jìn)分支預(yù)測精確度，進(jìn)一步提升IPC。

數(shù)據(jù)預(yù)取引擎也增強(qiáng)了，包括一個小的一級緩存預(yù)取器、單獨(dú)的緩存預(yù)載指令硬件。

NVIDIA宣稱，A9 r4p1相比于r2p9可以在SPECint_base測試中獲得15%的成績提升，僅僅是架構(gòu)微調(diào)就獲得如此好的整數(shù)性能改進(jìn)著實(shí)驚人，當(dāng)然真實(shí)情況如何還不太好說。不管怎樣，配合2.3GHz的最高頻率，Tegra 4i CPU性能會比Tegra 3好不少。[!--empirenews.page--]

根據(jù)數(shù)據(jù)，Tegra 5里每個CPU核心的面積為2.7平方毫米，稍大于高通Krait 800，Tegra 4i則僅為1.15平方毫米。單論最大性能，Tegra 4在三者之中最為突出(高通肯定不服)，而在性能頻率比、性能面積比上，Tegra 4、Tegra 4i分別是最好的。

【堅(jiān)守四核心】

Tegra 3是四核心(也可以說4+1)，Tegra 4并未繼續(xù)擴(kuò)充，NVIDIA移動事業(yè)部高級副總裁Phil Carmack也在去年初就坦率地告訴媒體，四核心將是未來NVIDIA SoC的一個標(biāo)準(zhǔn)。

其實(shí)，四核心對于處理器來說是個不錯的選擇：核心和線程數(shù)量夠多，足以應(yīng)付多線程負(fù)載；每個核心可以單獨(dú)開關(guān)，或者部分休息部分加速，也能很好地執(zhí)行單線程負(fù)載；應(yīng)用方面已經(jīng)綽綽有余，核心再多純屬浪費(fèi)；用戶和宣傳方面也足夠好看了，再多可能就讓人反感和質(zhì)疑了。28nm新工藝和A15新架構(gòu)加持之下，NVIDIA停留在四核心上是非常明智的。

Tegra 3的核心面積大約80平方毫米，Tegra 4塞入了晶體管，但感謝新工藝，面積稍大了一些但仍在80平方毫米這個檔次上。

不過在臺積電生產(chǎn)線上，28nm HPL工藝晶圓的成本顯然要大大高于40nm LPG，更何況還有良品率問題，所以Tegra 4的成本必然高出不少，后果就是設(shè)備價(jià)格不會多低。

說實(shí)話，Tegra 4并不完全是那種震驚業(yè)界、引領(lǐng)時(shí)尚的芯片(除了首款四核心A15的名號)，但綜合來說卻是NVIDIA的最佳選擇，無論技術(shù)上還是商業(yè)上。

【Tegra 4/4i GPU架構(gòu)】

這個話題之前曾經(jīng)詳細(xì)探討過，這里就不再過于深入了，重點(diǎn)看看NVIDIA放出的一些新資料。

Tegra 4 GPU仍然是固定、分離的像素和頂點(diǎn)著色器設(shè)計(jì)，也是惟一一個沒有采用統(tǒng)一著色器架構(gòu)的現(xiàn)代移動GPU，看起來有些落伍，但仍然占用了不小的核心面積(10.5平方毫米)，還有新的二級紋理緩存，用于改進(jìn)帶寬效率。

Tegra 4 GPU各方面都比上一代擴(kuò)充了不少，總計(jì)擁有72個核心，包括48個像素核心、24個頂點(diǎn)核心。Tegra 4i將頂點(diǎn)核心砍去一半，只留下12個，像素核心則保留48個，總計(jì)為60個，不過Vec4像素單元從四個較小的變成兩個較大的，每個負(fù)責(zé)領(lǐng)導(dǎo)24個核心。

Tegra 4 GPU最高頻率提升到了672MHz，上代為520MHz，Tegra 4i則是660MHz。

T4 GPU像素、頂點(diǎn)單元分布

T4 GPU架構(gòu)圖

T4 GPU架構(gòu)效率對比(官方數(shù)據(jù)僅供參考)

T4i GPU像素、頂點(diǎn)單元分布

T4i GPU架構(gòu)圖

T2/3/4架構(gòu)圖

T4 VS. T3

T4i VS. T3

最大的遺憾當(dāng)屬沒有完整支持OpenGL ES 3.0，只是部分支持，比如多重渲染目標(biāo)等等。這主要是因?yàn)門egra 4GPU的像素著色器硬件浮點(diǎn)精度仍然是FP24，OpenGL ES 3.0則需要像素和頂點(diǎn)著色器都支持FP32。此外也沒有ETC、FP紋理支持。

就目前而言，OpenGL ES 3.0支持與否并無太大實(shí)際意義，但不支持的話至少在規(guī)格上就輸了一籌，而且這是大勢所趨，一兩年后等游戲大量使用它了Tegra 4就會很吃虧。

我們相信，NVIDIA完全有能力做一個支持OpenGL ES 3.0的GPU，但之所以選擇不去支持，應(yīng)該是出于核心面積控制方面的考慮。

【內(nèi)存子系統(tǒng)】

Tegra前三代的內(nèi)存帶寬都小得尷尬，沒法和蘋果、三星、高通的比，人家都是雙通道了?，F(xiàn)在，Tegra 4配備了兩個32-bit LPDDR3內(nèi)存控制器，頻率也提高到了1866MHz(未來還會提升)，終于有了充足的帶寬。[!--empirenews.page--]

Tegra 4并未采用PoP一體封裝，因此需要單獨(dú)的外置DRAM內(nèi)存顆粒，這顯然會限制Tegra 4 PCB的布局，使之在小型設(shè)備里會有些局促。

不幸的是，Tegra 4i又成了單通道內(nèi)存，但幸運(yùn)的是會支持PoP和獨(dú)立封裝兩種規(guī)格，其中前者頻率最高1600MHz，后者最高1866+MHz。

【Tegra 4性能究竟如何？】

因?yàn)闆]有設(shè)備，這個誰也不好說，只能參考NVIDIA官方數(shù)據(jù)。以下來自一款1.9GHz Tegra 4參考平板。

CPU性能明顯高于其它已知的任何ARM、Atom x86設(shè)備，GPU性能則宣稱可與iPad 4媲美。

【Icera i500基帶：軟實(shí)力很重要】

如果說Tegra 4的故事是關(guān)于CPU、GPU架構(gòu)的，Tegra 4i就是基帶了。NVIDIA其實(shí)很早就認(rèn)識到了基帶的重要性，2011年收購了Icera，整合就是時(shí)間問題了，而且進(jìn)展很快。

獨(dú)立的基帶芯片Icera i500是伴隨Tegra 4發(fā)布的，Tegra 4i里整合的也是這個，只是去掉了USB界面，內(nèi)存子系統(tǒng)也略有不同而已。

Icera的基帶其實(shí)是很有趣的，架構(gòu)上是在數(shù)字基帶的基礎(chǔ)上用軟件定義射頻。當(dāng)然，純硬件或者純軟件的基帶也沒有，都是不同程度的綜合，高通也不例外。至于哪些功能是硬件實(shí)現(xiàn)的，哪些又是軟件做到的，誰都沒公開過，具體要看怎樣才能最好地控制功耗，做到資源重復(fù)利用最大化。

Icera基帶更偏向軟件這一側(cè)，外置收發(fā)器處理向下轉(zhuǎn)換之后就是完全軟件的了。這樣如何保證競爭力？秘密就在工藝上，NVIDIA選擇了側(cè)重性能的28nm HPM，而不是注重功耗的LP、HPL版本：使用高性能工藝，關(guān)閉不用的模塊，而不是做一個更大、漏電率更低的SoC。NVIDIA宣稱，這樣可以讓i500的面積比高通的MDM9x15小大約40%。

Icera的多年產(chǎn)品線都使用了相同的軟件平臺，只是隨著網(wǎng)絡(luò)通信技術(shù)的變化而更新，這就保持了很好的前后兼容性，畢竟PHY、協(xié)議堆棧完全都是軟件的。

比如說，i500的多模調(diào)制解調(diào)軟件就和i4xx系列完全一樣，只是把改進(jìn)了DXP使其支持15MHz、20MHz通道的LTE。

整個堆棧的規(guī)模是120萬行C、DXP代碼，編譯后體積7.7MB。下圖就是整個協(xié)議堆棧的示意圖。

Icera i500的產(chǎn)品編號是“ICE9045”，28nm HPM工藝制造，搭配收發(fā)器型號ICE9245，工藝是看起來很老、但很適合的臺積電65nm LP CMOS，通過數(shù)字界面與基帶通信，執(zhí)行所有的A2D、D2A。

ICE9045基本支持所有的3GPP通信標(biāo)準(zhǔn)，首發(fā)時(shí)最高LTE Cat.3，未來會升級到LTE Cat.4(軟件編譯更新就是了)，WCDMA方面支持最高Cat.24 42Mbps(雙載波64QAM)，延續(xù)了i450上的Cat.18 16QAM 2x2 MIMO 28Mbps，不過未來可選升級到Cat.28 64QAM 2x2 MIMO 84Mbps。如果增加第二個ICE9245收發(fā)器，還支持4x4 MIMO LTE。

當(dāng)然還有TD-SCDMA、GSM/EDGE，完整支持AMR-WB、VoLTE/IMS語音。

ICE9045包括兩大一小三個DXP單元，其中兩個大的最高頻率1.3GHz。Icera的指令集也很有意思，分為兩個不同的基本集，分別稱為C、D。C就是適合C編譯器的3GPP協(xié)議堆棧，管理物理界面之上的高層功能，是標(biāo)量的，運(yùn)行于DXP1單元之上。

D運(yùn)行在DXP0、DXP2，是私有語言寫的矢量指令集，運(yùn)行于物理層上，正是它配合特定的庫給了Icera基帶靈活配置的能力。

NVIDIA毫不吝嗇地公布了C、D的數(shù)據(jù)路徑，可以看出在LTE配置中一個核心負(fù)責(zé)所有的反向快速傅立葉變換(FFT)和MIMO矩陣數(shù)學(xué)，第二個核心負(fù)責(zé)速率匹配與解碼，二者負(fù)載基本相同，而且可以通過軟件控制讓每個核心都運(yùn)行在盡可能低的頻率和電壓上。

面對高通已經(jīng)獲得廣泛認(rèn)可的MDM9x15、MDM9x25，Icera i500表現(xiàn)如何還有待考驗(yàn)。從展示的原型機(jī)“鳳凰”(Phoenix)來看，Tegra 4i連接基站模擬器后可以很好地實(shí)現(xiàn)LTE Cat.3 100Mbps，升級到Cat.4還可以接近120Mbps，而這一切都是在出廠兩周的芯片上得到的，前景應(yīng)該不錯。

[!--empirenews.page--]

【拍照也有GPU計(jì)算加速】

Tegra 4/4i都配備了名為“Chimera”(不同動物各部分構(gòu)成的假想怪獸)的圖像處理器(ISP)，部分特性曾在CES 2013上介紹過，現(xiàn)在詳細(xì)看看。

Tegra 4的創(chuàng)新不僅僅是四核A15，更重要的是通過加入新API，可利用GPU加速實(shí)現(xiàn)計(jì)算拍照功能，而不是僅僅依靠傳統(tǒng)的ISP流水線。NVIDIA在這里對圖像處理進(jìn)行了自主增強(qiáng)，額外增加了GPU加速的“計(jì)算攝影拍照架構(gòu)”，首次實(shí)現(xiàn)了HDR全景拍照、HDR靜態(tài)拍照、實(shí)時(shí)物體追蹤。

Chimera的編程部分我們就不多說了，深入的細(xì)節(jié)文檔也尚未公布，你只要知道除了CPU，現(xiàn)在還可以用GPU來實(shí)現(xiàn)很多功能就可以了。值得玩味的是，NVIDIA一直在努力推行CUDA，不知道會不會將它引入到Tegra上呢(那得革新GPU架構(gòu))？又或者甚至支持OpenCL？

除了靜態(tài)照片，Chimera引擎也可以在視頻錄制上大展身手，比如說HDR視頻，傳統(tǒng)上需要捕捉兩倍的輸出幀，想得到720p/30fps HDR視頻就得捕捉720p/60fps，曝光也得有兩種，捕捉完成后再合成。NVIDIA就將其簡化為了單幀，可在CMOS傳感器上(索尼IMX135、Aptina AR0833等等)將高曝光、低曝光圖像重新交錯組合成等量的一幀，而且這都是用GPU完成的，算法也是NVIDIA獨(dú)有的。

效果也令人印象深刻，NVIDIA宣稱可以獲得3段式的動態(tài)范圍(大約24dB)，而且看不出人工合成的痕跡。以前的技術(shù)很容易在移動物體周圍出現(xiàn)光暈和殘影，因?yàn)槟鞘怯脙蓚€不同時(shí)間的幀合成的，NVIDIA HDR視頻里甚至快速運(yùn)動的物體都很干凈。

NVIDIA還展示了HDR全景捕捉，使用標(biāo)準(zhǔn)全景云臺GigaPan Epic 100，當(dāng)然手持拍攝也可以。物體追蹤也做了演示，或者說是增強(qiáng)版的臉部追蹤，攝像頭會提取物體特征，建立相關(guān)模型，然后進(jìn)行追蹤，不過對付快速運(yùn)動的物體效果不是很好。

NVIDIA的拍照調(diào)試實(shí)驗(yàn)室甚至也向記者開放，他們在那里為設(shè)備廠商定制智能手機(jī)CMOS，一起調(diào)試ISP，提升拍照體驗(yàn)。不同房間里到處都是專業(yè)測試設(shè)備。

【鳳凰：Tegra 4/4i參考樣機(jī)PCB首曝】

芯片廠商為客戶提供參考設(shè)計(jì)方案(FFRD)已經(jīng)是流行趨勢，高通、Intel都在這么做，NVIDIA也不例外，Tegra 4/4i平臺上就是“鳳凰”(Phoenix)，外觀樸實(shí)但規(guī)格不錯，5寸1080p屏幕，LTE，也很輕薄。

鳳凰其實(shí)有三個版本：Tegra 4、Tegra 4i加外置DRAM、Tegra 4i PoP整合封裝DRAM。它們對應(yīng)的PCB是完全相同的，只是處理器不同，而且Tegra 4的上邊多了個Icera i500獨(dú)立基帶。

下邊兩個PCB分別是Tegra 4i加外置DRAM、Tegra 4。

[!--empirenews.page--]

以下從右到左分別是Tegra 4i處理器封裝照片、底部照片、搭配爾必達(dá)DRAM。從表面標(biāo)識可以看到，Tegra 4i不但有Grey這個代號，還有T8A的內(nèi)部代號。

不過鳳凰并沒有給人多少機(jī)會去實(shí)際體驗(yàn)，只能等真正的產(chǎn)品了。

【結(jié)語】

Tegra 4無論CPU還是GPU都實(shí)現(xiàn)了巨大的進(jìn)步，在前輩Tegra 3的基礎(chǔ)上更上一層樓。ARM Cortex-A15架構(gòu)有著優(yōu)秀的性能，不過代價(jià)就是功耗高了點(diǎn)。在平板機(jī)里，Nexus 10證明它還是可以接受的，而如果NVIDIA的數(shù)據(jù)可信，A15控制一下頻率也能在智能手機(jī)中立足，功耗甚至可以低于Tegra 3，就是性能優(yōu)勢也不見了。這不得不手很讓人糾結(jié)。

Icera i500在基帶領(lǐng)域內(nèi)看起來頗有些競爭力，可以挑戰(zhàn)一下高通，也可以讓廠商有更多選擇。NVIDIA將其收購之后速度也相當(dāng)快，這么短的時(shí)間里就整合到了Tegra SoC之中，成就了Tegra 4i，實(shí)測速度也能超過100Mbps。

拍照方面，Chimera ISP架構(gòu)頗具創(chuàng)新力，也展現(xiàn)了GPU加速在移動領(lǐng)域的潛力。HDR視頻捕捉也的確很棒，超過了其它方案，物體追蹤也很誘人。

其實(shí)呢，不管架構(gòu)上先進(jìn)與否，一款移動芯片要成功就得贏得大量產(chǎn)品設(shè)計(jì)。Nexus 7、Surface RT都是證明，但還不夠。如今的Tegra似乎陷入了一個瓶頸階段，Tegra 4今年能否再次實(shí)現(xiàn)重大突破還有待觀察，就看能不能把優(yōu)秀的架構(gòu)推進(jìn)到眾多產(chǎn)品中了。