摘要: 低成本有機基板搭配新的I/O技術有望成為實現3D芯片堆疊的最佳路徑,NVIDIA公司首席科學家兼研發(fā)副總裁William Dally表示。
關鍵字: 芯片,處理器,存儲器
低成本有機基板搭配新的I/O技術有望成為實現3D芯片堆疊的最佳路徑,NVIDIA公司首席科學家兼研發(fā)副總裁William Dally表示。該公司最早可能在明年就將嘗試使用這種技術,為其定于2015年推出的圖形處理器Volta做準備。
在一個有多人參與的訪談中,William Dally對在CPU和GPU間有緩存一致的內存需求頗不以為然,而其競爭對手AMD在參與這一技術的研發(fā)。Dally還強調了圖形在計算攝影學和億億次(Exascale)運算中日益增長的重要性。
對向下一代半導體節(jié)點的升級換代來說,在工藝技術不再具有合理的投入產出比之際,芯片堆疊技術越來越被作為一種替代方案。
“過去,擁有最先進的節(jié)點技術至關重要,”Dally說,“當登納德縮放比例定律(Dennard scaling)有效時,如果你落后一個節(jié)點,你將差1,000倍,基本上出局了。”
“現在,28nm和20nm之間的差距可能是20%至25%,”Dally說,“這對我意味著工藝不再像以前那樣生死攸關,所以,如果我們在架構和電路設計方面很高明,我們就可以扭轉我們比競爭對手落后一個節(jié)點而造成的劣勢。”談到主要競爭對手英特爾時,他這樣表示。

圖1:NVIDIA表示,將在2015年推出采用堆疊存儲器的圖形芯片Volta。
NVIDIA實驗室的工程師正在研究一款巧妙的架構,該架構應用于面向未來的系統(tǒng)級封裝器件的地參考信號方案。該方法仍處于研究階段,,在20Gbps速率時每比特功耗不到0.5皮焦耳,Dally說。
I/O可以支持成本低于硅內插器的有機基質,但需要物理上更大的鏈接。NVIDIA需要每個引腳10Gbps的獨立鏈路(約是當今鏈接速度的10倍)以支持200GBps的器件帶寬,Dally說。
IBM已將較大的有機基板用于處理器模塊,其一側的量級達到100毫米,Dally說。他看到2.5D堆棧使用的基板位于圖形裸片挨著DRAM堆棧的地方。他補充說,圖形芯片產生的熱量過高,以致無法與存儲器垂直堆疊在一起,且這種堆棧面臨相對高的成本和低良率問題。
NVIDIA一直研究堆疊芯片在“整個產品線”的應用情況,他說。首先在作為更傳統(tǒng)產品系列一個成員的中端GPU上測試該技術是有意義的。
“我們需要以某種方式嘗試,也試試兩面下注,” Dally說,“當你用一種新技術批量生產產品時,你會學到很多東西,所以我覺得我們想以這樣一種方式做這事:它增加了功能,但主流產品不依賴它。”
在最近的一個年度會議上,NVIDIA的首席執(zhí)行官黃仁勛宣布,該公司將在2015年推出采用堆疊存儲器的下一代圖形處理器——Volta。不過,他沒有透露該產品的任何細節(jié)或將采用的技術。
在有機基板上力推2.5D堆疊是有道理的,佐治亞理工學院該領域的研究人員Tummula Rao說。“我們佐治亞理工學院也在進行有機物的存儲器堆疊研究,也打算做2.5D?!彼f。
[#page#]
一名借助硅通孔進行3D堆疊研究的佐治亞理工學院的研究人員則相對保守。
“看起來有機內插器將在成本、良率和可靠性方面勝出,而硅內插器將在互連尺寸/間距、性能和功耗上占優(yōu),” Lim Sung Kyu表示,“如果目標應用需要高存儲器帶寬,我甚至不確定有機內插器是否能滿足要求。”

圖2:William Dally。
此外,Dally補充說,整合了CPU和圖形內核的系統(tǒng)級芯片,并不需要對手AMD正在幫助開發(fā)的作為異構系統(tǒng)架構聯盟一部分的所謂與緩存一致的那種內存架構。
相反,NVIDIA將在其Cuda編程環(huán)境實現虛擬存儲器能力。它將使用指針和頁表異常生成一個由圖形芯片和宿主CPU共享的虛擬存儲器池。NVIDIA將在2014年交付的其下一代圖形芯片Maxwell將是第一款采用該技術的產品。
該技術將成為NVIDIA使用ARM核及支持Cuda的GPU的SoC(從預計今年出樣片的Tegra 5開始)的一項關鍵能力。AMD的做法將被用于未來的、使用OpenCL建立在其x86和Radeon圖形內核的SoC上。
“我想不出任何需要緩存一致性的應用,”Dally說,“該辦法會在某些接口產生額外流量,可能成為瓶頸?!?/P>
Dally表示,圖形是下一代超級計算機和智能手機的關鍵,并對其最新的競爭產品,英特爾的Xeon Phi 處理器進行了抨擊。他說,“在未來五到十年,對超級計算機來說真正的挑戰(zhàn)源于同樣重要的能效和可編程性這兩方面,”。
為實現明天的億億次計算系統(tǒng),芯片功耗需要從當今的約100皮焦耳/狀態(tài)改變降到約20皮焦耳,而需要編程的節(jié)點要從幾百萬飆升到數十億,他說。NVIDIA的圖形處理器現在用在大約50個世界最強大的超級計算機內,這要部分歸功于Cuda的成熟。
英特爾的Xeon Phi(由x86核陣列組成的協(xié)處理器)正在超級計算機市場迅速得到認可。但Dally表示,該芯片缺乏作為一款能提供支持其路線圖所需處理能力的可行圖形處理器的 “基本能力”。他還批評Xeon Phi 不具有NVIDIA的圖形內核具有的高能效、且是款基于奔騰時代x86核的產品。
“如果我是一名超級計算機設計師,我會擔心Xeon Phi的長期可獲得性?!彼f。
在投資方面,“中國實現億億次超級計算機的路線圖領先他人,并為此投入大筆資金?!盌ally說,“盡管經濟困難,歐洲的億億次超級計算機計劃還沒有縮水。但美國在該領域的投入在減少?!?/P>
在手機領域,圖形處理器用于計算攝影學及一系列旨在使用戶用手機拍照效果更佳的技術。NVIDIA和它的競爭對手正在推出支持高動態(tài)范圍、補償惡劣照明條件、防范模糊的芯片,以迎合業(yè)余攝影愛好者的需求。[!--empirenews.page--]
“最終目標是使普通人成為專業(yè)攝影師,”他說,“我們目前在做大量工作——例如,一般來說,計算機視覺就是對車內外海量照相機應用進行集中處理的一個主要領域,”他補充說。