當(dāng)前位置:首頁 > 嵌入式 > 嵌入式硬件
[導(dǎo)讀]在X86領(lǐng)域,英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展,其中,英特爾在下半年帶來的Merom架構(gòu)以高效率見長,但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年

在X86領(lǐng)域,英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展,其中,英特爾在下半年帶來的Merom架構(gòu)以高效率見長,但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年內(nèi)更多是對(duì)現(xiàn)有的AMD64架構(gòu)進(jìn)行改良。

在過去數(shù)十年歷史中,微處理器業(yè)界一直為提高芯片的運(yùn)算性能而努力,得益于IC設(shè)計(jì)和半導(dǎo)體制造技術(shù)的交互拉動(dòng),微處理器的運(yùn)算性能始終保持高速度提升狀態(tài),芯片的集成度、工作頻率、執(zhí)行效率也在這個(gè)過程中不斷提升,計(jì)算機(jī)工業(yè)由此改變。在大家熟知的X86領(lǐng)域,處理器的技術(shù)進(jìn)步更是對(duì)世界產(chǎn)生重大的影響,作為PC機(jī)的核心,X86處理器事實(shí)上擔(dān)任起信息技術(shù)引擎的作用。

伴隨著X86處理器的性能提升,PC機(jī)可以完成越來越多的任務(wù):從最初的Basic到功能完善的DOS系統(tǒng),再到圖形化的Windows 95,從平面二維到3D環(huán)境渲染,從一個(gè)無聲的純視覺界面進(jìn)入到視覺、音頻結(jié)合的多媒體應(yīng)用,計(jì)算機(jī)實(shí)現(xiàn)彼此相互聯(lián)網(wǎng),龐大的Internet日漸完善,電子商務(wù)應(yīng)用從概念到全球流行;

與硬件技術(shù)高速發(fā)展相對(duì)應(yīng),PC應(yīng)用也朝向前所未有的深度和廣度拓展:視頻媒體轉(zhuǎn)向HDTV高清晰格式,3D渲染朝向電影畫質(zhì)進(jìn)發(fā),操作系統(tǒng)的人機(jī)界面也從2D的GUI進(jìn)入到三維時(shí)代,高速互聯(lián)網(wǎng)接入和無線技術(shù)方興未艾,應(yīng)用軟件越來越智能化,所有這些應(yīng)用都要求有高性能的處理器作為基礎(chǔ)。而除了應(yīng)用驅(qū)動(dòng)外,激烈的市場競爭也成為微處理器業(yè)界競相研發(fā)新技術(shù)、提高產(chǎn)品性能的主要推動(dòng)力。

在2006年,我們將看到具有卓越能源效率的英特爾Merom架構(gòu)出臺(tái),AMD則以雙通道DDR2-800支持與之抗衡,同時(shí)雙核心產(chǎn)品成為桌面和移動(dòng)芯片的新標(biāo)準(zhǔn),X86處理器進(jìn)入到性能躍升階段。

毋庸置疑,X86處理器已然成為計(jì)算機(jī)工業(yè)的主導(dǎo)力量,在高端服務(wù)器和嵌入領(lǐng)域廣泛使用的RISC處理器反而少被提起。事實(shí)上,RISC處理器一直都以遠(yuǎn)超X86產(chǎn)品的卓越性能和銳意進(jìn)取的技術(shù)創(chuàng)新著稱,幾乎所有先進(jìn)的設(shè)計(jì)技術(shù)都是首先出現(xiàn)在RISC領(lǐng)域,之后才被X86產(chǎn)品所借鑒。而換一個(gè)角度來看,RISC處理器領(lǐng)域的每一次技術(shù)創(chuàng)新又反過來對(duì)X86產(chǎn)品產(chǎn)生重大影響,因此,了解當(dāng)前RISC領(lǐng)域的尖端技術(shù)便意味著能夠明晰X86處理器的未來走向。

今天,微處理器全面轉(zhuǎn)向多核心體系,無論RISC芯片還是X86芯片皆是如此,不過我們?cè)诒疚闹兴榻B的并不是人們熟知的雙核心 Pentium D或者Athlon64 X2,而是當(dāng)前多核微處理器領(lǐng)域的最新技術(shù)成果以及面向未來的新穎概念,它們包括RISC領(lǐng)域的黑馬、P.A.Semi公司的PWRficient雙核處理器,SUN公司推出的 UltraSPARC T1八核心處理器,英特爾公司Many Core計(jì)劃的實(shí)質(zhì)以及AMD正在考慮的HyperTransport協(xié)處理器架構(gòu)。

在這同時(shí),我們也將向大家介紹各微處理器廠商對(duì)未來技術(shù)發(fā)展的不同理解,以及軟件業(yè)如何應(yīng)對(duì)為多核平臺(tái)編程的巨大挑戰(zhàn)。

高度整合的架構(gòu)

P.A.Semi公司的PWRficient處理器在去年微處理器論壇(MPF2005)上正式揭曉。對(duì)于P.A.Semi這個(gè)名字,相信所有人都感到陌生,這家專門從事RISC處理器設(shè)計(jì)的技術(shù)型企業(yè)成立于2003年,創(chuàng)始者都是微處理器業(yè)界的頂尖人物。其CEO曾負(fù)責(zé)Alpha服務(wù)器芯片和 StrongARM手持機(jī)芯片的開發(fā);負(fù)責(zé)技術(shù)的副總裁科勒也曾從事Alpha芯片的開發(fā),后來進(jìn)入AMD公司幫助定義了Opteron芯片的架構(gòu);另一負(fù)責(zé)架構(gòu)的副總裁皮特同樣曾為Alpha架構(gòu)服務(wù),在DEC公司發(fā)生的數(shù)次并購中先后進(jìn)入康柏、惠普和英特爾。

在MPF2005論壇上,P.A.Semi公司對(duì)外公布其設(shè)計(jì)的雙核心PWRficient處理器,高度整合的設(shè)計(jì)令外界耳目一新,并兼具低功耗和高性能兩大特性。該公司同時(shí)表示,PWRficient彈性的架構(gòu)可被方便擴(kuò)展到八核心或用于超級(jí)計(jì)算機(jī)系統(tǒng),在高端服務(wù)器領(lǐng)域頗具競爭力。

在設(shè)計(jì)PWRficient之時(shí),P.A.Semi面臨的第一個(gè)問題就是指令系統(tǒng)的選擇,X86無疑更加流行、市場更廣闊,但該領(lǐng)域被英特爾、 AMD把持,機(jī)會(huì)有限,加上X86指令系統(tǒng)復(fù)雜低效,與PWRficient的高端定位相悖。P.A.Semi最終選擇了IBM的Power架構(gòu),這樣 PWRficient處理器便成為IBM Power大家族中的一個(gè)新成員。

但除此之外,PWRficient與IBM的Power芯片并沒有太多的共同點(diǎn),它擁有一套極富彈性的架構(gòu)、高度整合以及低功耗特性。 PWRficient主要定位在刀片服務(wù)器和低運(yùn)營成本的服務(wù)器集群,P.A.Semi公司將英特爾的Sossaman Xeon處理器(Yonah架構(gòu))作為主要的競爭對(duì)手。

我們先來看看PWRficient的系統(tǒng)架構(gòu),如圖1,我們可以看到,PWRficient與通常的處理器邏輯非常不同,除了CPU內(nèi)核和二級(jí)緩存外,它還包括一個(gè)名為ENVIO的智能型I/O子系統(tǒng)。換句話說,PWRficient上包含CPU和ENVIO I/O子系統(tǒng)等兩大邏輯,兩者通過一個(gè)名為CONEXIUM Interchage的高速交換總線聯(lián)結(jié)為一個(gè)有機(jī)系統(tǒng)。CPU部分為兩個(gè)代號(hào)為PA6T的64位Power CPU內(nèi)核,運(yùn)行頻率為2GHz。

與其他雙核芯片不同的是,PWRficient的每一個(gè) PA6T內(nèi)核都擁有自己的DDR2內(nèi)存控制器,但兩者是以相互獨(dú)立的模式而非組成共享的雙通道。此種設(shè)計(jì)的好處在于每個(gè)CPU內(nèi)核都能擁有屬于自己的內(nèi)存資源,最大限度降低內(nèi)存搶占的幾率。每個(gè)CPU內(nèi)核都可支持64位或32位模式運(yùn)作,具有諸如超標(biāo)量、亂序執(zhí)行、三發(fā)射等技術(shù)特性。另外,PA6T內(nèi)核也都直接整合了硬件級(jí)的虛擬技術(shù)支持,可以在多套系統(tǒng)同時(shí)運(yùn)行時(shí)仍保持出色的性能。

PA6T內(nèi)核整合了64KB指令緩存和64KB數(shù)據(jù)緩存,而兩個(gè)PA6T核心再共同分享2MB容量的二級(jí)緩存。PWRficient并沒有采用類似Xeon的大緩存方案,原因就在于它的每個(gè)核心都有自己的內(nèi)存,出現(xiàn)內(nèi)存搶占的幾率遠(yuǎn)低于共享總線的落后設(shè)計(jì)。

兩個(gè)PA6T核心、2MB二級(jí)緩存和兩個(gè)DDR2內(nèi)存控制器都是通過CONEXIUM Interchage交換總線聯(lián)結(jié)為一體,如果未來有需要,也可以在這條交換總線上聯(lián)結(jié)四個(gè)內(nèi)核甚至八個(gè)內(nèi)核。但CONEXIUM的功能不僅于此,PWRficient處理器中的ENVOI I/O子系統(tǒng)也是通過這套總線與CPU邏輯直接通訊。與我們通常所見的固定模式不同,ENVOI相當(dāng)靈活且富有彈性,它直接整合了八個(gè)PCI Express控制器(每個(gè)控制器提供4GBps帶寬)、兩個(gè)10GbE網(wǎng)絡(luò)控制器(萬兆以太網(wǎng))和四個(gè)GbE(千兆以太網(wǎng))控制器,這三部分I/O邏輯共享24對(duì)串行傳輸線路。

設(shè)備制造商可根據(jù)自身情況對(duì)這24對(duì)串行線路進(jìn)行靈活配置,例如在NAS網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)中,可以讓連接磁盤系統(tǒng)的PCI Express傳輸獲得更多線路資源,如果需要多端口的網(wǎng)絡(luò)訪問,那么便可以將線路資源朝向10GbE和GbE系統(tǒng)傾斜。這種高度彈性的架構(gòu)讓制造商擁有寬松的設(shè)計(jì)空間,可以根據(jù)企業(yè)的不同需要定制出最科學(xué)的服務(wù)器系統(tǒng)。而這種高度整合設(shè)計(jì)還有一個(gè)益處在于:無論是PCI Express系統(tǒng)還是網(wǎng)絡(luò)系統(tǒng),數(shù)據(jù)傳輸時(shí)的總線延遲都極短,進(jìn)而獲得卓越的數(shù)據(jù)傳輸效能。[!--empirenews.page--]

盡管PWRficient專門針對(duì)服務(wù)器應(yīng)用,但它的設(shè)計(jì)思想對(duì)于X86產(chǎn)品仍然十分有借鑒意義。AMD計(jì)劃在下一代處理器架構(gòu)中引入類似的高度整合設(shè)計(jì),直接內(nèi)建PCI Express控制器,以提高系統(tǒng)的數(shù)據(jù)傳輸性能。事實(shí)上,整個(gè)芯片組的功能都可以被處理器所整合,這對(duì)于芯片組廠商而言顯然不是什么好消息。

除了高度整合設(shè)計(jì)外,卓越的每瓦性能也是PWRficient處理器的主要賣點(diǎn)之一。PWRficient的核心頻率為2GHz,芯片最高能耗區(qū)區(qū)25瓦,平均運(yùn)行能耗甚至僅有5W的超低水平。IBM公司將重點(diǎn)放在高性能的Power 5/6和游戲機(jī)領(lǐng)域,對(duì)低功耗芯片重視不足,PWRficient便不會(huì)與IBM的產(chǎn)品有什么沖突。P.A.Semi公司將英特爾Sossaman核心的低功耗型Xeon作為主要對(duì)手,盡管Sossaman基于效率出眾的Yonah架構(gòu),但它的能源效率遠(yuǎn)無法同PWRficient相提并論。

PWRficient 2GHz的實(shí)際性能略高于Sossaman Xeon 2.5GHz,但后者的能耗達(dá)到73瓦,整整比PWRficient高出兩倍。對(duì)服務(wù)器系統(tǒng)而言,低功耗芯片的意義不僅在于散熱更佳,最大的好處在于能夠節(jié)約出可觀的運(yùn)營成本。P.A.Semi公司作出了詳細(xì)的對(duì)比:如果要構(gòu)建一套運(yùn)算速度達(dá)到32TFLOPS標(biāo)準(zhǔn)的服務(wù)器集群,需要使用6400枚 Sossaman Xeon處理器,連帶配套芯片組、萬兆網(wǎng)卡等組件,整套集群的能耗將達(dá)到467200瓦;

而如果轉(zhuǎn)用PWRficient平臺(tái),只需4000枚芯片就能夠?qū)崿F(xiàn)相同的性能,由于主要功能都被CPU直接集成,配套的芯片組也變得簡單,整個(gè)集群的功耗只有92000瓦,相當(dāng)于英特爾Sossaman Xeon平臺(tái)的1/5,集群的空間占用、散熱系統(tǒng)費(fèi)用也更為低廉。如果選擇PWRficient平臺(tái),集群系統(tǒng)的運(yùn)營費(fèi)用可以被大幅度削減,對(duì)本例的 32TFLOPS集群系統(tǒng)而言,就是每年可節(jié)約出至少100萬美元運(yùn)營費(fèi)用,PWRficient的優(yōu)勢十分明顯。

PWRficient將采用IBM的65納米SOI工藝進(jìn)行制造,P.A.Semi公司計(jì)劃在下半年推出處理器樣品,2007年正式上市。該芯片的主要銷售對(duì)象包括服務(wù)器廠商、網(wǎng)絡(luò)設(shè)備廠商,甚至還包括家電廠商,尤其在刀片服務(wù)器和服務(wù)器集群系統(tǒng)中,PWRficient具有明顯的優(yōu)勢。但光有優(yōu)秀的產(chǎn)品不足以說明問題,P.A.Semi只是一家小規(guī)模的技術(shù)型公司,自身沒有服務(wù)器制造和推廣力量,只有獲得服務(wù)器廠商的支持才能夠?qū)? PWRficient推向?qū)嵱没?。而?duì)IBM來說,既然沒有更多的精力來開發(fā)低功耗Power芯片,將P.A.Semi收歸旗下不失為一個(gè)好選擇。

 

圖1 PWRficient處理器的邏輯架構(gòu),整合了大量的I/O功能,堪稱一款SOC(片上系統(tǒng))型芯片。

精簡核心和超多線程設(shè)計(jì)

SUN公司在2005年底推出的UltraSPARC T1也是微處理器領(lǐng)域的又一巔峰之作。同PWRficient的高度整合設(shè)計(jì)不同,UltraSPARC T1的重心放在多任務(wù)并行功能,這是由UltraSPARC T1自身的定位所決定的。UltraSPARC T1主要針對(duì)承擔(dān)網(wǎng)絡(luò)中樞的高端服務(wù)器系統(tǒng),這類服務(wù)器主要面向高吞吐量的事務(wù)計(jì)算,需要在同時(shí)處理大量的并發(fā)任務(wù),而這些任務(wù)又都不需要復(fù)雜的運(yùn)算。

因此,SUN公司采用非均衡的思想來設(shè)計(jì)UltraSPARC T1:每個(gè)基本的CPU內(nèi)核都相當(dāng)精簡,但都能夠很好地完成相應(yīng)的數(shù)據(jù)處理任務(wù),由于精簡核心占據(jù)的晶體管資源較少,處理器就能夠集成更多的硬件內(nèi)核;同時(shí)在較單純的數(shù)據(jù)處理任務(wù)中,每個(gè)CPU核心的執(zhí)行管線都不會(huì)被充分利用,在此基礎(chǔ)上導(dǎo)入多線程技術(shù)將能夠進(jìn)一步提高系統(tǒng)的并行能力。我們可以看到,UltraSPARC T1擁有八個(gè)對(duì)等的硬件內(nèi)核,每個(gè)內(nèi)核可同步執(zhí)行4個(gè)線程,這樣僅僅一枚處理器就具備同時(shí)執(zhí)行32個(gè)不同任務(wù)的能力。

UltraSPARC T1的晶體管總量只有3億個(gè)左右,峰值能耗只有區(qū)區(qū)80瓦,執(zhí)行效率相當(dāng)出眾。我們必須注意的是,UltraSPARC T1雖然具有超凡的事務(wù)處理能力,可它的科學(xué)計(jì)算能力十分糟糕,原因就在于SUN根據(jù)自身特殊的需要,采用不對(duì)等的設(shè)計(jì)。

UltraSPARC T1的CPU核心設(shè)計(jì)得非常簡單,它的流水線很短,也沒有包含浮點(diǎn)運(yùn)算單元,只有在八個(gè)核心之外附加了一個(gè)浮點(diǎn)運(yùn)算器。這樣每個(gè)核心的晶體管占用就很少,為芯片低功耗奠定基礎(chǔ);UltraSPARC T1的每個(gè)核心均只運(yùn)行在1.2GHz的低頻率下,這也是拜短流水線設(shè)計(jì)所賜,芯片節(jié)能就不難理解了。UltraSPARC T1的每個(gè)核心都擁有16KB一級(jí)指令緩存和8KB的一級(jí)數(shù)據(jù)緩存,并具備奇偶檢查能力(Parity Check),可以自行偵測緩存錯(cuò)誤。

如果數(shù)據(jù)串中有1bit出現(xiàn)錯(cuò)誤,緩存自身可對(duì)其進(jìn)行修正,由此保證在苛刻環(huán)境下的運(yùn)行可靠性。在二級(jí)緩存方面,UltraSPARC T1實(shí)行八核心共享的機(jī)制。由于核心數(shù)量眾多,如果繼續(xù)采用獨(dú)立緩存設(shè)計(jì)的話,緩存同步操作需要耗費(fèi)可觀的運(yùn)算資源,共享設(shè)計(jì)顯然是更理想的選擇。但為眾多的核心分配緩存資源也是一個(gè)令人頭疼的事情,SUN通過Crossbar連接架構(gòu)來解決問題:八個(gè)核心在Crossbar的統(tǒng)一分配下獲取緩存資源,有效避免了存取沖突。

一個(gè)比較特殊的地方就是UltraSPARC T1的二級(jí)緩存容量只有3MB,對(duì)一枚擁有八個(gè)硬件核心的處理器而言似乎少得可憐,但RISC處理器與X86處理器處理的任務(wù)迥異,提高緩存容量對(duì)X86 處理器的性能影響立竿見影,但UltraSPARC T1面向網(wǎng)絡(luò)運(yùn)算,而這類運(yùn)算對(duì)緩存容量并不十分依賴,起到?jīng)Q定作用的是核心的性能。

多線程支持是UltraSPARC T1的一大亮點(diǎn)。UltraSPARC T1擁有一項(xiàng)名為CoolThreads的多線程技術(shù),該技術(shù)令UltraSPARC T1的每個(gè)硬件核心都擁有同步執(zhí)行4個(gè)線程的能力。這樣,八核心的UltraSPARC T1可以在同一時(shí)間運(yùn)行32個(gè)線程,具有超強(qiáng)的多任務(wù)處理能力。雖然英特爾的芯片很早就引入HyperTreading超線程功能、允許CPU執(zhí)行兩個(gè)線程,但HyperTreading設(shè)計(jì)僵化,線程一旦進(jìn)入執(zhí)行位置就無法替換,這樣即便該線程耗費(fèi)大量的執(zhí)行資源和時(shí)間也必須持續(xù)等候。

在不少時(shí)候,此舉反而會(huì)令系統(tǒng)的效能降低,這也是HyperTreading發(fā)展多年,但始終都沒有獲得廣泛推行的主要原因。而SUN、IBM 等RISC處理器廠商在多線程技術(shù)領(lǐng)域有更深厚的實(shí)力,如IBM的Power 5系列具備線程動(dòng)態(tài)轉(zhuǎn)移功能,在線程運(yùn)行開始即可對(duì)執(zhí)行狀況和資源使用進(jìn)行實(shí)時(shí)偵測,如某個(gè)線程久拖不完或資源占用高,其余的核心又處于閑置狀態(tài)時(shí)便立即將它轉(zhuǎn)移,同時(shí)將運(yùn)算資源和等候時(shí)間撫平,令系統(tǒng)保持卓越的并行執(zhí)行效率。[!--empirenews.page--]

UltraSPARC T1的 CoolThreads技術(shù)也具有類似的動(dòng)態(tài)轉(zhuǎn)移功能,任何一個(gè)執(zhí)行單元有空余時(shí),都可抓取已排入其他位置的待處理線程加以執(zhí)行,由此維持八個(gè)核心的均衡負(fù)載。

UltraSPARC T1的整合內(nèi)存控制器相當(dāng)強(qiáng)大,它并不是像常規(guī)多核處理器一樣只內(nèi)建1組,而是擁有多達(dá)4組內(nèi)存控制器,每個(gè)控制器都可以支持雙通道ECC DDR2-533MHz內(nèi)存、傳輸位寬達(dá)到144bit。在運(yùn)行過程中,如果有4bit以下的內(nèi)容錯(cuò)誤,UltraSPARC T1的內(nèi)存控制系統(tǒng)可自行糾正,如果錯(cuò)誤數(shù)量提高到8bit,UltraSPARC T1仍然具備識(shí)別能力,系統(tǒng)可保持長時(shí)間的穩(wěn)定運(yùn)作。

另外,每組內(nèi)存控制器都可以連接4個(gè)DIMM內(nèi)存槽,因此一枚UltraSPARC T1處理器最多可管理多達(dá)16個(gè)DIMM模組,創(chuàng)造該領(lǐng)域的最高記錄。毋庸置疑,UltraSPARC T1以4組144bit內(nèi)存接口來對(duì)應(yīng)8核心已經(jīng)是相當(dāng)充足,但SUN提供了更多的選擇。在必要時(shí)候,用戶可以將每兩個(gè)控制器捆綁在一起,相當(dāng)于將原本相互獨(dú)立的4組內(nèi)存系統(tǒng)變成兩組可并行存取的結(jié)構(gòu),從而將內(nèi)存系統(tǒng)的傳輸速度提高一倍。倘若系統(tǒng)執(zhí)行的任務(wù)對(duì)數(shù)據(jù)傳輸有很高的要求,開啟這項(xiàng)功能將對(duì)系統(tǒng)性能提升起到立竿見影的作用。

而在多路擴(kuò)展方面,UltraSPARC T1采用的是SUN獨(dú)有的JBus高速互聯(lián)總線,JBus 1.0規(guī)格早在2003年4月就發(fā)布,采用128bit位寬的地址/數(shù)據(jù)接口,總線頻率在150MHz-200MHz之間,峰值傳輸速率可達(dá)到 3.1GBps。雖然成就遠(yuǎn)不如AMD的HyperTranspot總線,但JBus的性能同樣可滿足多處理器數(shù)據(jù)交換的要求,畢竟UltraSPARC T1擁有八個(gè)核心和32個(gè)獨(dú)立線程,處理器之間不需要交換太多的數(shù)據(jù)。

除了八核心版本外,SUN公司還將推出較低定位的六核心、四核心UltraSPARC T1,但三者其實(shí)都出自相同的晶圓,只是將存在瑕疵、但關(guān)閉部分內(nèi)核后可正常運(yùn)行的芯片作為六核或四核型號(hào)。令人驚訝的是,UltraSPARC T1非常節(jié)能,在八核心、32個(gè)線程都激活狀態(tài)下的典型功耗僅有72瓦,峰值功耗也只有80瓦,能源利用效率極其出色;另外,UltraSPARC T1還可以通過關(guān)閉某些核心來達(dá)到節(jié)能的目的。

當(dāng)然,我們不能簡單將UltraSPARC T1與X86處理器作直接的對(duì)比,畢竟兩者面向不同的應(yīng)用、設(shè)計(jì)思想迥異。但從UltraSPARC T1中我們可以接觸到另外一種設(shè)計(jì)思想:即根據(jù)特定的應(yīng)用來設(shè)計(jì)處理器,使得該處理器能夠在既定應(yīng)用中獲得最佳的效能。這種思想在RISC業(yè)界已經(jīng)開始風(fēng)行,X86處理器受通用所累,暫時(shí)難以實(shí)現(xiàn)類似設(shè)計(jì),但在未來我們不排除這種思想被X86業(yè)界借鑒的可能:例如英特爾/AMD可以專門針對(duì)游戲玩家和多媒體娛樂用戶設(shè)計(jì)出強(qiáng)化浮點(diǎn)性能的娛樂型處理器,或者設(shè)計(jì)出強(qiáng)化整數(shù)性能、功耗更低的辦公型處理器,這樣辦公用戶不必為自己不需要的浮點(diǎn)性能多掏腰包,娛樂用戶也能夠獲得性能更出色的產(chǎn)品。而對(duì)英特爾、AMD廠商來說,只要設(shè)計(jì)一個(gè)富有彈性的處理器架構(gòu),制造出不同定位的產(chǎn)品并不需要花費(fèi)多少代價(jià)。

專用協(xié)處理器實(shí)現(xiàn)效能跨越

PWRficient的高度整合思想、SUN UltraSPARC T1根據(jù)任務(wù)定制的精簡核心、多任務(wù)方案令人耳目一新,但這兩者其實(shí)都只是在現(xiàn)有多核架構(gòu)基礎(chǔ)上的革新,處理器本身仍然基于對(duì)等的多核心設(shè)計(jì)。

微處理器領(lǐng)域真正意義的架構(gòu)革命將在未來數(shù)年內(nèi)誕生,那就是多核架構(gòu)將從通用的對(duì)等設(shè)計(jì)遷移到“主核心+協(xié)處理器”的非對(duì)等設(shè)計(jì),亦即處理器中只有一個(gè)或數(shù)個(gè)通用核心承擔(dān)任務(wù)指派功能,諸如浮點(diǎn)運(yùn)算、HDTV視頻解碼、Java語言執(zhí)行等任務(wù)都可以由專門的DSP硬件核心來完成,由此實(shí)現(xiàn)處理器執(zhí)行效率和最終性能的大幅度躍進(jìn)—IBM Cell、英特爾Many Core和AMD HyperTransport協(xié)處理器平臺(tái)便是該種思想的典型代表。

下面,我們便從Cell入手,向大家介紹這種極具前途的新穎設(shè)計(jì)。

 

圖3 Cell處理器基于“PPE主處理單元+SPE協(xié)處理器”的專用化設(shè)計(jì),實(shí)現(xiàn)浮點(diǎn)性能的飛躍。

IBM Cell:開創(chuàng)全新的多核架構(gòu)

IBM為索尼PS3游戲機(jī)定制的Cell是一枚擁有9個(gè)硬件核心的多核處理器,它的多核結(jié)構(gòu)同以往的多核心產(chǎn)品完全不同。在Cell芯片中,只有一個(gè)核心擁有完整的功能,被稱為主處理器,其余8個(gè)核心都是專門用于浮點(diǎn)運(yùn)算的協(xié)處理器。其中,主處理器只是PowerPC 970的精簡版本,其主要職能就是負(fù)責(zé)任務(wù)的分配,實(shí)際的浮點(diǎn)運(yùn)算工作都是由協(xié)處理器來完成。

由于Cell中的協(xié)處理器只負(fù)責(zé)浮點(diǎn)運(yùn)算任務(wù),所需的運(yùn)算規(guī)則非常簡單,對(duì)應(yīng)的電路邏輯同樣如此,只要CPU運(yùn)行頻率足夠高,Cell就能夠獲得驚人的浮點(diǎn)效能。而由于電路邏輯簡單,主處理器和協(xié)處理器都可以輕松工作在很高的頻率上—Cell起步頻率即達(dá)到4GHz就是最好的證明。在高效率的專用核心和高頻率的幫助下,Cell獲得了高達(dá)256Gigaflops(2560億次浮點(diǎn)運(yùn)算每秒)的浮點(diǎn)運(yùn)算能力,接近超級(jí)計(jì)算機(jī)的水準(zhǔn),遠(yuǎn)遠(yuǎn)超越目前所有的X86和RISC處理器。

作為對(duì)比,英特爾的4路Montecito安騰(雙內(nèi)核)系統(tǒng)也僅獲得45Gigaflops的浮點(diǎn)性能。更令人驚訝的是,Cell只花費(fèi)了區(qū)區(qū)2.34億個(gè)晶體管,功耗在80-100瓦左右,能源利用效率比現(xiàn)在設(shè)計(jì)最佳的RISC和X86處理器都高出數(shù)十倍,這足以說明Cell專用、多核設(shè)計(jì)思想的優(yōu)越性。

必須提到的是,Cell并非通用的處理器,雖然它具有極強(qiáng)悍的浮點(diǎn)運(yùn)算性能,可很好滿足游戲機(jī)和多媒體應(yīng)用,但整數(shù)性能和動(dòng)態(tài)指令執(zhí)行性能并不理想,這是由任務(wù)的形態(tài)所決定的。未來耗費(fèi)計(jì)算機(jī)運(yùn)算性能最多的主要是3D圖形、HDTV解碼、科學(xué)運(yùn)算之類的應(yīng)用,所涉及到的其實(shí)都是浮點(diǎn)運(yùn)算,整數(shù)運(yùn)算只是決定操作系統(tǒng)和應(yīng)用軟件的運(yùn)行效能(操作系統(tǒng)、Office軟件等),而這部分應(yīng)用對(duì)處理器性能要求并不苛刻,因此Cell將側(cè)重點(diǎn)放在浮點(diǎn)運(yùn)算性能,與SUN UltraSPARC T1專注事務(wù)處理的設(shè)計(jì)可以說有異曲同工之妙。

相較而言,當(dāng)前的X86處理器都采用通用的核心,為了同時(shí)提高整數(shù)性能和浮點(diǎn)性能,CPU核心被設(shè)計(jì)得越來越臃腫,晶體管消耗越來越多,不僅導(dǎo)致芯片的功耗急劇增大,頻率提升速度也非常緩慢。而且通用設(shè)計(jì)的另一個(gè)弊病在于,不管執(zhí)行什么任務(wù),芯片內(nèi)的所有邏輯單元都消耗電力,導(dǎo)致X86芯片普遍存在能源利用率低的問題。[!--empirenews.page--]

可以預(yù)見,倘若繼續(xù)沿著現(xiàn)有的通用、多核設(shè)計(jì)方案向前發(fā)展,X86處理器將會(huì)陷入一系列的困境,例如芯片高度復(fù)雜,開發(fā)和制造成本越來越高、芯片功耗無法控制等等。面對(duì)這樣的現(xiàn)實(shí),X86業(yè)界轉(zhuǎn)變思想勢在必行。顯然,IBM Cell的新穎設(shè)計(jì)非常值得參考,英特爾的Many Core和AMD HyperTransport協(xié)處理器計(jì)劃可以視作Cell思想的變種。

 

圖4 DSP與通用CPU執(zhí)行專用任務(wù)時(shí)的效能和效率對(duì)比

Many Core:Cell思想的繼承與發(fā)展

在2005年的IDF技術(shù)峰會(huì)上,英特爾對(duì)外公布了Many Core超多核發(fā)展藍(lán)圖。隨著時(shí)間推移,Many Core計(jì)劃越來越明晰,我們可以肯定它將成為英特爾未來的X86處理器架構(gòu)。Many Core采用的也是類似Cell的專用化結(jié)構(gòu),我們知道,英特爾的四核心處理器采用對(duì)等設(shè)計(jì),每個(gè)內(nèi)核地位相同,而轉(zhuǎn)到Many Core架構(gòu)之后,其中的某一個(gè)或幾個(gè)內(nèi)核可以被置換為若干數(shù)量的DSP邏輯,保留下來的X86核心執(zhí)行所有的通用任務(wù)以及對(duì)特殊任務(wù)的分派;DSP則用于某些特殊任務(wù)的處理。

依照應(yīng)用不同,這些DSP類型可以是Java解釋器、MPEG視頻引擎、存儲(chǔ)控制器、物理處理器等等。在處理這類任務(wù)時(shí),DSP的效能遠(yuǎn)優(yōu)于通用的X86核心,功耗也低得多。在圖4中我們可以看到DSP與通用CPU的效率對(duì)比:功耗僅2瓦、特定功能的DSP芯片,在處理對(duì)應(yīng)任務(wù)時(shí)的效能比75瓦功耗的通用CPU更加出色,且由于DSP構(gòu)造簡單、頻率提升非常容易;由于DSP效能提升速度比通用處理器快得多,這樣隨著時(shí)間的推移,DSP的效能優(yōu)勢將越來越明顯。

而如果處理器將高負(fù)載的專用任務(wù)轉(zhuǎn)交給DSP執(zhí)行之后,那么主核心的運(yùn)算壓力就大大減輕,系統(tǒng)整體效能將獲得明顯提升。

第一代Many Core架構(gòu)處理器可能采用“3個(gè)通用X86核心+16個(gè)DSP內(nèi)核”的組合(圖5),我們可以看到,它的原型是一枚四核心處理器,只是將其中一個(gè)核心置換成16個(gè)DSP邏輯而已,因此處理器的總體結(jié)構(gòu)和晶體管規(guī)模都不會(huì)有多大變化,但產(chǎn)品的實(shí)際水準(zhǔn)將獲得大幅度增強(qiáng)。在執(zhí)行Java程序、視頻解碼、3D 渲染等耗用CPU資源的任務(wù)中,DSP的效能都大幅優(yōu)于通用核心,因此Many Core產(chǎn)品在執(zhí)行這類專用任務(wù)時(shí)會(huì)有飛躍性的性能增益。

同時(shí),DSP邏輯的能耗只有通用核心的幾十分之一,可以讓處理器的功耗出現(xiàn)可觀的降低。當(dāng)然,如果我們將英特爾的Many Core處理器與Cell相比,便會(huì)發(fā)現(xiàn)一個(gè)明顯的差異:Cell的主核心非常簡單,協(xié)處理器則非常強(qiáng)大;而Many Core的通用核心仍然居于主導(dǎo)地位,DSP更多只是一種輔助。

這種差異源自于二者不同的定位:Cell只要求具備強(qiáng)勁的浮點(diǎn)效能,而對(duì)整數(shù)運(yùn)算不作要求,因此通用的主核心可以非常精簡;但Many Core必須考慮兼容大量的X86應(yīng)用軟件,專用的任務(wù)居于從屬性地位,在第一代產(chǎn)品中采用“三個(gè)通用核心+16個(gè)DSP核心”的組合應(yīng)該是比較恰當(dāng)?shù)摹?/p>

根據(jù)英特爾的遠(yuǎn)景規(guī)劃,第二代Many Core產(chǎn)品將在2015年前后面世。這當(dāng)然過于遙遠(yuǎn)了,但我們不妨來看看它是一款什么樣的產(chǎn)品(圖6)—擁有8個(gè)通用X86核心、64個(gè)專用DSP邏輯,片內(nèi)緩存容量高達(dá)1GB,晶體管規(guī)模則達(dá)到200億。受限于半導(dǎo)體工藝,后兩個(gè)目標(biāo)或許很難完全實(shí)現(xiàn),但Many Core設(shè)計(jì)將毋庸置疑成為標(biāo)準(zhǔn),而英特爾從這往后將逐步引入Many Core Array架構(gòu),不斷增強(qiáng)DSP的數(shù)量以及執(zhí)行能力,通用核心的地位將隨著時(shí)間推移不斷減弱,直到最后完全可能實(shí)現(xiàn)以DSP占主導(dǎo)地位的專用化運(yùn)算模式。

 

圖5 從四核心平滑升級(jí)到“三核心+16DSP”的方案,即將其中一個(gè)通用核心置換成DSP陣列。

HyperTransport協(xié)處理器系統(tǒng)

在英特爾對(duì)Many Core概念作出具體探討之時(shí),AMD也在考慮自己的未來處理器架構(gòu)。但與英特爾不同的是,AMD尚未考慮另起爐灶的Many Core計(jì)劃,而是利用現(xiàn)有的HyperTransport連接架構(gòu),對(duì)多路服務(wù)器系統(tǒng)進(jìn)行拓展。

Cray公司(克雷,著名的高性能計(jì)算機(jī)制造商)希望能在基于Opteron的超級(jí)計(jì)算機(jī)中使用矢量處理單元,以提升計(jì)算機(jī)的矢量運(yùn)算效能。 AMD方面并不是簡單考慮在Opteron核心中增加一個(gè)矢量邏輯了事,而是計(jì)劃以此為契機(jī),建立一個(gè)以AMD為中心的企業(yè)生態(tài)圈—這或許過于抽象,但看完下文的分析之后大家便能夠明了其中的含義。

我們知道,現(xiàn)有的Opteron多路系統(tǒng)并非采用共享前端總線的方式連接,而是借助專用的HyperTransport總線實(shí)現(xiàn)芯片間的直連。這樣,每一顆Opteron處理器都可以直接與其他的處理器進(jìn)行數(shù)據(jù)交換或緩存同步,不必占用內(nèi)存空間,無論系統(tǒng)中有多少數(shù)量的Opteron,整套系統(tǒng)都能夠保持高效率的運(yùn)作。在該套平臺(tái)中,HyperTransport總線處于中樞地位,而它除了作為處理器連接總線外,還可以連接PCI-X控制器、 PCI Express控制器以及I/O控制芯片,也就是充當(dāng)芯片間的高速連接通路。

AMD公司考慮的一套協(xié)處理器擴(kuò)展方案也是以此為基礎(chǔ),即為多路Opteron平臺(tái)開發(fā)各種功能的協(xié)處理器,這些協(xié)處理器都通過 HyperTransport總線與Opteron處理器直接連接。對(duì)Cray提出的需求,AMD給出的解決方案就是,將八路Opteron中的一顆 Opteron處理器置換成矢量協(xié)處理器,以此實(shí)現(xiàn)矢量計(jì)算性能的大幅度增長,而Opteron平臺(tái)本身不需要作任何形式的變動(dòng)。

在未來,這種拓展架構(gòu)也可以延伸到PC領(lǐng)域,例如在PC中掛接基于HyperTransport總線的浮點(diǎn)協(xié)處理器、物理協(xié)處理器、視頻解碼器、專門針對(duì)Java程序的硬件解釋器,甚至可以是由nVIDIA或ATI開發(fā)的圖形處理器。為達(dá)成上述目標(biāo),AMD必須設(shè)計(jì)出一個(gè)高度穩(wěn)定的統(tǒng)一接口方便用戶進(jìn)行擴(kuò)展,而借助各種各樣的協(xié)處理器,AMD64系統(tǒng)的性能將獲得空前強(qiáng)化。

如果從邏輯層面來看,AMD HyperTransport協(xié)處理器系統(tǒng)的實(shí)質(zhì)與英特爾Many Core平臺(tái)其實(shí)完全相同,兩者的區(qū)別更多是在物理組成方式:Many Core將專用的DSP邏輯直接整合于處理器內(nèi)部,AMD的協(xié)處理器系統(tǒng)則是借助HyperTransport總線在外部掛接,這樣用戶就不必為了獲得額外的性能購買新機(jī),直接選擇相應(yīng)的協(xié)處理器掛接即可。由于協(xié)處理器類型將會(huì)非常豐富,每個(gè)用戶都能從中找到最適合自己的產(chǎn)品,這在無形之中增強(qiáng)了AMD HyperTransport協(xié)處理器平臺(tái)之于Many Core平臺(tái)的競爭力。[!--empirenews.page--]

HyperTransport協(xié)處理器方案最富殺傷力的地方并非在于靈活性,而在于AMD所創(chuàng)建的“共生模式”。AMD計(jì)劃將 HyperTransport協(xié)處理器授權(quán)給其他的專業(yè)IC設(shè)計(jì)公司,這樣大量的第三方公司都可以為AMD64平臺(tái)開發(fā)協(xié)處理器并分別銷售,AMD自身只需要負(fù)責(zé)通用處理器的開發(fā)和HyperTransport原生態(tài)的維護(hù)?;诠餐睦?,大量的第三方IC設(shè)計(jì)公司將緊密圍繞AMD公司共同發(fā)展 HyperTransport平臺(tái):通過銷售協(xié)處理器,第三方IC公司能夠獲得豐厚的回報(bào),AMD則通過平臺(tái)授權(quán)和AMD64處理器的銷售獲得利潤、并在第三方公司的幫助下提高市場份額。

至于終端用戶,則可以在現(xiàn)有基礎(chǔ)上通過增加或升級(jí)協(xié)處理器達(dá)成大幅度提高系統(tǒng)性能的目的—這便是AMD倡導(dǎo)的“友好生態(tài)系統(tǒng)”的實(shí)質(zhì)。與AMD 的開放策略形成鮮明對(duì)比,英特爾將變得越來越封閉,從迅馳到VIIV平臺(tái),第三方廠商的機(jī)會(huì)越來越少,英特爾希望將全部的商業(yè)利潤都?xì)w自己所有,而不是與合作廠商共同分享機(jī)會(huì)。在這樣的背景下,越來越多IC廠商轉(zhuǎn)向?qū)MD平臺(tái)的支持,因此AMD所倡導(dǎo)的友好生態(tài)系統(tǒng)其實(shí)已經(jīng)有相當(dāng)良好的基礎(chǔ)。

 

圖6 2015年的處理器藍(lán)圖,Many Core設(shè)計(jì)成為標(biāo)準(zhǔn)

前瞻:架構(gòu)革命的前夜

盡管X86業(yè)界依然按部就班地進(jìn)行性能提升,軟件工業(yè)也是在以往基礎(chǔ)上匍匐前進(jìn),但這場架構(gòu)革命距離我們并不遙遠(yuǎn)。在RISC領(lǐng)域,針對(duì)實(shí)際應(yīng)用對(duì)產(chǎn)品作定制化設(shè)計(jì)成為各個(gè)廠商的共識(shí),而各個(gè)廠商在開發(fā)新一代架構(gòu)時(shí)都會(huì)有意識(shí)地為處理器預(yù)留擴(kuò)展定制的空間。

相信在未來,我們可以看到越來越多的專用型RISC處理器,例如游戲機(jī)/視頻任務(wù)處理器、網(wǎng)絡(luò)處理器、低耗能通用處理器、嵌入處理器等等;而在 X86領(lǐng)域,英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展,其中,英特爾在下半年帶來的Merom架構(gòu)以高效率見長,但它非常缺乏擴(kuò)展的空間;到2008年,英特爾才會(huì)陸續(xù)引入CSI總線并整合內(nèi)存控制器,解決多路服務(wù)器系統(tǒng)擴(kuò)展性的問題;大約到2010年,我們有望看到第一代Many Core處理器出臺(tái),X86處理器將轉(zhuǎn)向一個(gè)全新的多核時(shí)代。

而AMD公司在未來兩年內(nèi)更多是對(duì)現(xiàn)有的AMD64架構(gòu)進(jìn)行改良,例如引入雙通道DDR2-800支持和65納米SOI工藝,服務(wù)器領(lǐng)域 Opteron的優(yōu)勢不太容易被打破。大約在2008年,AMD將帶來新一代的K9或K10,高度整合設(shè)計(jì)將被引入,更關(guān)鍵的是,AMD將帶來 HyperTransport 3.0和4.0版總線技術(shù)規(guī)范,并有可能開始啟動(dòng)協(xié)處理器計(jì)劃。

由于HyperTransport 3.0/4.0將直接對(duì)協(xié)處理器提供支持,AMD只需要解決主處理器與協(xié)處理器的任務(wù)協(xié)作以及硬件連接標(biāo)準(zhǔn)的制定即可,接下來的協(xié)處理器開發(fā)工作便主要依靠第三方IC公司加以實(shí)現(xiàn)。如果AMD在新一輪變革中再度領(lǐng)先,那么在大量第三方企業(yè)和用戶的支持下,英特爾在微處理器市場的主導(dǎo)優(yōu)勢很可能徹底喪失,最終出現(xiàn)兩大平臺(tái)分庭抗禮的格局。

當(dāng)前微處理器技術(shù)發(fā)展的幾個(gè)方向

提高架構(gòu)執(zhí)行效率、多核心設(shè)計(jì)、靈活的擴(kuò)展彈性、深層次的功能整合是當(dāng)前微處理器領(lǐng)域的四大技術(shù)發(fā)展方向。處理器效率低下的弊端主要出現(xiàn)在 X86領(lǐng)域,X86指令集臃腫復(fù)雜,指令效率已明顯低于RISC體系,如果不在芯片設(shè)計(jì)方面加以彌補(bǔ),X86處理器很難獲得媲美RISC產(chǎn)品的卓越性能。

衡量處理器效率通常有兩個(gè)指標(biāo):一是芯片的能源利用效率,也就是每瓦性能,在消耗同等能源條件下,最終性能高的產(chǎn)品能源效率就較高;第二個(gè)指標(biāo)便是芯片的晶體管效率,我們可以引入“每晶體管性能”來衡量,在消耗等量晶體管數(shù)量條件下,芯片效能高者效率就越高。

晶體管規(guī)模越大,制造成本越高,對(duì)芯片廠商來說,提高每晶體管性能能夠在保持成本不變的前提下獲得更卓越的性能。一般來說,每瓦性能和每晶體管性能總是被結(jié)合起來討論,不同指令體系的產(chǎn)品在此相差甚遠(yuǎn),例如當(dāng)前頂級(jí)的RISC處理器與頂級(jí)的X86處理器作對(duì)比,我們便會(huì)發(fā)現(xiàn)X86芯片遠(yuǎn)遠(yuǎn)落后。

即便基于相同的指令體系但設(shè)計(jì)不同的產(chǎn)品,也可能存在懸殊的效率差異—一個(gè)最典型的例子就是英特爾Netburst架構(gòu)與AMD64架構(gòu),Pentium 4芯片的功耗更高,晶體管規(guī)模也普遍更大,但性能無法同對(duì)應(yīng)的AMD64架構(gòu)產(chǎn)品抗衡。且Pentium 4芯片的能耗已超過百瓦,達(dá)到風(fēng)冷散熱的極限,無法進(jìn)一步向上提升。

為了解決這個(gè)問題,英特爾將在今年中期引入Merom架構(gòu)來代替Netburst,誠如我們之前的分析,Merom引入了RISC精簡指令的思想,對(duì)X86架構(gòu)進(jìn)行根本性的改進(jìn)得以大幅提高效率。而在RISC技術(shù)領(lǐng)域,提高效率也一直都是各制造商的目標(biāo),雖然RISC芯片在這方面已占據(jù)先天優(yōu)勢,但各芯片廠商仍然在此方面花費(fèi)巨大的精力并獲得斐然成果。在本文關(guān)于P.A.Semi的PWRficient雙核處理器、SUN UltraSPARC T1八核處理器的分析中,我們將能看到這一點(diǎn)。

多核心設(shè)計(jì)可謂是提高每晶體管效能的最佳手段。在單核產(chǎn)品中,提高性能主要通過提高頻率和增大緩存來實(shí)現(xiàn),前者會(huì)導(dǎo)致芯片功耗的提升,后者則會(huì)讓芯片晶體管規(guī)模激增,造成芯片成本大幅度上揚(yáng)。盡管代價(jià)高昂,這兩種措施也只能帶來小幅度性能提升。而如果引入多核技術(shù),便可以在較低頻率、較小緩存的條件下達(dá)到大幅提高性能的目的。相比大緩存的單核產(chǎn)品,耗費(fèi)同樣數(shù)量晶體管的多核心處理器擁有更出色的效能,同樣在每瓦性能方面,多核設(shè)計(jì)也有明顯的優(yōu)勢。

正因?yàn)槿绱?,?dāng)IBM于2001年率先推出雙核心產(chǎn)品之后,其他高端RISC處理器廠商也迅速跟進(jìn),雙核心設(shè)計(jì)由此成為高端RISC處理器的標(biāo)準(zhǔn)。而X86業(yè)界直到去年中期才開始嘗試推出雙核產(chǎn)品,預(yù)計(jì)實(shí)現(xiàn)全面普及要等到2006-2007年。

此時(shí),RISC業(yè)界又朝向多核、多線程的方向發(fā)展,四核心、八核心設(shè)計(jì)紛紛登臺(tái)亮相,并行線程數(shù)量多達(dá)32條,并且開始從通用多核體系轉(zhuǎn)向簡化核以及專用化的DSP,實(shí)現(xiàn)性能的跨越性提升—這些新設(shè)計(jì)和新方向也都將被X86業(yè)界所借鑒。[!--empirenews.page--]

在多路服務(wù)器領(lǐng)域,芯片能否具有良好的擴(kuò)展彈性至關(guān)重要,而這主要取決于以下兩大要素:第一,處理器擁有一條專門的芯片間直連總線,這樣當(dāng)系統(tǒng)中擁有多枚處理器的時(shí)候,各個(gè)處理器可借助該總線進(jìn)行通訊,從而實(shí)現(xiàn)高效的任務(wù)協(xié)作;第二,處理器是否將內(nèi)存控制器直接整合、擁有一套獨(dú)立的內(nèi)存系統(tǒng)。這方面反面的例子就是英特爾的Xeon平臺(tái),如果要構(gòu)建多路Xeon系統(tǒng),那么就必須依賴于芯片組,多枚處理器共同分享一套內(nèi)存系統(tǒng)。

處理器之間如果需要進(jìn)行數(shù)據(jù)通訊,就必須經(jīng)由“前端總線-北橋-內(nèi)存”的鏈路,這個(gè)過程不僅耗費(fèi)了可觀的時(shí)鐘周期,也消耗了總線和內(nèi)存資源。更嚴(yán)重的是,這類系統(tǒng)存在內(nèi)存搶占和緩存同步兩個(gè)難題:內(nèi)存搶占是指當(dāng)多個(gè)處理器同時(shí)發(fā)起對(duì)內(nèi)存中的某段數(shù)據(jù)進(jìn)行存取指令時(shí),各個(gè)處理器必須以搶占的方式獲得內(nèi)存存取權(quán)限—如果有一個(gè)處理器對(duì)某段數(shù)據(jù)進(jìn)行修改,該處理器就會(huì)鎖定這段數(shù)據(jù),其他的處理器必須等待,導(dǎo)致性能提升幅度大打折扣。

系統(tǒng)中的處理器數(shù)量越多,此種內(nèi)存搶占現(xiàn)象就會(huì)越頻繁,最糟糕的時(shí)候?qū)?dǎo)致系統(tǒng)的性能不升反降。緩存同步主要出現(xiàn)在多處理器/多內(nèi)核協(xié)作處理同一任務(wù)時(shí),各個(gè)處理器或內(nèi)核必須進(jìn)行緩存同步。由于Xeon缺乏直接溝通渠道,緩存同步操作也必須依賴“前端總線-北橋-內(nèi)存”的鏈路進(jìn)行,效率較為低下。

相比之下,AMD的Opteron平臺(tái)就沒有這兩個(gè)問題:借助HyperTransort總線,Opteron處理器可實(shí)現(xiàn)直接通訊,加之 Opteron擁有獨(dú)立的內(nèi)存控制器,不存在內(nèi)存搶占的問題,因此該平臺(tái)非常易于擴(kuò)展。Opteron在服務(wù)器領(lǐng)域?qū)eon造成強(qiáng)大的壓力,很大程度上就是得益于此。至于RISC領(lǐng)域,芯片直連總線和整合內(nèi)存控制器也早已成為處理器的標(biāo)準(zhǔn)設(shè)計(jì),而英特爾在自己的技術(shù)藍(lán)圖上也表明將在2008年開始采用類似的設(shè)計(jì)。

對(duì)應(yīng)用于PC的X86處理器而言,處理器的擴(kuò)展彈性無關(guān)緊要,但整合內(nèi)存控制器還是非常有意義,原因在于該項(xiàng)設(shè)計(jì)能夠有效降低內(nèi)存系統(tǒng)的延遲時(shí)間。事實(shí)上,這只是整合運(yùn)動(dòng)的開始,不少處理器廠商都在考慮讓處理器整合越來越多的功能,例如SUN和AMD都在考慮在下一代架構(gòu)中直接整合PCI Express控制器、I/O控制器甚至是圖形功能,借此提升系統(tǒng)的I/O性能以及降低平臺(tái)成本;P.A.Semi的PWRficient處理器則整合了 10GbE和GbE網(wǎng)絡(luò)控制器以及PCI Express控制器,目的是提高相應(yīng)服務(wù)器的網(wǎng)絡(luò)性能和I/O傳輸效能。盡管其他的處理器廠商似乎不為所動(dòng),但高度的整合無疑是未來處理器的發(fā)展方向之一。

多核處理器同軟件配合的討論

在多核心處理器如火如荼發(fā)展的時(shí)候,軟件業(yè)卻遠(yuǎn)遠(yuǎn)沒有來得及為此作準(zhǔn)備。最早發(fā)現(xiàn)問題的是PS3、Xbox 360等平臺(tái)的游戲開發(fā)商,由于兩套系統(tǒng)完全不同于前一代產(chǎn)品,游戲開發(fā)者對(duì)此怨聲載道,程序員普遍認(rèn)為對(duì)多核心處理器編程近乎是一種災(zāi)難,因?yàn)槌绦騿T必須深入了解相應(yīng)的硬件平臺(tái),然后據(jù)此編寫代碼,而讓代碼在兩個(gè)核心之間平衡更是一大難題。

相對(duì)來說,PS3的Cell平臺(tái)難度更大,程序員首次接觸到主-從方式的多核平臺(tái),對(duì)如何發(fā)揮出協(xié)處理器的性能優(yōu)勢缺乏經(jīng)驗(yàn),由于編碼的不到位,讓Cell平臺(tái)無法表現(xiàn)出與實(shí)際相稱的高性能。同樣的事情現(xiàn)在也出現(xiàn)在X86領(lǐng)域,雙核平臺(tái)的出現(xiàn)讓軟件開發(fā)商考慮對(duì)雙核優(yōu)化的重要性—但比較幸運(yùn)的是,諸如辦公軟件、網(wǎng)頁瀏覽器、內(nèi)容創(chuàng)建工具等常規(guī)的商務(wù)軟件對(duì)CPU性能要求不高,對(duì)雙核優(yōu)化也不見得會(huì)帶來什么實(shí)質(zhì)性的益處,因此主要的X86軟件都不需要作出變動(dòng),真正需要考慮雙核平臺(tái)的仍然是X86平臺(tái)下的游戲。

對(duì)此游戲開發(fā)商也是相當(dāng)頭疼,因?yàn)閄86多核與PS3、Xbox 360游戲機(jī)的多核平臺(tái)不同,未來的Many Core或HyperTransport協(xié)處理器平臺(tái)也許又要作出改動(dòng)。為了充分發(fā)揮硬件性能,設(shè)備廠商希望開發(fā)商深入了解對(duì)應(yīng)多核處理器的細(xì)節(jié)—問題是現(xiàn)存多種多核架構(gòu),一一研究代價(jià)巨大。開發(fā)者都希望能夠利用一個(gè)硬件無關(guān)的自動(dòng)化通用開發(fā)平臺(tái)進(jìn)行設(shè)計(jì)開發(fā),這樣編碼工作將變得相當(dāng)容易,同時(shí)也能夠保證代碼擁有出色的適應(yīng)性,遺憾的是,至少在目前這還是軟件工業(yè)一廂情愿的想法。

當(dāng)然,我們沒必要因此對(duì)多核平臺(tái)喪失信心,對(duì)X86 PC來說,使用多核心處理器能夠極大提升系統(tǒng)的多任務(wù)效能,你可以在相同的時(shí)間里執(zhí)行多項(xiàng)任務(wù),借此提高辦公效率—在軟件業(yè)來不及跟上的時(shí)候,辦公用戶或許能夠更多體驗(yàn)到雙核平臺(tái)的優(yōu)勢所在。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉