多方位多角度帶您重新詮釋多核技術(shù)

時(shí)間：2014-07-23 22:21:12

關(guān)鍵字： AMD ULTRA 協(xié)處理器 SPARC

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]在X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年

在X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年內(nèi)更多是對(duì)現(xiàn)有的AMD64架構(gòu)進(jìn)行改良。

在過去數(shù)十年歷史中，微處理器業(yè)界一直為提高芯片的運(yùn)算性能而努力，得益于IC設(shè)計(jì)和半導(dǎo)體制造技術(shù)的交互拉動(dòng)，微處理器的運(yùn)算性能始終保持高速度提升狀態(tài)，芯片的集成度、工作頻率、執(zhí)行效率也在這個(gè)過程中不斷提升，計(jì)算機(jī)工業(yè)由此改變。在大家熟知的X86領(lǐng)域，處理器的技術(shù)進(jìn)步更是對(duì)世界產(chǎn)生重大的影響，作為PC機(jī)的核心，X86處理器事實(shí)上擔(dān)任起信息技術(shù)引擎的作用。

伴隨著X86處理器的性能提升，PC機(jī)可以完成越來越多的任務(wù):從最初的Basic到功能完善的DOS系統(tǒng)，再到圖形化的Windows 95，從平面二維到3D環(huán)境渲染，從一個(gè)無聲的純視覺界面進(jìn)入到視覺、音頻結(jié)合的多媒體應(yīng)用，計(jì)算機(jī)實(shí)現(xiàn)彼此相互聯(lián)網(wǎng)，龐大的Internet日漸完善，電子商務(wù)應(yīng)用從概念到全球流行;

與硬件技術(shù)高速發(fā)展相對(duì)應(yīng)，PC應(yīng)用也朝向前所未有的深度和廣度拓展:視頻媒體轉(zhuǎn)向HDTV高清晰格式，3D渲染朝向電影畫質(zhì)進(jìn)發(fā)，操作系統(tǒng)的人機(jī)界面也從2D的GUI進(jìn)入到三維時(shí)代，高速互聯(lián)網(wǎng)接入和無線技術(shù)方興未艾，應(yīng)用軟件越來越智能化，所有這些應(yīng)用都要求有高性能的處理器作為基礎(chǔ)。而除了應(yīng)用驅(qū)動(dòng)外，激烈的市場競爭也成為微處理器業(yè)界競相研發(fā)新技術(shù)、提高產(chǎn)品性能的主要推動(dòng)力。

在2006年，我們將看到具有卓越能源效率的英特爾Merom架構(gòu)出臺(tái)，AMD則以雙通道DDR2-800支持與之抗衡，同時(shí)雙核心產(chǎn)品成為桌面和移動(dòng)芯片的新標(biāo)準(zhǔn)，X86處理器進(jìn)入到性能躍升階段。

毋庸置疑，X86處理器已然成為計(jì)算機(jī)工業(yè)的主導(dǎo)力量，在高端服務(wù)器和嵌入領(lǐng)域廣泛使用的RISC處理器反而少被提起。事實(shí)上，RISC處理器一直都以遠(yuǎn)超X86產(chǎn)品的卓越性能和銳意進(jìn)取的技術(shù)創(chuàng)新著稱，幾乎所有先進(jìn)的設(shè)計(jì)技術(shù)都是首先出現(xiàn)在RISC領(lǐng)域，之后才被X86產(chǎn)品所借鑒。而換一個(gè)角度來看，RISC處理器領(lǐng)域的每一次技術(shù)創(chuàng)新又反過來對(duì)X86產(chǎn)品產(chǎn)生重大影響，因此，了解當(dāng)前RISC領(lǐng)域的尖端技術(shù)便意味著能夠明晰X86處理器的未來走向。

今天，微處理器全面轉(zhuǎn)向多核心體系，無論RISC芯片還是X86芯片皆是如此，不過我們?cè)诒疚闹兴榻B的并不是人們熟知的雙核心 Pentium D或者Athlon64 X2，而是當(dāng)前多核微處理器領(lǐng)域的最新技術(shù)成果以及面向未來的新穎概念，它們包括RISC領(lǐng)域的黑馬、P.A.Semi公司的PWRficient雙核處理器，SUN公司推出的 UltraSPARC T1八核心處理器，英特爾公司Many Core計(jì)劃的實(shí)質(zhì)以及AMD正在考慮的HyperTransport協(xié)處理器架構(gòu)。

在這同時(shí)，我們也將向大家介紹各微處理器廠商對(duì)未來技術(shù)發(fā)展的不同理解，以及軟件業(yè)如何應(yīng)對(duì)為多核平臺(tái)編程的巨大挑戰(zhàn)。

高度整合的架構(gòu)

P.A.Semi公司的PWRficient處理器在去年微處理器論壇(MPF2005)上正式揭曉。對(duì)于P.A.Semi這個(gè)名字，相信所有人都感到陌生，這家專門從事RISC處理器設(shè)計(jì)的技術(shù)型企業(yè)成立于2003年，創(chuàng)始者都是微處理器業(yè)界的頂尖人物。其CEO曾負(fù)責(zé)Alpha服務(wù)器芯片和 StrongARM手持機(jī)芯片的開發(fā);負(fù)責(zé)技術(shù)的副總裁科勒也曾從事Alpha芯片的開發(fā)，后來進(jìn)入AMD公司幫助定義了Opteron芯片的架構(gòu);另一負(fù)責(zé)架構(gòu)的副總裁皮特同樣曾為Alpha架構(gòu)服務(wù)，在DEC公司發(fā)生的數(shù)次并購中先后進(jìn)入康柏、惠普和英特爾。

在MPF2005論壇上，P.A.Semi公司對(duì)外公布其設(shè)計(jì)的雙核心PWRficient處理器，高度整合的設(shè)計(jì)令外界耳目一新，并兼具低功耗和高性能兩大特性。該公司同時(shí)表示，PWRficient彈性的架構(gòu)可被方便擴(kuò)展到八核心或用于超級(jí)計(jì)算機(jī)系統(tǒng)，在高端服務(wù)器領(lǐng)域頗具競爭力。

在設(shè)計(jì)PWRficient之時(shí)，P.A.Semi面臨的第一個(gè)問題就是指令系統(tǒng)的選擇，X86無疑更加流行、市場更廣闊，但該領(lǐng)域被英特爾、 AMD把持，機(jī)會(huì)有限，加上X86指令系統(tǒng)復(fù)雜低效，與PWRficient的高端定位相悖。P.A.Semi最終選擇了IBM的Power架構(gòu)，這樣 PWRficient處理器便成為IBM Power大家族中的一個(gè)新成員。

但除此之外，PWRficient與IBM的Power芯片并沒有太多的共同點(diǎn)，它擁有一套極富彈性的架構(gòu)、高度整合以及低功耗特性。 PWRficient主要定位在刀片服務(wù)器和低運(yùn)營成本的服務(wù)器集群，P.A.Semi公司將英特爾的Sossaman Xeon處理器(Yonah架構(gòu))作為主要的競爭對(duì)手。

我們先來看看PWRficient的系統(tǒng)架構(gòu)，如圖1，我們可以看到，PWRficient與通常的處理器邏輯非常不同，除了CPU內(nèi)核和二級(jí)緩存外，它還包括一個(gè)名為ENVIO的智能型I/O子系統(tǒng)。換句話說，PWRficient上包含CPU和ENVIO I/O子系統(tǒng)等兩大邏輯，兩者通過一個(gè)名為CONEXIUM Interchage的高速交換總線聯(lián)結(jié)為一個(gè)有機(jī)系統(tǒng)。CPU部分為兩個(gè)代號(hào)為PA6T的64位Power CPU內(nèi)核，運(yùn)行頻率為2GHz。

與其他雙核芯片不同的是，PWRficient的每一個(gè) PA6T內(nèi)核都擁有自己的DDR2內(nèi)存控制器，但兩者是以相互獨(dú)立的模式而非組成共享的雙通道。此種設(shè)計(jì)的好處在于每個(gè)CPU內(nèi)核都能擁有屬于自己的內(nèi)存資源，最大限度降低內(nèi)存搶占的幾率。每個(gè)CPU內(nèi)核都可支持64位或32位模式運(yùn)作，具有諸如超標(biāo)量、亂序執(zhí)行、三發(fā)射等技術(shù)特性。另外，PA6T內(nèi)核也都直接整合了硬件級(jí)的虛擬技術(shù)支持，可以在多套系統(tǒng)同時(shí)運(yùn)行時(shí)仍保持出色的性能。

PA6T內(nèi)核整合了64KB指令緩存和64KB數(shù)據(jù)緩存，而兩個(gè)PA6T核心再共同分享2MB容量的二級(jí)緩存。PWRficient并沒有采用類似Xeon的大緩存方案，原因就在于它的每個(gè)核心都有自己的內(nèi)存，出現(xiàn)內(nèi)存搶占的幾率遠(yuǎn)低于共享總線的落后設(shè)計(jì)。

兩個(gè)PA6T核心、2MB二級(jí)緩存和兩個(gè)DDR2內(nèi)存控制器都是通過CONEXIUM Interchage交換總線聯(lián)結(jié)為一體，如果未來有需要，也可以在這條交換總線上聯(lián)結(jié)四個(gè)內(nèi)核甚至八個(gè)內(nèi)核。但CONEXIUM的功能不僅于此，PWRficient處理器中的ENVOI I/O子系統(tǒng)也是通過這套總線與CPU邏輯直接通訊。與我們通常所見的固定模式不同，ENVOI相當(dāng)靈活且富有彈性，它直接整合了八個(gè)PCI Express控制器(每個(gè)控制器提供4GBps帶寬)、兩個(gè)10GbE網(wǎng)絡(luò)控制器(萬兆以太網(wǎng))和四個(gè)GbE(千兆以太網(wǎng))控制器，這三部分I/O邏輯共享24對(duì)串行傳輸線路。

設(shè)備制造商可根據(jù)自身情況對(duì)這24對(duì)串行線路進(jìn)行靈活配置，例如在NAS網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)中，可以讓連接磁盤系統(tǒng)的PCI Express傳輸獲得更多線路資源，如果需要多端口的網(wǎng)絡(luò)訪問，那么便可以將線路資源朝向10GbE和GbE系統(tǒng)傾斜。這種高度彈性的架構(gòu)讓制造商擁有寬松的設(shè)計(jì)空間，可以根據(jù)企業(yè)的不同需要定制出最科學(xué)的服務(wù)器系統(tǒng)。而這種高度整合設(shè)計(jì)還有一個(gè)益處在于:無論是PCI Express系統(tǒng)還是網(wǎng)絡(luò)系統(tǒng)，數(shù)據(jù)傳輸時(shí)的總線延遲都極短，進(jìn)而獲得卓越的數(shù)據(jù)傳輸效能。[!--empirenews.page--]

盡管PWRficient專門針對(duì)服務(wù)器應(yīng)用，但它的設(shè)計(jì)思想對(duì)于X86產(chǎn)品仍然十分有借鑒意義。AMD計(jì)劃在下一代處理器架構(gòu)中引入類似的高度整合設(shè)計(jì)，直接內(nèi)建PCI Express控制器，以提高系統(tǒng)的數(shù)據(jù)傳輸性能。事實(shí)上，整個(gè)芯片組的功能都可以被處理器所整合，這對(duì)于芯片組廠商而言顯然不是什么好消息。

除了高度整合設(shè)計(jì)外，卓越的每瓦性能也是PWRficient處理器的主要賣點(diǎn)之一。PWRficient的核心頻率為2GHz，芯片最高能耗區(qū)區(qū)25瓦，平均運(yùn)行能耗甚至僅有5W的超低水平。IBM公司將重點(diǎn)放在高性能的Power 5/6和游戲機(jī)領(lǐng)域，對(duì)低功耗芯片重視不足，PWRficient便不會(huì)與IBM的產(chǎn)品有什么沖突。P.A.Semi公司將英特爾Sossaman核心的低功耗型Xeon作為主要對(duì)手，盡管Sossaman基于效率出眾的Yonah架構(gòu)，但它的能源效率遠(yuǎn)無法同PWRficient相提并論。

PWRficient 2GHz的實(shí)際性能略高于Sossaman Xeon 2.5GHz，但后者的能耗達(dá)到73瓦，整整比PWRficient高出兩倍。對(duì)服務(wù)器系統(tǒng)而言，低功耗芯片的意義不僅在于散熱更佳，最大的好處在于能夠節(jié)約出可觀的運(yùn)營成本。P.A.Semi公司作出了詳細(xì)的對(duì)比:如果要構(gòu)建一套運(yùn)算速度達(dá)到32TFLOPS標(biāo)準(zhǔn)的服務(wù)器集群，需要使用6400枚 Sossaman Xeon處理器，連帶配套芯片組、萬兆網(wǎng)卡等組件，整套集群的能耗將達(dá)到467200瓦;

而如果轉(zhuǎn)用PWRficient平臺(tái)，只需4000枚芯片就能夠?qū)崿F(xiàn)相同的性能，由于主要功能都被CPU直接集成，配套的芯片組也變得簡單，整個(gè)集群的功耗只有92000瓦，相當(dāng)于英特爾Sossaman Xeon平臺(tái)的1/5，集群的空間占用、散熱系統(tǒng)費(fèi)用也更為低廉。如果選擇PWRficient平臺(tái)，集群系統(tǒng)的運(yùn)營費(fèi)用可以被大幅度削減，對(duì)本例的 32TFLOPS集群系統(tǒng)而言，就是每年可節(jié)約出至少100萬美元運(yùn)營費(fèi)用，PWRficient的優(yōu)勢十分明顯。

PWRficient將采用IBM的65納米SOI工藝進(jìn)行制造，P.A.Semi公司計(jì)劃在下半年推出處理器樣品，2007年正式上市。該芯片的主要銷售對(duì)象包括服務(wù)器廠商、網(wǎng)絡(luò)設(shè)備廠商，甚至還包括家電廠商，尤其在刀片服務(wù)器和服務(wù)器集群系統(tǒng)中，PWRficient具有明顯的優(yōu)勢。但光有優(yōu)秀的產(chǎn)品不足以說明問題，P.A.Semi只是一家小規(guī)模的技術(shù)型公司，自身沒有服務(wù)器制造和推廣力量，只有獲得服務(wù)器廠商的支持才能夠?qū)? PWRficient推向?qū)嵱没?。而?duì)IBM來說，既然沒有更多的精力來開發(fā)低功耗Power芯片，將P.A.Semi收歸旗下不失為一個(gè)好選擇。

圖1 PWRficient處理器的邏輯架構(gòu)，整合了大量的I/O功能，堪稱一款SOC(片上系統(tǒng))型芯片。

精簡核心和超多線程設(shè)計(jì)

SUN公司在2005年底推出的UltraSPARC T1也是微處理器領(lǐng)域的又一巔峰之作。同PWRficient的高度整合設(shè)計(jì)不同，UltraSPARC T1的重心放在多任務(wù)并行功能，這是由UltraSPARC T1自身的定位所決定的。UltraSPARC T1主要針對(duì)承擔(dān)網(wǎng)絡(luò)中樞的高端服務(wù)器系統(tǒng)，這類服務(wù)器主要面向高吞吐量的事務(wù)計(jì)算，需要在同時(shí)處理大量的并發(fā)任務(wù)，而這些任務(wù)又都不需要復(fù)雜的運(yùn)算。

因此，SUN公司采用非均衡的思想來設(shè)計(jì)UltraSPARC T1:每個(gè)基本的CPU內(nèi)核都相當(dāng)精簡，但都能夠很好地完成相應(yīng)的數(shù)據(jù)處理任務(wù)，由于精簡核心占據(jù)的晶體管資源較少，處理器就能夠集成更多的硬件內(nèi)核;同時(shí)在較單純的數(shù)據(jù)處理任務(wù)中，每個(gè)CPU核心的執(zhí)行管線都不會(huì)被充分利用，在此基礎(chǔ)上導(dǎo)入多線程技術(shù)將能夠進(jìn)一步提高系統(tǒng)的并行能力。我們可以看到，UltraSPARC T1擁有八個(gè)對(duì)等的硬件內(nèi)核，每個(gè)內(nèi)核可同步執(zhí)行4個(gè)線程，這樣僅僅一枚處理器就具備同時(shí)執(zhí)行32個(gè)不同任務(wù)的能力。

UltraSPARC T1的晶體管總量只有3億個(gè)左右，峰值能耗只有區(qū)區(qū)80瓦，執(zhí)行效率相當(dāng)出眾。我們必須注意的是，UltraSPARC T1雖然具有超凡的事務(wù)處理能力，可它的科學(xué)計(jì)算能力十分糟糕，原因就在于SUN根據(jù)自身特殊的需要，采用不對(duì)等的設(shè)計(jì)。

UltraSPARC T1的CPU核心設(shè)計(jì)得非常簡單，它的流水線很短，也沒有包含浮點(diǎn)運(yùn)算單元，只有在八個(gè)核心之外附加了一個(gè)浮點(diǎn)運(yùn)算器。這樣每個(gè)核心的晶體管占用就很少，為芯片低功耗奠定基礎(chǔ);UltraSPARC T1的每個(gè)核心均只運(yùn)行在1.2GHz的低頻率下，這也是拜短流水線設(shè)計(jì)所賜，芯片節(jié)能就不難理解了。UltraSPARC T1的每個(gè)核心都擁有16KB一級(jí)指令緩存和8KB的一級(jí)數(shù)據(jù)緩存，并具備奇偶檢查能力(Parity Check)，可以自行偵測緩存錯(cuò)誤。

如果數(shù)據(jù)串中有1bit出現(xiàn)錯(cuò)誤，緩存自身可對(duì)其進(jìn)行修正，由此保證在苛刻環(huán)境下的運(yùn)行可靠性。在二級(jí)緩存方面，UltraSPARC T1實(shí)行八核心共享的機(jī)制。由于核心數(shù)量眾多，如果繼續(xù)采用獨(dú)立緩存設(shè)計(jì)的話，緩存同步操作需要耗費(fèi)可觀的運(yùn)算資源，共享設(shè)計(jì)顯然是更理想的選擇。但為眾多的核心分配緩存資源也是一個(gè)令人頭疼的事情，SUN通過Crossbar連接架構(gòu)來解決問題:八個(gè)核心在Crossbar的統(tǒng)一分配下獲取緩存資源，有效避免了存取沖突。

一個(gè)比較特殊的地方就是UltraSPARC T1的二級(jí)緩存容量只有3MB，對(duì)一枚擁有八個(gè)硬件核心的處理器而言似乎少得可憐，但RISC處理器與X86處理器處理的任務(wù)迥異，提高緩存容量對(duì)X86 處理器的性能影響立竿見影，但UltraSPARC T1面向網(wǎng)絡(luò)運(yùn)算，而這類運(yùn)算對(duì)緩存容量并不十分依賴，起到?jīng)Q定作用的是核心的性能。

多線程支持是UltraSPARC T1的一大亮點(diǎn)。UltraSPARC T1擁有一項(xiàng)名為CoolThreads的多線程技術(shù)，該技術(shù)令UltraSPARC T1的每個(gè)硬件核心都擁有同步執(zhí)行4個(gè)線程的能力。這樣，八核心的UltraSPARC T1可以在同一時(shí)間運(yùn)行32個(gè)線程，具有超強(qiáng)的多任務(wù)處理能力。雖然英特爾的芯片很早就引入HyperTreading超線程功能、允許CPU執(zhí)行兩個(gè)線程，但HyperTreading設(shè)計(jì)僵化，線程一旦進(jìn)入執(zhí)行位置就無法替換，這樣即便該線程耗費(fèi)大量的執(zhí)行資源和時(shí)間也必須持續(xù)等候。

在不少時(shí)候，此舉反而會(huì)令系統(tǒng)的效能降低，這也是HyperTreading發(fā)展多年，但始終都沒有獲得廣泛推行的主要原因。而SUN、IBM 等RISC處理器廠商在多線程技術(shù)領(lǐng)域有更深厚的實(shí)力，如IBM的Power 5系列具備線程動(dòng)態(tài)轉(zhuǎn)移功能，在線程運(yùn)行開始即可對(duì)執(zhí)行狀況和資源使用進(jìn)行實(shí)時(shí)偵測，如某個(gè)線程久拖不完或資源占用高，其余的核心又處于閑置狀態(tài)時(shí)便立即將它轉(zhuǎn)移，同時(shí)將運(yùn)算資源和等候時(shí)間撫平，令系統(tǒng)保持卓越的并行執(zhí)行效率。[!--empirenews.page--]

UltraSPARC T1的 CoolThreads技術(shù)也具有類似的動(dòng)態(tài)轉(zhuǎn)移功能，任何一個(gè)執(zhí)行單元有空余時(shí)，都可抓取已排入其他位置的待處理線程加以執(zhí)行，由此維持八個(gè)核心的均衡負(fù)載。

UltraSPARC T1的整合內(nèi)存控制器相當(dāng)強(qiáng)大，它并不是像常規(guī)多核處理器一樣只內(nèi)建1組，而是擁有多達(dá)4組內(nèi)存控制器，每個(gè)控制器都可以支持雙通道ECC DDR2-533MHz內(nèi)存、傳輸位寬達(dá)到144bit。在運(yùn)行過程中，如果有4bit以下的內(nèi)容錯(cuò)誤，UltraSPARC T1的內(nèi)存控制系統(tǒng)可自行糾正，如果錯(cuò)誤數(shù)量提高到8bit，UltraSPARC T1仍然具備識(shí)別能力，系統(tǒng)可保持長時(shí)間的穩(wěn)定運(yùn)作。

另外，每組內(nèi)存控制器都可以連接4個(gè)DIMM內(nèi)存槽，因此一枚UltraSPARC T1處理器最多可管理多達(dá)16個(gè)DIMM模組，創(chuàng)造該領(lǐng)域的最高記錄。毋庸置疑，UltraSPARC T1以4組144bit內(nèi)存接口來對(duì)應(yīng)8核心已經(jīng)是相當(dāng)充足，但SUN提供了更多的選擇。在必要時(shí)候，用戶可以將每兩個(gè)控制器捆綁在一起，相當(dāng)于將原本相互獨(dú)立的4組內(nèi)存系統(tǒng)變成兩組可并行存取的結(jié)構(gòu)，從而將內(nèi)存系統(tǒng)的傳輸速度提高一倍。倘若系統(tǒng)執(zhí)行的任務(wù)對(duì)數(shù)據(jù)傳輸有很高的要求，開啟這項(xiàng)功能將對(duì)系統(tǒng)性能提升起到立竿見影的作用。

而在多路擴(kuò)展方面，UltraSPARC T1采用的是SUN獨(dú)有的JBus高速互聯(lián)總線，JBus 1.0規(guī)格早在2003年4月就發(fā)布，采用128bit位寬的地址/數(shù)據(jù)接口，總線頻率在150MHz-200MHz之間，峰值傳輸速率可達(dá)到 3.1GBps。雖然成就遠(yuǎn)不如AMD的HyperTranspot總線，但JBus的性能同樣可滿足多處理器數(shù)據(jù)交換的要求，畢竟UltraSPARC T1擁有八個(gè)核心和32個(gè)獨(dú)立線程，處理器之間不需要交換太多的數(shù)據(jù)。

除了八核心版本外，SUN公司還將推出較低定位的六核心、四核心UltraSPARC T1，但三者其實(shí)都出自相同的晶圓，只是將存在瑕疵、但關(guān)閉部分內(nèi)核后可正常運(yùn)行的芯片作為六核或四核型號(hào)。令人驚訝的是，UltraSPARC T1非常節(jié)能，在八核心、32個(gè)線程都激活狀態(tài)下的典型功耗僅有72瓦，峰值功耗也只有80瓦，能源利用效率極其出色;另外，UltraSPARC T1還可以通過關(guān)閉某些核心來達(dá)到節(jié)能的目的。

當(dāng)然，我們不能簡單將UltraSPARC T1與X86處理器作直接的對(duì)比，畢竟兩者面向不同的應(yīng)用、設(shè)計(jì)思想迥異。但從UltraSPARC T1中我們可以接觸到另外一種設(shè)計(jì)思想:即根據(jù)特定的應(yīng)用來設(shè)計(jì)處理器，使得該處理器能夠在既定應(yīng)用中獲得最佳的效能。這種思想在RISC業(yè)界已經(jīng)開始風(fēng)行，X86處理器受通用所累，暫時(shí)難以實(shí)現(xiàn)類似設(shè)計(jì)，但在未來我們不排除這種思想被X86業(yè)界借鑒的可能:例如英特爾/AMD可以專門針對(duì)游戲玩家和多媒體娛樂用戶設(shè)計(jì)出強(qiáng)化浮點(diǎn)性能的娛樂型處理器，或者設(shè)計(jì)出強(qiáng)化整數(shù)性能、功耗更低的辦公型處理器，這樣辦公用戶不必為自己不需要的浮點(diǎn)性能多掏腰包，娛樂用戶也能夠獲得性能更出色的產(chǎn)品。而對(duì)英特爾、AMD廠商來說，只要設(shè)計(jì)一個(gè)富有彈性的處理器架構(gòu)，制造出不同定位的產(chǎn)品并不需要花費(fèi)多少代價(jià)。

專用協(xié)處理器實(shí)現(xiàn)效能跨越

PWRficient的高度整合思想、SUN UltraSPARC T1根據(jù)任務(wù)定制的精簡核心、多任務(wù)方案令人耳目一新，但這兩者其實(shí)都只是在現(xiàn)有多核架構(gòu)基礎(chǔ)上的革新，處理器本身仍然基于對(duì)等的多核心設(shè)計(jì)。

微處理器領(lǐng)域真正意義的架構(gòu)革命將在未來數(shù)年內(nèi)誕生，那就是多核架構(gòu)將從通用的對(duì)等設(shè)計(jì)遷移到“主核心+協(xié)處理器”的非對(duì)等設(shè)計(jì)，亦即處理器中只有一個(gè)或數(shù)個(gè)通用核心承擔(dān)任務(wù)指派功能，諸如浮點(diǎn)運(yùn)算、HDTV視頻解碼、Java語言執(zhí)行等任務(wù)都可以由專門的DSP硬件核心來完成，由此實(shí)現(xiàn)處理器執(zhí)行效率和最終性能的大幅度躍進(jìn)—IBM Cell、英特爾Many Core和AMD HyperTransport協(xié)處理器平臺(tái)便是該種思想的典型代表。

下面，我們便從Cell入手，向大家介紹這種極具前途的新穎設(shè)計(jì)。

圖3 Cell處理器基于“PPE主處理單元+SPE協(xié)處理器”的專用化設(shè)計(jì)，實(shí)現(xiàn)浮點(diǎn)性能的飛躍。

IBM Cell:開創(chuàng)全新的多核架構(gòu)

IBM為索尼PS3游戲機(jī)定制的Cell是一枚擁有9個(gè)硬件核心的多核處理器，它的多核結(jié)構(gòu)同以往的多核心產(chǎn)品完全不同。在Cell芯片中，只有一個(gè)核心擁有完整的功能，被稱為主處理器，其余8個(gè)核心都是專門用于浮點(diǎn)運(yùn)算的協(xié)處理器。其中，主處理器只是PowerPC 970的精簡版本，其主要職能就是負(fù)責(zé)任務(wù)的分配，實(shí)際的浮點(diǎn)運(yùn)算工作都是由協(xié)處理器來完成。

由于Cell中的協(xié)處理器只負(fù)責(zé)浮點(diǎn)運(yùn)算任務(wù)，所需的運(yùn)算規(guī)則非常簡單，對(duì)應(yīng)的電路邏輯同樣如此，只要CPU運(yùn)行頻率足夠高，Cell就能夠獲得驚人的浮點(diǎn)效能。而由于電路邏輯簡單，主處理器和協(xié)處理器都可以輕松工作在很高的頻率上—Cell起步頻率即達(dá)到4GHz就是最好的證明。在高效率的專用核心和高頻率的幫助下，Cell獲得了高達(dá)256Gigaflops(2560億次浮點(diǎn)運(yùn)算每秒)的浮點(diǎn)運(yùn)算能力，接近超級(jí)計(jì)算機(jī)的水準(zhǔn)，遠(yuǎn)遠(yuǎn)超越目前所有的X86和RISC處理器。

作為對(duì)比，英特爾的4路Montecito安騰(雙內(nèi)核)系統(tǒng)也僅獲得45Gigaflops的浮點(diǎn)性能。更令人驚訝的是，Cell只花費(fèi)了區(qū)區(qū)2.34億個(gè)晶體管，功耗在80-100瓦左右，能源利用效率比現(xiàn)在設(shè)計(jì)最佳的RISC和X86處理器都高出數(shù)十倍，這足以說明Cell專用、多核設(shè)計(jì)思想的優(yōu)越性。

必須提到的是，Cell并非通用的處理器，雖然它具有極強(qiáng)悍的浮點(diǎn)運(yùn)算性能，可很好滿足游戲機(jī)和多媒體應(yīng)用，但整數(shù)性能和動(dòng)態(tài)指令執(zhí)行性能并不理想，這是由任務(wù)的形態(tài)所決定的。未來耗費(fèi)計(jì)算機(jī)運(yùn)算性能最多的主要是3D圖形、HDTV解碼、科學(xué)運(yùn)算之類的應(yīng)用，所涉及到的其實(shí)都是浮點(diǎn)運(yùn)算，整數(shù)運(yùn)算只是決定操作系統(tǒng)和應(yīng)用軟件的運(yùn)行效能(操作系統(tǒng)、Office軟件等)，而這部分應(yīng)用對(duì)處理器性能要求并不苛刻，因此Cell將側(cè)重點(diǎn)放在浮點(diǎn)運(yùn)算性能，與SUN UltraSPARC T1專注事務(wù)處理的設(shè)計(jì)可以說有異曲同工之妙。

相較而言，當(dāng)前的X86處理器都采用通用的核心，為了同時(shí)提高整數(shù)性能和浮點(diǎn)性能，CPU核心被設(shè)計(jì)得越來越臃腫，晶體管消耗越來越多，不僅導(dǎo)致芯片的功耗急劇增大，頻率提升速度也非常緩慢。而且通用設(shè)計(jì)的另一個(gè)弊病在于，不管執(zhí)行什么任務(wù)，芯片內(nèi)的所有邏輯單元都消耗電力，導(dǎo)致X86芯片普遍存在能源利用率低的問題。[!--empirenews.page--]

可以預(yù)見，倘若繼續(xù)沿著現(xiàn)有的通用、多核設(shè)計(jì)方案向前發(fā)展，X86處理器將會(huì)陷入一系列的困境，例如芯片高度復(fù)雜，開發(fā)和制造成本越來越高、芯片功耗無法控制等等。面對(duì)這樣的現(xiàn)實(shí)，X86業(yè)界轉(zhuǎn)變思想勢在必行。顯然，IBM Cell的新穎設(shè)計(jì)非常值得參考，英特爾的Many Core和AMD HyperTransport協(xié)處理器計(jì)劃可以視作Cell思想的變種。

圖4 DSP與通用CPU執(zhí)行專用任務(wù)時(shí)的效能和效率對(duì)比

Many Core:Cell思想的繼承與發(fā)展

在2005年的IDF技術(shù)峰會(huì)上，英特爾對(duì)外公布了Many Core超多核發(fā)展藍(lán)圖。隨著時(shí)間推移，Many Core計(jì)劃越來越明晰，我們可以肯定它將成為英特爾未來的X86處理器架構(gòu)。Many Core采用的也是類似Cell的專用化結(jié)構(gòu)，我們知道，英特爾的四核心處理器采用對(duì)等設(shè)計(jì)，每個(gè)內(nèi)核地位相同，而轉(zhuǎn)到Many Core架構(gòu)之后，其中的某一個(gè)或幾個(gè)內(nèi)核可以被置換為若干數(shù)量的DSP邏輯，保留下來的X86核心執(zhí)行所有的通用任務(wù)以及對(duì)特殊任務(wù)的分派;DSP則用于某些特殊任務(wù)的處理。

依照應(yīng)用不同，這些DSP類型可以是Java解釋器、MPEG視頻引擎、存儲(chǔ)控制器、物理處理器等等。在處理這類任務(wù)時(shí)，DSP的效能遠(yuǎn)優(yōu)于通用的X86核心，功耗也低得多。在圖4中我們可以看到DSP與通用CPU的效率對(duì)比:功耗僅2瓦、特定功能的DSP芯片，在處理對(duì)應(yīng)任務(wù)時(shí)的效能比75瓦功耗的通用CPU更加出色，且由于DSP構(gòu)造簡單、頻率提升非常容易;由于DSP效能提升速度比通用處理器快得多，這樣隨著時(shí)間的推移，DSP的效能優(yōu)勢將越來越明顯。

而如果處理器將高負(fù)載的專用任務(wù)轉(zhuǎn)交給DSP執(zhí)行之后，那么主核心的運(yùn)算壓力就大大減輕，系統(tǒng)整體效能將獲得明顯提升。

第一代Many Core架構(gòu)處理器可能采用“3個(gè)通用X86核心+16個(gè)DSP內(nèi)核”的組合(圖5)，我們可以看到，它的原型是一枚四核心處理器，只是將其中一個(gè)核心置換成16個(gè)DSP邏輯而已，因此處理器的總體結(jié)構(gòu)和晶體管規(guī)模都不會(huì)有多大變化，但產(chǎn)品的實(shí)際水準(zhǔn)將獲得大幅度增強(qiáng)。在執(zhí)行Java程序、視頻解碼、3D 渲染等耗用CPU資源的任務(wù)中，DSP的效能都大幅優(yōu)于通用核心，因此Many Core產(chǎn)品在執(zhí)行這類專用任務(wù)時(shí)會(huì)有飛躍性的性能增益。

同時(shí)，DSP邏輯的能耗只有通用核心的幾十分之一，可以讓處理器的功耗出現(xiàn)可觀的降低。當(dāng)然，如果我們將英特爾的Many Core處理器與Cell相比，便會(huì)發(fā)現(xiàn)一個(gè)明顯的差異:Cell的主核心非常簡單，協(xié)處理器則非常強(qiáng)大;而Many Core的通用核心仍然居于主導(dǎo)地位，DSP更多只是一種輔助。

這種差異源自于二者不同的定位:Cell只要求具備強(qiáng)勁的浮點(diǎn)效能，而對(duì)整數(shù)運(yùn)算不作要求，因此通用的主核心可以非常精簡;但Many Core必須考慮兼容大量的X86應(yīng)用軟件，專用的任務(wù)居于從屬性地位，在第一代產(chǎn)品中采用“三個(gè)通用核心+16個(gè)DSP核心”的組合應(yīng)該是比較恰當(dāng)?shù)摹?/p>

根據(jù)英特爾的遠(yuǎn)景規(guī)劃，第二代Many Core產(chǎn)品將在2015年前后面世。這當(dāng)然過于遙遠(yuǎn)了，但我們不妨來看看它是一款什么樣的產(chǎn)品(圖6)—擁有8個(gè)通用X86核心、64個(gè)專用DSP邏輯，片內(nèi)緩存容量高達(dá)1GB，晶體管規(guī)模則達(dá)到200億。受限于半導(dǎo)體工藝，后兩個(gè)目標(biāo)或許很難完全實(shí)現(xiàn)，但Many Core設(shè)計(jì)將毋庸置疑成為標(biāo)準(zhǔn)，而英特爾從這往后將逐步引入Many Core Array架構(gòu)，不斷增強(qiáng)DSP的數(shù)量以及執(zhí)行能力，通用核心的地位將隨著時(shí)間推移不斷減弱，直到最后完全可能實(shí)現(xiàn)以DSP占主導(dǎo)地位的專用化運(yùn)算模式。

圖5 從四核心平滑升級(jí)到“三核心+16DSP”的方案，即將其中一個(gè)通用核心置換成DSP陣列。

HyperTransport協(xié)處理器系統(tǒng)

在英特爾對(duì)Many Core概念作出具體探討之時(shí)，AMD也在考慮自己的未來處理器架構(gòu)。但與英特爾不同的是，AMD尚未考慮另起爐灶的Many Core計(jì)劃，而是利用現(xiàn)有的HyperTransport連接架構(gòu)，對(duì)多路服務(wù)器系統(tǒng)進(jìn)行拓展。

Cray公司(克雷，著名的高性能計(jì)算機(jī)制造商)希望能在基于Opteron的超級(jí)計(jì)算機(jī)中使用矢量處理單元，以提升計(jì)算機(jī)的矢量運(yùn)算效能。 AMD方面并不是簡單考慮在Opteron核心中增加一個(gè)矢量邏輯了事，而是計(jì)劃以此為契機(jī)，建立一個(gè)以AMD為中心的企業(yè)生態(tài)圈—這或許過于抽象，但看完下文的分析之后大家便能夠明了其中的含義。

我們知道，現(xiàn)有的Opteron多路系統(tǒng)并非采用共享前端總線的方式連接，而是借助專用的HyperTransport總線實(shí)現(xiàn)芯片間的直連。這樣，每一顆Opteron處理器都可以直接與其他的處理器進(jìn)行數(shù)據(jù)交換或緩存同步，不必占用內(nèi)存空間，無論系統(tǒng)中有多少數(shù)量的Opteron，整套系統(tǒng)都能夠保持高效率的運(yùn)作。在該套平臺(tái)中，HyperTransport總線處于中樞地位，而它除了作為處理器連接總線外，還可以連接PCI-X控制器、 PCI Express控制器以及I/O控制芯片，也就是充當(dāng)芯片間的高速連接通路。

AMD公司考慮的一套協(xié)處理器擴(kuò)展方案也是以此為基礎(chǔ)，即為多路Opteron平臺(tái)開發(fā)各種功能的協(xié)處理器，這些協(xié)處理器都通過 HyperTransport總線與Opteron處理器直接連接。對(duì)Cray提出的需求，AMD給出的解決方案就是，將八路Opteron中的一顆 Opteron處理器置換成矢量協(xié)處理器，以此實(shí)現(xiàn)矢量計(jì)算性能的大幅度增長，而Opteron平臺(tái)本身不需要作任何形式的變動(dòng)。

在未來，這種拓展架構(gòu)也可以延伸到PC領(lǐng)域，例如在PC中掛接基于HyperTransport總線的浮點(diǎn)協(xié)處理器、物理協(xié)處理器、視頻解碼器、專門針對(duì)Java程序的硬件解釋器，甚至可以是由nVIDIA或ATI開發(fā)的圖形處理器。為達(dá)成上述目標(biāo)，AMD必須設(shè)計(jì)出一個(gè)高度穩(wěn)定的統(tǒng)一接口方便用戶進(jìn)行擴(kuò)展，而借助各種各樣的協(xié)處理器，AMD64系統(tǒng)的性能將獲得空前強(qiáng)化。

如果從邏輯層面來看，AMD HyperTransport協(xié)處理器系統(tǒng)的實(shí)質(zhì)與英特爾Many Core平臺(tái)其實(shí)完全相同，兩者的區(qū)別更多是在物理組成方式:Many Core將專用的DSP邏輯直接整合于處理器內(nèi)部，AMD的協(xié)處理器系統(tǒng)則是借助HyperTransport總線在外部掛接，這樣用戶就不必為了獲得額外的性能購買新機(jī)，直接選擇相應(yīng)的協(xié)處理器掛接即可。由于協(xié)處理器類型將會(huì)非常豐富，每個(gè)用戶都能從中找到最適合自己的產(chǎn)品，這在無形之中增強(qiáng)了AMD HyperTransport協(xié)處理器平臺(tái)之于Many Core平臺(tái)的競爭力。[!--empirenews.page--]

HyperTransport協(xié)處理器方案最富殺傷力的地方并非在于靈活性，而在于AMD所創(chuàng)建的“共生模式”。AMD計(jì)劃將 HyperTransport協(xié)處理器授權(quán)給其他的專業(yè)IC設(shè)計(jì)公司，這樣大量的第三方公司都可以為AMD64平臺(tái)開發(fā)協(xié)處理器并分別銷售，AMD自身只需要負(fù)責(zé)通用處理器的開發(fā)和HyperTransport原生態(tài)的維護(hù)?；诠餐睦?，大量的第三方IC設(shè)計(jì)公司將緊密圍繞AMD公司共同發(fā)展 HyperTransport平臺(tái):通過銷售協(xié)處理器，第三方IC公司能夠獲得豐厚的回報(bào)，AMD則通過平臺(tái)授權(quán)和AMD64處理器的銷售獲得利潤、并在第三方公司的幫助下提高市場份額。

至于終端用戶，則可以在現(xiàn)有基礎(chǔ)上通過增加或升級(jí)協(xié)處理器達(dá)成大幅度提高系統(tǒng)性能的目的—這便是AMD倡導(dǎo)的“友好生態(tài)系統(tǒng)”的實(shí)質(zhì)。與AMD 的開放策略形成鮮明對(duì)比，英特爾將變得越來越封閉，從迅馳到VIIV平臺(tái)，第三方廠商的機(jī)會(huì)越來越少，英特爾希望將全部的商業(yè)利潤都?xì)w自己所有，而不是與合作廠商共同分享機(jī)會(huì)。在這樣的背景下，越來越多IC廠商轉(zhuǎn)向?qū)MD平臺(tái)的支持，因此AMD所倡導(dǎo)的友好生態(tài)系統(tǒng)其實(shí)已經(jīng)有相當(dāng)良好的基礎(chǔ)。

圖6 2015年的處理器藍(lán)圖，Many Core設(shè)計(jì)成為標(biāo)準(zhǔn)

前瞻:架構(gòu)革命的前夜

盡管X86業(yè)界依然按部就班地進(jìn)行性能提升，軟件工業(yè)也是在以往基礎(chǔ)上匍匐前進(jìn)，但這場架構(gòu)革命距離我們并不遙遠(yuǎn)。在RISC領(lǐng)域，針對(duì)實(shí)際應(yīng)用對(duì)產(chǎn)品作定制化設(shè)計(jì)成為各個(gè)廠商的共識(shí)，而各個(gè)廠商在開發(fā)新一代架構(gòu)時(shí)都會(huì)有意識(shí)地為處理器預(yù)留擴(kuò)展定制的空間。

相信在未來，我們可以看到越來越多的專用型RISC處理器，例如游戲機(jī)/視頻任務(wù)處理器、網(wǎng)絡(luò)處理器、低耗能通用處理器、嵌入處理器等等;而在 X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會(huì)基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;到2008年，英特爾才會(huì)陸續(xù)引入CSI總線并整合內(nèi)存控制器，解決多路服務(wù)器系統(tǒng)擴(kuò)展性的問題;大約到2010年，我們有望看到第一代Many Core處理器出臺(tái)，X86處理器將轉(zhuǎn)向一個(gè)全新的多核時(shí)代。

而AMD公司在未來兩年內(nèi)更多是對(duì)現(xiàn)有的AMD64架構(gòu)進(jìn)行改良，例如引入雙通道DDR2-800支持和65納米SOI工藝，服務(wù)器領(lǐng)域 Opteron的優(yōu)勢不太容易被打破。大約在2008年，AMD將帶來新一代的K9或K10，高度整合設(shè)計(jì)將被引入，更關(guān)鍵的是，AMD將帶來 HyperTransport 3.0和4.0版總線技術(shù)規(guī)范，并有可能開始啟動(dòng)協(xié)處理器計(jì)劃。

由于HyperTransport 3.0/4.0將直接對(duì)協(xié)處理器提供支持，AMD只需要解決主處理器與協(xié)處理器的任務(wù)協(xié)作以及硬件連接標(biāo)準(zhǔn)的制定即可，接下來的協(xié)處理器開發(fā)工作便主要依靠第三方IC公司加以實(shí)現(xiàn)。如果AMD在新一輪變革中再度領(lǐng)先，那么在大量第三方企業(yè)和用戶的支持下，英特爾在微處理器市場的主導(dǎo)優(yōu)勢很可能徹底喪失，最終出現(xiàn)兩大平臺(tái)分庭抗禮的格局。

當(dāng)前微處理器技術(shù)發(fā)展的幾個(gè)方向

提高架構(gòu)執(zhí)行效率、多核心設(shè)計(jì)、靈活的擴(kuò)展彈性、深層次的功能整合是當(dāng)前微處理器領(lǐng)域的四大技術(shù)發(fā)展方向。處理器效率低下的弊端主要出現(xiàn)在 X86領(lǐng)域，X86指令集臃腫復(fù)雜，指令效率已明顯低于RISC體系，如果不在芯片設(shè)計(jì)方面加以彌補(bǔ)，X86處理器很難獲得媲美RISC產(chǎn)品的卓越性能。

衡量處理器效率通常有兩個(gè)指標(biāo):一是芯片的能源利用效率，也就是每瓦性能，在消耗同等能源條件下，最終性能高的產(chǎn)品能源效率就較高;第二個(gè)指標(biāo)便是芯片的晶體管效率，我們可以引入“每晶體管性能”來衡量，在消耗等量晶體管數(shù)量條件下，芯片效能高者效率就越高。

晶體管規(guī)模越大，制造成本越高，對(duì)芯片廠商來說，提高每晶體管性能能夠在保持成本不變的前提下獲得更卓越的性能。一般來說，每瓦性能和每晶體管性能總是被結(jié)合起來討論，不同指令體系的產(chǎn)品在此相差甚遠(yuǎn)，例如當(dāng)前頂級(jí)的RISC處理器與頂級(jí)的X86處理器作對(duì)比，我們便會(huì)發(fā)現(xiàn)X86芯片遠(yuǎn)遠(yuǎn)落后。

即便基于相同的指令體系但設(shè)計(jì)不同的產(chǎn)品，也可能存在懸殊的效率差異—一個(gè)最典型的例子就是英特爾Netburst架構(gòu)與AMD64架構(gòu)，Pentium 4芯片的功耗更高，晶體管規(guī)模也普遍更大，但性能無法同對(duì)應(yīng)的AMD64架構(gòu)產(chǎn)品抗衡。且Pentium 4芯片的能耗已超過百瓦，達(dá)到風(fēng)冷散熱的極限，無法進(jìn)一步向上提升。

為了解決這個(gè)問題，英特爾將在今年中期引入Merom架構(gòu)來代替Netburst，誠如我們之前的分析，Merom引入了RISC精簡指令的思想，對(duì)X86架構(gòu)進(jìn)行根本性的改進(jìn)得以大幅提高效率。而在RISC技術(shù)領(lǐng)域，提高效率也一直都是各制造商的目標(biāo)，雖然RISC芯片在這方面已占據(jù)先天優(yōu)勢，但各芯片廠商仍然在此方面花費(fèi)巨大的精力并獲得斐然成果。在本文關(guān)于P.A.Semi的PWRficient雙核處理器、SUN UltraSPARC T1八核處理器的分析中，我們將能看到這一點(diǎn)。

多核心設(shè)計(jì)可謂是提高每晶體管效能的最佳手段。在單核產(chǎn)品中，提高性能主要通過提高頻率和增大緩存來實(shí)現(xiàn)，前者會(huì)導(dǎo)致芯片功耗的提升，后者則會(huì)讓芯片晶體管規(guī)模激增，造成芯片成本大幅度上揚(yáng)。盡管代價(jià)高昂，這兩種措施也只能帶來小幅度性能提升。而如果引入多核技術(shù)，便可以在較低頻率、較小緩存的條件下達(dá)到大幅提高性能的目的。相比大緩存的單核產(chǎn)品，耗費(fèi)同樣數(shù)量晶體管的多核心處理器擁有更出色的效能，同樣在每瓦性能方面，多核設(shè)計(jì)也有明顯的優(yōu)勢。

正因?yàn)槿绱?，?dāng)IBM于2001年率先推出雙核心產(chǎn)品之后，其他高端RISC處理器廠商也迅速跟進(jìn)，雙核心設(shè)計(jì)由此成為高端RISC處理器的標(biāo)準(zhǔn)。而X86業(yè)界直到去年中期才開始嘗試推出雙核產(chǎn)品，預(yù)計(jì)實(shí)現(xiàn)全面普及要等到2006-2007年。

此時(shí)，RISC業(yè)界又朝向多核、多線程的方向發(fā)展，四核心、八核心設(shè)計(jì)紛紛登臺(tái)亮相，并行線程數(shù)量多達(dá)32條，并且開始從通用多核體系轉(zhuǎn)向簡化核以及專用化的DSP，實(shí)現(xiàn)性能的跨越性提升—這些新設(shè)計(jì)和新方向也都將被X86業(yè)界所借鑒。[!--empirenews.page--]

在多路服務(wù)器領(lǐng)域，芯片能否具有良好的擴(kuò)展彈性至關(guān)重要，而這主要取決于以下兩大要素:第一，處理器擁有一條專門的芯片間直連總線，這樣當(dāng)系統(tǒng)中擁有多枚處理器的時(shí)候，各個(gè)處理器可借助該總線進(jìn)行通訊，從而實(shí)現(xiàn)高效的任務(wù)協(xié)作;第二，處理器是否將內(nèi)存控制器直接整合、擁有一套獨(dú)立的內(nèi)存系統(tǒng)。這方面反面的例子就是英特爾的Xeon平臺(tái)，如果要構(gòu)建多路Xeon系統(tǒng)，那么就必須依賴于芯片組，多枚處理器共同分享一套內(nèi)存系統(tǒng)。

處理器之間如果需要進(jìn)行數(shù)據(jù)通訊，就必須經(jīng)由“前端總線-北橋-內(nèi)存”的鏈路，這個(gè)過程不僅耗費(fèi)了可觀的時(shí)鐘周期，也消耗了總線和內(nèi)存資源。更嚴(yán)重的是，這類系統(tǒng)存在內(nèi)存搶占和緩存同步兩個(gè)難題:內(nèi)存搶占是指當(dāng)多個(gè)處理器同時(shí)發(fā)起對(duì)內(nèi)存中的某段數(shù)據(jù)進(jìn)行存取指令時(shí)，各個(gè)處理器必須以搶占的方式獲得內(nèi)存存取權(quán)限—如果有一個(gè)處理器對(duì)某段數(shù)據(jù)進(jìn)行修改，該處理器就會(huì)鎖定這段數(shù)據(jù)，其他的處理器必須等待，導(dǎo)致性能提升幅度大打折扣。

系統(tǒng)中的處理器數(shù)量越多，此種內(nèi)存搶占現(xiàn)象就會(huì)越頻繁，最糟糕的時(shí)候?qū)?dǎo)致系統(tǒng)的性能不升反降。緩存同步主要出現(xiàn)在多處理器/多內(nèi)核協(xié)作處理同一任務(wù)時(shí)，各個(gè)處理器或內(nèi)核必須進(jìn)行緩存同步。由于Xeon缺乏直接溝通渠道，緩存同步操作也必須依賴“前端總線-北橋-內(nèi)存”的鏈路進(jìn)行，效率較為低下。

相比之下，AMD的Opteron平臺(tái)就沒有這兩個(gè)問題:借助HyperTransort總線，Opteron處理器可實(shí)現(xiàn)直接通訊，加之 Opteron擁有獨(dú)立的內(nèi)存控制器，不存在內(nèi)存搶占的問題，因此該平臺(tái)非常易于擴(kuò)展。Opteron在服務(wù)器領(lǐng)域?qū)eon造成強(qiáng)大的壓力，很大程度上就是得益于此。至于RISC領(lǐng)域，芯片直連總線和整合內(nèi)存控制器也早已成為處理器的標(biāo)準(zhǔn)設(shè)計(jì)，而英特爾在自己的技術(shù)藍(lán)圖上也表明將在2008年開始采用類似的設(shè)計(jì)。

對(duì)應(yīng)用于PC的X86處理器而言，處理器的擴(kuò)展彈性無關(guān)緊要，但整合內(nèi)存控制器還是非常有意義，原因在于該項(xiàng)設(shè)計(jì)能夠有效降低內(nèi)存系統(tǒng)的延遲時(shí)間。事實(shí)上，這只是整合運(yùn)動(dòng)的開始，不少處理器廠商都在考慮讓處理器整合越來越多的功能，例如SUN和AMD都在考慮在下一代架構(gòu)中直接整合PCI Express控制器、I/O控制器甚至是圖形功能，借此提升系統(tǒng)的I/O性能以及降低平臺(tái)成本;P.A.Semi的PWRficient處理器則整合了 10GbE和GbE網(wǎng)絡(luò)控制器以及PCI Express控制器，目的是提高相應(yīng)服務(wù)器的網(wǎng)絡(luò)性能和I/O傳輸效能。盡管其他的處理器廠商似乎不為所動(dòng)，但高度的整合無疑是未來處理器的發(fā)展方向之一。

多核處理器同軟件配合的討論

在多核心處理器如火如荼發(fā)展的時(shí)候，軟件業(yè)卻遠(yuǎn)遠(yuǎn)沒有來得及為此作準(zhǔn)備。最早發(fā)現(xiàn)問題的是PS3、Xbox 360等平臺(tái)的游戲開發(fā)商，由于兩套系統(tǒng)完全不同于前一代產(chǎn)品，游戲開發(fā)者對(duì)此怨聲載道，程序員普遍認(rèn)為對(duì)多核心處理器編程近乎是一種災(zāi)難，因?yàn)槌绦騿T必須深入了解相應(yīng)的硬件平臺(tái)，然后據(jù)此編寫代碼，而讓代碼在兩個(gè)核心之間平衡更是一大難題。

相對(duì)來說，PS3的Cell平臺(tái)難度更大，程序員首次接觸到主-從方式的多核平臺(tái)，對(duì)如何發(fā)揮出協(xié)處理器的性能優(yōu)勢缺乏經(jīng)驗(yàn)，由于編碼的不到位，讓Cell平臺(tái)無法表現(xiàn)出與實(shí)際相稱的高性能。同樣的事情現(xiàn)在也出現(xiàn)在X86領(lǐng)域，雙核平臺(tái)的出現(xiàn)讓軟件開發(fā)商考慮對(duì)雙核優(yōu)化的重要性—但比較幸運(yùn)的是，諸如辦公軟件、網(wǎng)頁瀏覽器、內(nèi)容創(chuàng)建工具等常規(guī)的商務(wù)軟件對(duì)CPU性能要求不高，對(duì)雙核優(yōu)化也不見得會(huì)帶來什么實(shí)質(zhì)性的益處，因此主要的X86軟件都不需要作出變動(dòng)，真正需要考慮雙核平臺(tái)的仍然是X86平臺(tái)下的游戲。

對(duì)此游戲開發(fā)商也是相當(dāng)頭疼，因?yàn)閄86多核與PS3、Xbox 360游戲機(jī)的多核平臺(tái)不同，未來的Many Core或HyperTransport協(xié)處理器平臺(tái)也許又要作出改動(dòng)。為了充分發(fā)揮硬件性能，設(shè)備廠商希望開發(fā)商深入了解對(duì)應(yīng)多核處理器的細(xì)節(jié)—問題是現(xiàn)存多種多核架構(gòu)，一一研究代價(jià)巨大。開發(fā)者都希望能夠利用一個(gè)硬件無關(guān)的自動(dòng)化通用開發(fā)平臺(tái)進(jìn)行設(shè)計(jì)開發(fā)，這樣編碼工作將變得相當(dāng)容易，同時(shí)也能夠保證代碼擁有出色的適應(yīng)性，遺憾的是，至少在目前這還是軟件工業(yè)一廂情愿的想法。

當(dāng)然，我們沒必要因此對(duì)多核平臺(tái)喪失信心，對(duì)X86 PC來說，使用多核心處理器能夠極大提升系統(tǒng)的多任務(wù)效能，你可以在相同的時(shí)間里執(zhí)行多項(xiàng)任務(wù)，借此提高辦公效率—在軟件業(yè)來不及跟上的時(shí)候，辦公用戶或許能夠更多體驗(yàn)到雙核平臺(tái)的優(yōu)勢所在。