天河二號(hào)超級(jí)計(jì)算機(jī),穩(wěn)定性傲視全球
在例行確認(rèn)“天河二號(hào)”各項(xiàng)參數(shù)準(zhǔn)確無(wú)誤后,國(guó)家超級(jí)計(jì)算廣州中心應(yīng)用部工程師陳璟錕開(kāi)始處理來(lái)自世界各地客戶的技術(shù)方案。陳璟錕看起來(lái)并不善于交流,但一聊起“天河二號(hào)”,就似遇見(jiàn)多年的好友,滔滔不絕。
去年底,新一期全球超級(jí)計(jì)算機(jī)500強(qiáng)榜單在美國(guó)公布,中國(guó)“天河二號(hào)”超級(jí)計(jì)算機(jī)連續(xù)第六度稱(chēng)雄。
“天河二號(hào)”六度奪冠的背后是越來(lái)越多像陳璟錕一樣的年輕人,日復(fù)一日地為超級(jí)大腦保駕護(hù)航。目前,超算中心已構(gòu)建起材料科學(xué)與工程計(jì)算、生物計(jì)算與個(gè)性化醫(yī)療、智慧城市大數(shù)據(jù)和云計(jì)算等6大應(yīng)用服務(wù)平臺(tái)。共有48名工作人員,其中技術(shù)人員有30名。
走進(jìn)廣州超算中心,一排排狹長(zhǎng)的黑色機(jī)柜整齊地?cái)[放在接近三個(gè)籃球場(chǎng)那么大的實(shí)驗(yàn)室中。陳璟錕告訴記者,“天河二號(hào)”由170個(gè)機(jī)柜組成,一共裝有3.2萬(wàn)顆主CPU和4.8萬(wàn)個(gè)協(xié)處理器。雖然每排機(jī)柜彼此分開(kāi),但它們工作時(shí)是彼此相聯(lián)的,其實(shí)是一臺(tái)計(jì)算機(jī)。
計(jì)算速度快,存儲(chǔ)量大,體積也非常大,這是記者看到超級(jí)計(jì)算機(jī)時(shí)最直觀的感受。要保證“國(guó)之重器”的正常運(yùn)行,首先需要保證水電不斷。
“基本上我每天來(lái)到中心的第一件事就是檢查系統(tǒng)是否正常。比如,能否正常登陸、資源有沒(méi)有分配好等,保證整個(gè)機(jī)器的運(yùn)行。”這是陳璟錕每天必做的事情。
點(diǎn)亮機(jī)柜上的觸控屏,看了看各項(xiàng)參數(shù),“今天的水溫稍微有點(diǎn)高”。陳璟錕告訴記者,機(jī)柜負(fù)荷運(yùn)行時(shí),會(huì)散發(fā)出大量熱量,廣州超算中心采用的是“水冷”系統(tǒng),這也是為何一進(jìn)超算中心大門(mén)便感到?jīng)隹斓脑颉?ldquo;8℃的水從水廠泵過(guò)來(lái),經(jīng)過(guò)超算中心內(nèi)循環(huán)交換,出水21℃。”
陳璟錕還告訴記者,從目前“天河二號(hào)”來(lái)看,計(jì)算節(jié)點(diǎn)的能耗約為18兆瓦,再加上散熱系統(tǒng)的整體能耗在20兆瓦以上。如果正常運(yùn)行,年耗電量約為2億度。每個(gè)星期電費(fèi)大約在80萬(wàn)元左右。
據(jù)了解,超算中心不僅有固定的運(yùn)維人員保證“天河二號(hào)”平穩(wěn)運(yùn)行,同時(shí),無(wú)論供電、供水都是“特別配置”。為了保障機(jī)器不因斷電而數(shù)據(jù)丟失,南方電網(wǎng)為超算中心建設(shè)了兩路獨(dú)立并互為備份的電源。在供水方面,廣州市政府在距離超算中心3公里以外建了一個(gè)冷水廠,專(zhuān)門(mén)供中心使用。
由于超級(jí)計(jì)算機(jī)的基本組成組件與個(gè)人電腦的概念無(wú)太大差異,所以很多人會(huì)誤以為超級(jí)計(jì)算機(jī)就是簡(jiǎn)單的cpu疊加。但這是一個(gè)認(rèn)識(shí)誤區(qū)。
袁學(xué)鋒打了個(gè)比方:你用1000臺(tái)PC,用普通的網(wǎng)線把它們連接在一起,你可能花了1萬(wàn)度電,算了10天,但是你用真正的超級(jí)計(jì)算機(jī),可能只用5000度電,花了兩天就算出來(lái)了。
“超級(jí)計(jì)算機(jī)就好比算盤(pán),如果沒(méi)有口訣,它就毫無(wú)用處。”國(guó)家超級(jí)計(jì)算機(jī)廣州中心應(yīng)用部工程師鐘康游解釋道。對(duì)于超級(jí)計(jì)算機(jī)而言,要讓它真正運(yùn)行起來(lái),也需要各種口訣,但這些口訣更龐大、更復(fù)雜。目前科學(xué)界把這個(gè)算法稱(chēng)為超級(jí)算法理論。
超算中心的工程師們,每天花大量的時(shí)間,在優(yōu)化“口訣”,找出更高效率的計(jì)算方法,最大限度地充分利用超級(jí)計(jì)算機(jī)的計(jì)算能力。
“有些客戶想要運(yùn)行一些很龐大的程序,操作比較復(fù)雜,但客戶往往還停留在‘雙擊’啟動(dòng)的操作習(xí)慣,就得由我們來(lái)優(yōu)化‘口訣’,讓操作更‘傻瓜’。”鐘康游形象地說(shuō),簡(jiǎn)單來(lái)說(shuō)優(yōu)化“口訣”就是“木桶效應(yīng)”原理。一個(gè)木桶能裝多少水,取決于最短的一塊板。而一個(gè)程序運(yùn)行的速度,取決于跑得最慢的那個(gè)進(jìn)程。“我們要做的就是通過(guò)一些小技巧,盡可能地使所有進(jìn)程加快。優(yōu)化后,原來(lái)需要11小時(shí)才能出的結(jié)果,現(xiàn)在只需3小時(shí)。”
袁學(xué)鋒表示,目前,天河二號(hào)可以連續(xù)運(yùn)行10小時(shí)無(wú)故障,穩(wěn)定性全球第一。計(jì)算機(jī)運(yùn)行過(guò)程中,最核心的是高速互聯(lián)。可以想象成是幾萬(wàn)臺(tái)的PC聯(lián)在一起做并行計(jì)算。而做并行計(jì)算的核心就是通訊,使大規(guī)模的系統(tǒng)能同步。因此我們要構(gòu)架足夠短的距離,使通訊速度足夠快、穩(wěn)定和可靠。