當(dāng)前位置:首頁(yè) > 廠商動(dòng)態(tài) > Intel
[導(dǎo)讀]Aurora超算是英特爾最近參與的備受矚目的項(xiàng)目之一,它對(duì)英特爾整個(gè)系統(tǒng)產(chǎn)品組合都挺有挑戰(zhàn)性。事實(shí)上,Aurora超算不僅是世界上最大的GPU集群,同時(shí),預(yù)計(jì)將成為第一臺(tái)峰值性能達(dá)到每秒2百億億次(2×10^18)浮點(diǎn)運(yùn)算能力的超算。

作為阿貢國(guó)家實(shí)驗(yàn)室Aurora超算的首席架構(gòu)師和主要研究員,Olivier Franza在這臺(tái)極具雄心的科學(xué)儀器落地的過(guò)程中發(fā)揮了主導(dǎo)作用。

Aurora超算是英特爾最近參與的備受矚目的項(xiàng)目之一,它對(duì)英特爾整個(gè)系統(tǒng)產(chǎn)品組合都挺有挑戰(zhàn)性。事實(shí)上,Aurora超算不僅是世界上最大的GPU集群,同時(shí),預(yù)計(jì)將成為第一臺(tái)峰值性能達(dá)到每秒2百億億次(2×10^18)浮點(diǎn)運(yùn)算能力的超算。

作為一位在英特爾工作了22年的老兵,在面對(duì)Aurora超算時(shí),Olivier Franza還是感受到了壓力。

2016年,Olivier Franza作為系統(tǒng)硬件架構(gòu)師加入了Aurora項(xiàng)目,2021年,他成了首席架構(gòu)師,目睹了Aurora項(xiàng)目向基于GPU架構(gòu)的重大轉(zhuǎn)變。

“首席架構(gòu)師要做的就是根據(jù)客戶的高標(biāo)準(zhǔn)要求,來(lái)調(diào)整超算的整體系統(tǒng)架構(gòu),”Franza解釋說(shuō)。“首席架構(gòu)師也會(huì)關(guān)注一些基本的參數(shù),比如總體性能指標(biāo),功耗情況,還有一些RAS(可靠性、可用性、可維護(hù)性)特性,這些對(duì)于構(gòu)建有擴(kuò)展性的系統(tǒng)都至關(guān)重要?!?

當(dāng)然,首席架構(gòu)師要關(guān)注的是整個(gè)系統(tǒng)方方面面,從一個(gè)個(gè)節(jié)點(diǎn)到一個(gè)個(gè)機(jī)架再到整個(gè)系統(tǒng),還要包括各種網(wǎng)絡(luò)和存儲(chǔ)組件,都需要考慮到。

一次技術(shù)路線轉(zhuǎn)變?yōu)樗茉煳磥?lái)產(chǎn)品創(chuàng)造了機(jī)會(huì)

Aurora超算是早期規(guī)劃中計(jì)劃采用一系列的英特爾產(chǎn)品技術(shù)。隨著英特爾產(chǎn)品路線的調(diào)整,Aurora的規(guī)劃也做出改變。

當(dāng)英特爾宣布打造數(shù)據(jù)中心GPU產(chǎn)品線后,F(xiàn)ranza參與到了英特爾數(shù)據(jù)中心GPU Max系列產(chǎn)品的設(shè)計(jì)討論工作當(dāng)中。

所以說(shuō),Aurora超算不是一步到位成現(xiàn)在這樣的。Aurora超算的構(gòu)建過(guò)程,影響著英特爾戰(zhàn)略和產(chǎn)品線規(guī)劃,也使得Aurora超算能在很高的層面解決規(guī)模和性能問(wèn)題。

Franza表示,英特爾通過(guò)從組件到系統(tǒng)做出很多調(diào)整來(lái)滿足Aurora超算的需求。

比如,英特爾至強(qiáng)CPU Max系列處理器的架構(gòu)和概念,就衍生自英特爾至強(qiáng)Phi的一些特性,這是第一個(gè)在封裝里集成了高帶寬和高容量創(chuàng)新內(nèi)存架構(gòu)的產(chǎn)品。

此外,為了追求更高的性能,Aurora超算的各種子系統(tǒng)都取得了一些進(jìn)步,從刀片服務(wù)器的散熱,到高密度集成的方式再到存儲(chǔ)部分,都有許多創(chuàng)新。

值得一提的是,在這一過(guò)程中,英特爾還構(gòu)建了一個(gè)全新的存儲(chǔ)系統(tǒng)——DAOS(分布式異步對(duì)象存儲(chǔ))。

Franza表示,這是一個(gè)開源項(xiàng)目,可以在傳統(tǒng)硬件上實(shí)現(xiàn)高速存儲(chǔ),而Aurora超算是首批使用DAOS的用戶之一,同時(shí)也是目前DAOS部署規(guī)模最大的用戶。

從設(shè)計(jì)組件到把數(shù)千個(gè)系統(tǒng)連在一起

Aurora超算項(xiàng)目加強(qiáng)了英特爾系統(tǒng)級(jí)思考能力,也推動(dòng)了英特爾內(nèi)部各業(yè)務(wù)部門之間的協(xié)作,與外部阿貢科學(xué)家和HPE(HPE是該項(xiàng)目的另外一個(gè)主要參與者)工程師之間的協(xié)作,有很多跨職能部門和跨組織的協(xié)作工作。

“讓一整個(gè)團(tuán)隊(duì)統(tǒng)一行動(dòng),交付像Aurora這樣的超級(jí)計(jì)算機(jī),對(duì)我們?cè)S多人來(lái)說(shuō),是一生難得一次的經(jīng)歷?!盕ranza說(shuō)。

盡管工程師在六月份就安裝了最后一臺(tái)刀片服務(wù)器,但Aurora超算后續(xù)的大規(guī)模測(cè)試、穩(wěn)定性驗(yàn)證還需要Franza 夜以繼日的工作。

Franza為一個(gè)大的團(tuán)隊(duì)提供指導(dǎo),該團(tuán)隊(duì)負(fù)責(zé)Aurora超算的啟動(dòng)、驗(yàn)證、穩(wěn)定、優(yōu)化工作,盡可能發(fā)揮系統(tǒng)在負(fù)載下的性能表現(xiàn)。其中最值得注意的是High Performance Linpack(HPL)基準(zhǔn)測(cè)試,這是Top500榜單的排名依據(jù),榜單上都是全球最強(qiáng)的超算系統(tǒng)。

每天早上,F(xiàn)ranza都會(huì)仔細(xì)檢查每個(gè)節(jié)點(diǎn)在夜間的運(yùn)行情況,并為第二天及以后的工作制定計(jì)劃。每天下午,F(xiàn)ranza都會(huì)開會(huì)總結(jié)進(jìn)展和遇到的難題。這樣的工作每天都有,而機(jī)器也一直在運(yùn)轉(zhuǎn)當(dāng)中。

“我們會(huì)系統(tǒng)地進(jìn)行驗(yàn)證,”Franza解釋說(shuō)?!跋葟膯蝹€(gè)刀片服務(wù)器開始,然后轉(zhuǎn)向機(jī)架規(guī)模,再到多個(gè)機(jī)架規(guī)模,以此進(jìn)行大規(guī)模驗(yàn)證?!?

Aurora超算由10624臺(tái)刀片服務(wù)器組成,擁有63744塊英特爾Max系列GPU,是世界上規(guī)模最大的GPU集群。在166個(gè)機(jī)架當(dāng)中,使用了一共21248塊英特爾至強(qiáng)Max CPU。

Franza介紹稱,Aurora超算中心的大小相當(dāng)于4個(gè)網(wǎng)球場(chǎng)那么大,聽起來(lái)規(guī)模就很大,但只有親眼看到它,才會(huì)真正意識(shí)到它有多大。

Franza的首要工作就是確保系統(tǒng)穩(wěn)定性,功能完善,還要能正常運(yùn)行。這是一項(xiàng)非常艱巨的任務(wù),而Franza已經(jīng)看到了勝利的曙光。

走在數(shù)據(jù)中心的通道里,看著燈光閃爍著,看著機(jī)器在正常運(yùn)轉(zhuǎn),這令Franza感到神清氣爽,并且很有滿足感和成就感。

“一生一次難得一次”的努力,打造解決科學(xué)難題的超級(jí)計(jì)算機(jī)

打造一座有影響力的科研超級(jí)計(jì)算機(jī)固然會(huì)面臨很多難題和阻礙,但考慮到Aurora超算在癌癥研究方面的巨大潛力,有機(jī)會(huì)讓所有人受益,F(xiàn)ranza內(nèi)心的使命感支撐他走了過(guò)來(lái)。

Aurora超算不僅會(huì)用于解決世界上一些最復(fù)雜的科學(xué)和工程問(wèn)題,它還是運(yùn)行生成式AI,并將生成式AI用于研究的理想平臺(tái)。

據(jù)了解,Aurora超算將支持迄今為止,規(guī)模最大的大型語(yǔ)言模型,即1萬(wàn)億參數(shù)的Aurora GenAI項(xiàng)目,從而提高科學(xué)家的工作效率、簡(jiǎn)化科學(xué)家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的還有團(tuán)隊(duì)協(xié)作和友情。

Aurora超算是一項(xiàng)工程量浩大的項(xiàng)目,需要許多人付出長(zhǎng)期努力,需要大量的毅力。

從Franza的介紹中了解到,其核心團(tuán)隊(duì)一直保持著馬拉松式的心態(tài),直到最后一刻都不能放松,團(tuán)隊(duì)需要的是那種能夠長(zhǎng)時(shí)間專注于極具挑戰(zhàn)性事物的人,而這些人最終所取得的成就是大部分人都很難做到的。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉