英特爾發(fā)布重大技術(shù)架構(gòu)的改變和創(chuàng)新，面向CPU、GPU和IPU

時(shí)間：2021-08-23 17:36:38

關(guān)鍵字：英特爾 CPU GPU IPU

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]英特爾驅(qū)動(dòng)數(shù)據(jù)中心、邊緣和客戶端邁入下一個(gè)計(jì)算時(shí)代，直面未來工作負(fù)載和計(jì)算挑戰(zhàn)

2021年8月19日——在2021年英特爾架構(gòu)日上，英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理Raja Koduri攜手多位英特爾架構(gòu)師，全面介紹了兩種全新x86內(nèi)核架構(gòu)的詳情;英特爾首個(gè)性能混合架構(gòu)，代號(hào)“Alder Lake”，以及智能的英特爾?硬件線程調(diào)度器;專為數(shù)據(jù)中心設(shè)計(jì)的下一代英特爾?至強(qiáng)?可擴(kuò)展處理器Sapphire Rapids;基礎(chǔ)設(shè)施處理器(IPU);即將推出的顯卡架構(gòu)，包括Xe HPG微架構(gòu)和Xe HPC微架構(gòu)，以及Alchemist SoC, Ponte Vecchio SoC。

這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動(dòng)力，并為英特爾的下一個(gè)創(chuàng)新時(shí)代奠定基礎(chǔ)，以滿足世界對(duì)高計(jì)算能力日益增長(zhǎng)的需求。

Raja Koduri強(qiáng)調(diào)了架構(gòu)提升對(duì)于滿足這一需求的重要性：“架構(gòu)是硬件和軟件的‘煉金術(shù)’。它將特定計(jì)算引擎所需的先進(jìn)的晶體管結(jié)合在一起，通過領(lǐng)先的封裝技術(shù)將它們連接，集成高帶寬和低功耗緩存，并在封裝中為混合計(jì)算集群配備高容量、高帶寬內(nèi)存和低時(shí)延、可擴(kuò)展互連，同時(shí)確保所有軟件無縫加速。隨著桌面到數(shù)據(jù)中心的工作負(fù)載變得前所未有的密集、復(fù)雜、且多樣，今年公布的這些新突破也展示了架構(gòu)將如何滿足對(duì)于更高計(jì)算性能的迫切需求。”

x86內(nèi)核

能效核

全新的英特爾能效核微架構(gòu)，曾用代號(hào)“Gracemont”，旨在面對(duì)當(dāng)今多任務(wù)場(chǎng)景，提高吞吐量效率并提供可擴(kuò)展多線程性能。此高能效x86微架構(gòu)在有限的硅片空間實(shí)現(xiàn)多核任務(wù)負(fù)載，并具備寬泛的頻率范圍。該架構(gòu)致力通過低電壓能效核降低整體功率消耗，為更高頻率運(yùn)行提供功率熱空間。這也讓能效核提升性能，以滿足更多動(dòng)態(tài)任務(wù)負(fù)載。

能效核可以利用各種技術(shù)進(jìn)步，在不耗費(fèi)處理器功率的情況下對(duì)工作負(fù)載進(jìn)行優(yōu)先級(jí)排序，并通過每周期指令數(shù)(IPC)改進(jìn)功能直接提高性能，這些功能包括：

· 擁有5000個(gè)條目的分支目標(biāo)緩存區(qū)，實(shí)現(xiàn)更準(zhǔn)確的分支預(yù)測(cè)

· 64KB指令緩存，在不耗費(fèi)內(nèi)存子系統(tǒng)功率的情況下保存可用指令

· 英特爾的首款按需指令長(zhǎng)度解碼器，可生成預(yù)解碼信息

· 英特爾的簇亂序執(zhí)行解碼器，可在保持能效的同時(shí)，每周期解碼多達(dá)6條指令

· 后端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度引退、256個(gè)亂序窗口入口和17個(gè)執(zhí)行端口

· 支持英特爾?控制流強(qiáng)制技術(shù)和英特爾?虛擬化技術(shù)重定向保護(hù)等功能

· 實(shí)現(xiàn)了AVX指令集以及支持整數(shù)人工智能操作的新擴(kuò)展

相比英特爾最多產(chǎn)的CPU內(nèi)核Skylake，在單線程性能下，能效核能夠在相同功耗下實(shí)現(xiàn)40%的性能提升，或在功耗不到40%的情況下提供同等性能1。與運(yùn)行四個(gè)線程的兩個(gè)Skylake內(nèi)核相比，四個(gè)能效核所提供的吞吐量性能，能夠在功耗更低的情況下同時(shí)帶來80%的性能提升，而在提供相同吞吐量性能時(shí)，功耗減少80%。1

性能核

英特爾全新性能核微架構(gòu)，曾用代號(hào) “Golden Cove”，旨在提高速度，突破低時(shí)延和單線程應(yīng)用程序性能的限制。工作負(fù)載的代碼體積正在不斷增長(zhǎng)，需要更強(qiáng)的執(zhí)行能力。數(shù)據(jù)集也隨著數(shù)據(jù)帶寬的需求提升而大幅增加。英特爾全新性能核微架構(gòu)帶來了顯著增速同時(shí)更好地支持代碼體積較大的應(yīng)用程序。

性能核擁有更寬、更深、更智能的架構(gòu)：

· 更寬：解碼器由4個(gè)增至6個(gè)，6μop 緩存增至8μop，分配由5路增至6路，執(zhí)行端口由10個(gè)增至12個(gè)

· 更深：更大的物理寄存器文件(physical register files)，擁有512條目的重排序緩沖區(qū)

· 更智能：提高了分支預(yù)測(cè)準(zhǔn)確度，降低了有效的一級(jí)時(shí)延，優(yōu)化了二級(jí)的全寫入預(yù)測(cè)帶寬

性能核是英特爾有史以來構(gòu)建的性能最高的CPU內(nèi)核，并通過以下功能突破了低時(shí)延和單線程應(yīng)用程序性能的極限：

· 相比目前的第11代英特爾? 酷睿? 處理器架構(gòu)(Cypress Cove)，在通用性能的ISO頻率下，針對(duì)大范圍的工作負(fù)載實(shí)現(xiàn)了平均約19%的改進(jìn)1

· 呈現(xiàn)出更高的并行性和執(zhí)行并行性的增加

· 搭載英特爾?高級(jí)矩形擴(kuò)展(AMX)，內(nèi)置下一代AI加速提升技術(shù)，用于學(xué)習(xí)推理和訓(xùn)練。AMX包括專用硬件和新指令集架構(gòu)，以明顯提高矩陣乘法運(yùn)算

· 減少時(shí)延，對(duì)大型數(shù)據(jù)和代碼體積較大的應(yīng)用程序提供更好的支持

客戶端

Alder Lake客戶端SoC

代號(hào)為“Alder Lake”的英特爾下一代客戶端架構(gòu)是英特爾的首款性能混合架構(gòu)，它首次集成了兩種內(nèi)核類型：性能核和能效核，以帶來跨越所有工作負(fù)載類型的顯著性能提升。Alder Lake基于 Intel 7制程工藝打造而成，支持最新內(nèi)存和最快I/O。

Alder Lake將提供驚人的性能，支持從超便攜式筆記本，到發(fā)燒級(jí)，到商用臺(tái)式機(jī)的所有客戶端設(shè)備，它采用了單一、高度可擴(kuò)展的SoC架構(gòu)，提供三類產(chǎn)品設(shè)計(jì)形態(tài)：

· 高性能、雙芯片、插座式的臺(tái)式機(jī)處理器，具有領(lǐng)先性能和能效。支持高規(guī)格的內(nèi)存和I/O

· 高性能筆記本處理器，采用BGA 封裝，并加入圖像單元，更大的 Xe 顯卡和Thunderbolt 4 連接

· 輕薄、低功耗的筆記本處理器，采用高密度的封裝，配置優(yōu)化的I/O和電能傳輸

構(gòu)建如此高度可擴(kuò)展架構(gòu)的挑戰(zhàn)，我們需要在不影響功率的情況下滿足計(jì)算和 I/O 代理對(duì)帶寬超乎尋常的需求。為了解決這一挑戰(zhàn)，我們?cè)O(shè)計(jì)了三種獨(dú)立的內(nèi)部總線，每一種都采用基于需求的實(shí)時(shí)啟發(fā)式后處理方式。

· 計(jì)算內(nèi)部總線可支持高達(dá)1000GBps——即每個(gè)內(nèi)核或每集群100GBps，通過最后一級(jí)緩存將內(nèi)核和顯卡連接到內(nèi)存

o 具有高動(dòng)態(tài)頻率范圍，并且能夠動(dòng)態(tài)選擇數(shù)據(jù)路徑，根據(jù)實(shí)際總線結(jié)構(gòu)負(fù)載而進(jìn)行時(shí)延和帶寬優(yōu)化

o 根據(jù)利用率動(dòng)態(tài)調(diào)整最后一級(jí)緩存策略——也就是“包含”或“不包含”

· I/O內(nèi)部總線支持可高達(dá)64 GBps，連接不同類型的I/O和內(nèi)部設(shè)備，能在不干擾設(shè)備正常運(yùn)行的情況下無縫改變速度，選擇內(nèi)部總線速度來匹配所需的數(shù)據(jù)傳輸量

· 內(nèi)存結(jié)構(gòu)可提供高達(dá)204 GBps的數(shù)據(jù)，并動(dòng)態(tài)擴(kuò)展其總線寬度和速度，以支持高帶寬、低時(shí)延或低功耗的多個(gè)操作點(diǎn)

英特爾硬件線程調(diào)度器

為使性能核和能效核與操作系統(tǒng)無縫協(xié)作，英特爾開發(fā)了一種改進(jìn)的調(diào)度技術(shù)，稱之為“英特爾硬件線程調(diào)度器”。硬件線程調(diào)度器直接內(nèi)置于硬件中，可提供對(duì)內(nèi)核狀態(tài)和線程指令混合比的低級(jí)遙測(cè)，讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r(shí)間將合適的線程放置在合適的內(nèi)核上。硬件線程調(diào)度器具有動(dòng)態(tài)性和自適應(yīng)性——它會(huì)根據(jù)實(shí)時(shí)的計(jì)算需求調(diào)整調(diào)度決策——而非一種簡(jiǎn)單的、基于規(guī)則的靜態(tài)方法。

傳統(tǒng)意義上，操作系統(tǒng)會(huì)根據(jù)有限的可用數(shù)據(jù)做出決策，如前臺(tái)和后臺(tái)任務(wù)。硬件線程調(diào)度器可通過以下方式增加新維度：

· 使用硬件遙測(cè)工具將需要更高性能的線程引導(dǎo)到當(dāng)時(shí)適合的性能核上

· 更精細(xì)地監(jiān)控指令組合、每?jī)?nèi)核當(dāng)前狀態(tài)以及相關(guān)的微架構(gòu)遙測(cè)，從而幫助操作系統(tǒng)做出更智能的調(diào)度決策

· 通過與微軟合作，優(yōu)化英特爾硬件線程調(diào)度器在Windows11上的極佳性能

· 擴(kuò)展PowerThrottling API，使得開發(fā)人員能夠?yàn)槠渚€程明確指定服務(wù)質(zhì)量屬性

· 應(yīng)用全新EcoQoS分類，該分類可讓調(diào)度程序獲悉線程是否更傾向于能效(此類線程會(huì)被調(diào)度到能效核)

Xe HPG微架構(gòu)和Alchemist SoC

Xe HPG是一款全新的獨(dú)立顯卡微架構(gòu)，專為游戲和創(chuàng)作工作負(fù)載提供發(fā)燒級(jí)的高性能。Xe HPG微架構(gòu)為Alchemist系列SoC提供動(dòng)力，首批相關(guān)產(chǎn)品將于2022年第一季度上市，并采用新的品牌名——英特爾銳炫?(Intel?Arc?)。 Xe HPG微架構(gòu)采用全新的Xe內(nèi)核，是一款聚焦計(jì)算、可編程且可擴(kuò)展的元件。

客戶端顯卡路線圖包括 Alchemist(此前稱之為DG2)、Battlemage、Celestial和Druid SoC。在演講中，英特爾展示了微架構(gòu)細(xì)節(jié)，并分享了在試產(chǎn)階段的Alchemist SoC上運(yùn)行的演示視頻，包括真實(shí)游戲展示，虛幻引擎5測(cè)試良好，全新的基于神經(jīng)網(wǎng)絡(luò)的超取樣技術(shù)XeSS等。

基于Xe HPG微架構(gòu)的Alchemist SoC能夠提供出色的可擴(kuò)展性和計(jì)算效率，并擁有以下關(guān)鍵架構(gòu)特征：

· 多達(dá)8個(gè)具有固定功能的渲染切片，專為DirectX 12 Ultimate設(shè)計(jì)

· 全新Xe內(nèi)核，擁有16個(gè)矢量引擎和16個(gè)矩陣引擎(被稱為XMX，即Xe Matrix eXtension)、高速緩存和共享內(nèi)部顯存

· 支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元

· 通過架構(gòu)、邏輯設(shè)計(jì)、電路設(shè)計(jì)、制程工藝技術(shù)和軟件優(yōu)化，相比Xe LP微架構(gòu)實(shí)現(xiàn)1.5倍的頻率提升和1.5倍的每瓦性能提升1

· 使用臺(tái)積電的N6制程節(jié)點(diǎn)上進(jìn)行制造

英特爾顯卡設(shè)計(jì)的核心是軟件優(yōu)先：

· 我們正與開發(fā)人員密切合作進(jìn)行Xe微架構(gòu)的設(shè)計(jì)，力求與行業(yè)標(biāo)準(zhǔn)保持一致

· 通過在一個(gè)統(tǒng)一的代碼庫中涵蓋集成和獨(dú)立顯卡產(chǎn)品的驅(qū)動(dòng)設(shè)計(jì)，英特爾的第一款高性能游戲顯卡將性能和質(zhì)量放在首位

· 英特爾已完成了內(nèi)核顯卡驅(qū)動(dòng)程序組件的重新架構(gòu)，特別是內(nèi)存管理器和編譯器，從而使計(jì)算密集型游戲的吞吐量提高了15% (至多80%)，游戲加載時(shí)間縮短了25%

XeSS

XeSS 利用Alchemist的內(nèi)置XMX AI加速，帶來了一種可實(shí)現(xiàn)高性能和高保真視覺的全新升頻技術(shù)。其使用深度學(xué)習(xí)來合成非常接近原生高分辨率渲染質(zhì)量的圖像。憑借XeSS ，那些只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運(yùn)行。

· XeSS的工作原理是通過從相鄰像素，以及對(duì)前一幀進(jìn)行運(yùn)動(dòng)補(bǔ)償，來重建子像素細(xì)節(jié)

· 重構(gòu)由經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)執(zhí)行，可提供高性能和高畫質(zhì)，同時(shí)性能提升高達(dá)兩倍1

· XeSS憑借DP4a指令，在包括集成顯卡在內(nèi)的各種硬件上提供基于AI的超級(jí)采樣

· 多家早期的游戲開發(fā)商已開始使用XeSS，本月將向獨(dú)立軟件供應(yīng)商(ISV)提供XMX初始版本的SDK，DP4a版本將于今年晚些時(shí)候推出

數(shù)據(jù)中心

下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)為“Sapphire Rapids”)

Sapphire Rapids代表了業(yè)界在數(shù)據(jù)中心平臺(tái)上的一大進(jìn)步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計(jì)算性能，并對(duì)工作負(fù)載進(jìn)行優(yōu)化，以在云、微服務(wù)和AI等彈性計(jì)算模型上提供高性能。

Sapphire Rapids的核心是一個(gè)分區(qū)塊、模塊化的SoC架構(gòu)，采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù)，在保持單晶片CPU接口優(yōu)勢(shì)的同時(shí)，具有顯著的可擴(kuò)展性。Sapphire Rapids提供了一個(gè)單一、平衡的統(tǒng)一內(nèi)存訪問架構(gòu)，每個(gè)線程均可完全訪問緩存、內(nèi)存和I/O等所有單元上的全部資源，由此實(shí)現(xiàn)整個(gè)SoC具有一致的低時(shí)延和高橫向帶寬。

Sapphire Rapids基于Intel 7制程工藝技術(shù)，采用英特爾全新的性能核微架構(gòu)，該架構(gòu)旨在提高速度，突破低時(shí)延和單線程應(yīng)用性能的極限。

Sapphire Rapids提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器，包括新的指令集架構(gòu)和集成IP，以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括：

· 英特爾?加速器接口架構(gòu)指令集(AIA)——支持對(duì)加速器和設(shè)備的有效調(diào)度、同步和信號(hào)傳遞

· 英特爾?高級(jí)矩陣擴(kuò)展(AMX)——Sapphire Rapids中引入的新加速引擎，可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個(gè)周期內(nèi)進(jìn)行2000次 INT8運(yùn)算和1000次 BFP16運(yùn)算，實(shí)現(xiàn)計(jì)算能力的大幅提升。使用早期的Sapphire Rapids 芯片，與使用英特爾 AVX-512 VNNI 指令的相同微基準(zhǔn)測(cè)試版本相比，使用新的英特爾AMX 指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測(cè)試的運(yùn)行速度提高了 7 倍以上，為 AI 工作負(fù)載中的訓(xùn)練和推理上提供了顯著的性能提升

· 英特爾?數(shù)據(jù)流加速器(DSA)——旨在卸載最常見的數(shù)據(jù)移動(dòng)任務(wù)，這些任務(wù)會(huì)導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾DSA改進(jìn)了對(duì)這些開銷任務(wù)的處理，以提供更高的整體工作負(fù)載性能，并可以在CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備之間移動(dòng)數(shù)據(jù)

這些架構(gòu)上的改進(jìn)使Sapphire Rapids能夠?yàn)樵?、?shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負(fù)載和部署模式提供開箱即用的性能。該處理器旨在通過先進(jìn)的內(nèi)存和下一代I/O，包括PCIe 5.0、CXL 1.1、DDR5和HBM技術(shù)，來推動(dòng)行業(yè)技術(shù)轉(zhuǎn)型。

基礎(chǔ)設(shè)施處理器(IPU)

IPU是一種可編程的網(wǎng)絡(luò)設(shè)備，旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷，并充分釋放性能價(jià)值。

英特爾基于IPU的架構(gòu)有以下主要優(yōu)勢(shì)：

· 基礎(chǔ)設(shè)施功能和客戶工作負(fù)載的強(qiáng)分離使客戶能夠完全控制CPU

· 云運(yùn)營(yíng)商可以將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上，更大化實(shí)現(xiàn)CPU利用率和收益

· IPU可以管理存儲(chǔ)流量，減少時(shí)延，同時(shí)通過無磁盤服務(wù)器架構(gòu)有效利用存儲(chǔ)容量。借助IPU，客戶可以通過一個(gè)安全、可編程、穩(wěn)定的解決方案更好地利用資源，使其能夠平衡處理與存儲(chǔ)

英特爾認(rèn)識(shí)到“單一產(chǎn)品無法滿足所有需求”，因此對(duì)其IPU架構(gòu)進(jìn)行了更深入的研究，并推出了以下IPU家族的新成員——均為應(yīng)對(duì)多樣化數(shù)據(jù)中心的復(fù)雜性而設(shè)計(jì)。

Mount Evans是英特爾的首個(gè)ASIC IPU。Mount Evans是與一家一流的云服務(wù)提供商共同設(shè)計(jì)和開發(fā)的，它融合了多代FPGA SmartNIC的經(jīng)驗(yàn)。

· 超大規(guī)模就緒，提供高性能網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載，同時(shí)保持高度控制

· 提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎，支持防火墻和虛擬路由等用例

· 使用硬件加速的NVMe存儲(chǔ)接口，該接口擴(kuò)展自英特爾傲騰技術(shù)，以模擬NVMe設(shè)備

· 采用英特爾?高性能Quick Assist技術(shù)，部署高級(jí)加密和壓縮加速

· 可使用現(xiàn)有普遍部署的DPDK、SPDK等軟件環(huán)境進(jìn)行編程，并且可以采用英特爾Barefoot Switch部門開創(chuàng)的P4編程語言來配置管線

Oak Springs Canyon是一個(gè)IPU參考平臺(tái)，基于英特爾?至強(qiáng) D 處理器(Intel? Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾? Agilex? FPGA構(gòu)建：

· 卸載Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及NVMe over Fabric和 RoCE v2等存儲(chǔ)功能，并提供硬化的加密模塊，提供更安全、高速的2x 100Gb以太網(wǎng)網(wǎng)絡(luò)接口

· 讓英特爾的合作伙伴和客戶能夠使用英特爾?開放式FPGA開發(fā)堆棧(英特爾?OFS)定制其解決方案，這是一款可擴(kuò)展、開源軟件和硬件基礎(chǔ)設(shè)施

· 使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程，包括已在x86上優(yōu)化的DPDK和SPDK

英特爾N6000加速開發(fā)平臺(tái)，代號(hào)為“Arrow Creek”，是專為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的SmartNIC。其特性包括：

· 在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾Agilex FPGA。用于高性能的100GB網(wǎng)絡(luò)加速的英特爾以太網(wǎng)800系列控制器

· 支持多種基礎(chǔ)設(shè)施工作負(fù)載，使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負(fù)載，如Juniper Contrail、OVS和SRv6，它以英特爾PAC-N3000的成功為基礎(chǔ)，該產(chǎn)品已在部分業(yè)界一流的CoSP中部署。

Xe HPC和Ponte Vecchio

Ponte Vecchio基于Xe HPC微架構(gòu)，提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計(jì)算密度，以加速AI、HPC和高級(jí)分析工作負(fù)載。英特爾公布了Xe HPC微架構(gòu)的IP模塊信息;包括每個(gè)Xe核的8個(gè)矢量和矩陣引擎(稱為XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計(jì)算、基礎(chǔ)和Xe Link單元的處理節(jié)點(diǎn)的單元信息。在架構(gòu)日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能，在流行的 AI 基準(zhǔn)測(cè)試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量，高于5 TBps的內(nèi)存結(jié)構(gòu)帶寬，以及高于2 TBps的連接帶寬。同時(shí)，英特爾分享了一段演示視頻，展示了ResNet推理性能超過43,000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓(xùn)練，并且這兩項(xiàng)性能都有望實(shí)現(xiàn)行業(yè)領(lǐng)先。1

Ponte Vecchio由多個(gè)復(fù)雜的設(shè)計(jì)組成，這些設(shè)計(jì)以單元形式呈現(xiàn)，然后通過嵌入式多芯片互連橋接(EMIB)單元進(jìn)行組裝，實(shí)現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計(jì)均被集成于Foveros封裝中，為提高功率和互連密度形成有源芯片的3D堆疊。高速M(fèi)DFI互連允許1到2個(gè)堆棧的擴(kuò)展。

計(jì)算單元是一個(gè)密集的多個(gè)Xe內(nèi)核，是Ponte Vecchio的核心。

· 一塊單元有8個(gè)Xe內(nèi)核，總共有4MB一級(jí)緩存，是提供高效計(jì)算的關(guān)鍵

· 基于臺(tái)積電先進(jìn)的N5制程工藝技術(shù)

· 英特爾已通過設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法，為測(cè)試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路

· 該單元具有極其緊湊的36微米凸點(diǎn)間距，可與Foveros進(jìn)行3D堆疊

基礎(chǔ)單元是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片，針對(duì)Foveros技術(shù)進(jìn)行了優(yōu)化。

· 基礎(chǔ)單元是所有復(fù)雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元MDFI鏈路和 EMIB橋接

· 采用高2D互連的超高帶寬3D連接時(shí)延很低，使其成為一臺(tái)無限連接的機(jī)器

· 英特爾技術(shù)開發(fā)團(tuán)隊(duì)致力于滿足帶寬、凸點(diǎn)間距和信號(hào)完整性方面的要求

Xe 鏈路單元提供了GPU之間的連接，支持每單元8個(gè)鏈路。

· 對(duì)HPC和AI計(jì)算的擴(kuò)展至關(guān)重要

· 旨在實(shí)現(xiàn)支持高達(dá)90G的更高速SerDes

· 該單元已被添加到“極光”(Aurora)百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中

Ponte Vecchio已走下生產(chǎn)線進(jìn)行上電驗(yàn)證，并已開始向客戶提供限量樣品。Ponte Vecchio預(yù)計(jì)將于2022年面向HPC和AI市場(chǎng)發(fā)布。

oneAPI

oneAPI提供了一個(gè)開放、規(guī)范、跨架構(gòu)和跨廠商的統(tǒng)一軟件棧，讓開發(fā)者能夠擺脫專有語言和編程模型的束縛。目前，NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。oneAPI正在被獨(dú)立軟件提供商、操作系統(tǒng)供應(yīng)商、終端用戶和學(xué)術(shù)界廣泛采用。行業(yè)領(lǐng)導(dǎo)者正在協(xié)助發(fā)展該規(guī)范，以支持更多的用例和架構(gòu)。同時(shí)，英特爾還提供了商業(yè)產(chǎn)品，包括基本的oneAPI基礎(chǔ)工具包，它在規(guī)范語言和庫之外增加了編譯器、分析器、調(diào)試器和移植工具。

oneAPI提供跨架構(gòu)的兼容性，提高了開發(fā)人員的生產(chǎn)力和創(chuàng)新能力：

· 英特爾的oneAPI工具包擁有超過20萬次單獨(dú)安裝

· 市場(chǎng)上部署的300多個(gè)應(yīng)用程序采用了 oneAPI的統(tǒng)一編程模型

· 超過80個(gè)HPC和AI應(yīng)用程序使用英特爾oneAPI工具包在Xe HPC微架構(gòu)上運(yùn)行

· 5月份發(fā)布的1.1版臨時(shí)規(guī)范為深度學(xué)習(xí)工作負(fù)載和高級(jí)光線追蹤庫添加了新的圖形接口，預(yù)計(jì)將在年底完成