Prodigy T16128：全球首顆通用處理器現(xiàn)世，絕絕子!!

時(shí)間：2022-05-13 16:35:01

關(guān)鍵字：處理器 Tachyum HPC

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]處理器將是下述內(nèi)容的主要介紹對(duì)象，通過(guò)這篇文章，小編希望大家可以對(duì)Tachyum推出的處理器的相關(guān)情況以及信息有所認(rèn)識(shí)和了解，詳細(xì)內(nèi)容如下。

處理器將是下述內(nèi)容的主要介紹對(duì)象，通過(guò)這篇文章，小編希望大家可以對(duì)Tachyum推出的處理器的相關(guān)情況以及信息有所認(rèn)識(shí)和了解，詳細(xì)內(nèi)容如下。

2016年成立的硅谷芯片公司Tachyum近日發(fā)布了一顆神奇的處理器，擁有超多核心、超高頻率，功耗卻非常低。

這顆處理器名為“Prodigy T16128”，號(hào)稱全球第一顆“通用處理器”(universal processor)，在單一硅片內(nèi)集成了通用處理器、HPC高性能計(jì)算、AI人工智能、DML深度機(jī)器學(xué)習(xí)、可解釋人工智能(Explainable AI)、生物人工智能(Bio AI)等不同模塊，可簡(jiǎn)化編程模型和環(huán)境。

它擁有多達(dá)128個(gè)核心，64位，亂序執(zhí)行，每時(shí)鐘周期4個(gè)指令，每個(gè)核心有兩個(gè)1024位矢量單元、一個(gè)4096位矩陣單元，支持虛擬化和高級(jí)RAS。

具體架構(gòu)沒(méi)披露，不知道是ARM、MIPS還是自研，但強(qiáng)調(diào)除了原生指令集，也可以跑x86、ARM、RISC-V，簡(jiǎn)直全能。

更驚人的是頻率，可以輕松超過(guò)5GHz，最高達(dá)到5.7GHz。

官方宣稱HPC算力90TFlops(每秒90萬(wàn)億次)，AI訓(xùn)練和推理算力高達(dá)12PFlops(每秒1.2億億次)，相當(dāng)于NVIDIA A100的2.4倍，并支持各種數(shù)據(jù)類型如FP64、FP32、TF32、BF16、Int8、FP8、TAI。

緩存具備64KB一級(jí)數(shù)據(jù)、64KB一級(jí)指令、128MB二三級(jí)，都支持ECC。

內(nèi)存支持16通道的DDR5，最高頻率7200MHz，單路最大容量8TB。

擴(kuò)展鏈接支持64條PCIe 5.0，還有兩個(gè)400G以太網(wǎng)接口。

制造工藝是5nm(估計(jì)臺(tái)積電)，64×84mm FCLGA封裝，不算很龐大。

它還支持雙路、四路并行，四路的話就是512核心、32TB DDR5內(nèi)存、256條PCIe 5.0。

官方宣稱，該處理器性能優(yōu)于Intel至強(qiáng)(沒(méi)有具體對(duì)比型號(hào))，但功耗僅有十分之一，單位性能售價(jià)也只有三分之一。

如果不需要128核心，同時(shí)也會(huì)有64核心的T864、32核心的T832不同版本，其他規(guī)格也有所簡(jiǎn)化。

Tachyum 將 Prodigy 稱為世界上第一個(gè)“通用處理器”，并表示它從一開(kāi)始就被設(shè)計(jì)為能夠運(yùn)行眾多世界上最密集的計(jì)算應(yīng)用程序的多用途 CPU。Prodigy 不僅在單個(gè)芯片上處理所有這些不同的任務(wù)，而且它的功耗預(yù)算比傳統(tǒng)硬件低10 倍，成本只有三分之一。

Tachyum 大膽宣稱 Prodigy 超級(jí)計(jì)算機(jī)芯片的性能是市場(chǎng)上英特爾最快的 Xeon芯片的四倍，在高性能計(jì)算應(yīng)用中的原始性能是Nvidia 的 H100的三倍。同時(shí)，能效提高 10 倍。

Tachyum 表示，為了在單核架構(gòu)中創(chuàng)造如此令人印象深刻的性能，它從頭開(kāi)始構(gòu)建了具有矩陣和矢量處理能力的 Prodigy，而不是事后才考慮它們。Prodigy 支持一系列數(shù)據(jù)類型，包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI，所有這些都來(lái)自各個(gè) CPU 內(nèi)核本身。

Prodigy 處理器在 2023 年問(wèn)世時(shí)可能會(huì)改變游戲規(guī)則。AMD、英特爾和 Nvidia 的最新服務(wù)器硬件都依賴于單個(gè)硬件——即使在單個(gè) CPU 或 GPU 中——來(lái)執(zhí)行這些不同的工作負(fù)載。這方面的一個(gè)例子是 Nvidia 的 RTX 系列 GPU ，它需要專用的機(jī)器學(xué)習(xí) Tensor 核心才能讓 AI 工作，而專用的 RT 核心則需要用于光線追蹤應(yīng)用程序。

另一方面，Prodigy 將能夠在單個(gè)內(nèi)核上運(yùn)行光線追蹤和 AI 應(yīng)用程序，并且不需要將數(shù)據(jù)轉(zhuǎn)移到微處理器內(nèi)部的另一個(gè)芯片上。

在單個(gè)芯片內(nèi)運(yùn)行所有這些不同的 HPC 工作負(fù)載可能會(huì)極大地改變服務(wù)器格局：公司將能夠?qū)⒏嘈酒虬椒?wù)器場(chǎng)中，同時(shí)降低功耗和冷卻。

Prodigy T16128 采用未知來(lái)源的 5nm 工藝技術(shù)運(yùn)行，并在非常小的(就其提供的功率而言)64 mm x 84mm FCLGA 封裝內(nèi)運(yùn)行。

Tachyum 表示，在 HPC 工作負(fù)載方面，該芯片能夠執(zhí)行12 AI PetaFLOPS 和 90 TeraFLOPS。Prodigy芯片還可以運(yùn)行適用于 x86、ARM、RISC-V 和 ISA 的二進(jìn)制文件。從某種角度來(lái)看，單個(gè) Nvidia A100 只能實(shí)現(xiàn) 5 AI PetaFLOPS。

每個(gè)內(nèi)核特別能夠執(zhí)行 2 個(gè) 1024 位向量單元、4096 位矩陣運(yùn)算和每個(gè)時(shí)鐘 4 個(gè)亂序指令。還支持虛擬化和高級(jí) RAS。該芯片還包括超過(guò) 128MB 的具有糾錯(cuò)功能的 L2+L3 高速緩存。為了滿足其所有內(nèi)核的需求，該芯片配備了 16 個(gè) DDR5 內(nèi)存控制器，額定速度高達(dá) 7200MT/s，每個(gè)插槽的最大容量為 8TB。

T16128 是 Tachyum Prodigy 系列中的旗艦型號(hào)，產(chǎn)品堆棧中的中端和入門級(jí)插槽分別由 64 核 T864 和 32 核 T832填充。生產(chǎn)將于2023 年開(kāi)始，因此我們應(yīng)該會(huì)在明年某個(gè)時(shí)候看到這些芯片的實(shí)際基準(zhǔn)。

以上便是小編此次想要和大家共同分享的內(nèi)容，如果你對(duì)本文內(nèi)容感到滿意，不妨持續(xù)關(guān)注我們網(wǎng)站喲。最后，十分感謝大家的閱讀，have a nice day!