Meta 推出自研 AI 運算芯片：MTIA v1

時間：2023-05-24 11:40:56

關(guān)鍵字： Meta AI 芯片 MTIA v1

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]21ic 獲悉，昨天 Meta 宣布將推出第一代自研的 AI 推理加速芯片(MTIA v1)以滿足 Meta 內(nèi)部 AI 開發(fā)與應(yīng)用的需要，MTIA v1 芯片在架構(gòu)方面由 PE 運算單元、片上緩存、片外緩存、傳輸接口、控制單元等組成。

21ic 獲悉，昨天 Meta 宣布將推出第一代自研的 AI 推理加速芯片(MTIA v1)以滿足 Meta 內(nèi)部 AI 開發(fā)與應(yīng)用的需要，MTIA v1 芯片在架構(gòu)方面由 PE 運算單元、片上緩存、片外緩存、傳輸接口、控制單元等組成。

據(jù)悉，該芯片是一款于 2020 年開始設(shè)計的 ASIC 芯片，通過編程可同時執(zhí)行一項或多項任務(wù)，采用臺積電 7nm 制程工藝打造，運行頻率為 800MHz，TDP 為 25W，INT8 整數(shù)運算能力為 102.4 TOPS，F(xiàn)P16 浮點數(shù)運算能力為 51.2 TFLOPS，預(yù)計將于 2025 年推出。

該芯片在元訓(xùn)練和推理加速器上備了運行系統(tǒng)固件的專用控制子系統(tǒng)，固件管理可用的計算和內(nèi)存資源，通過專用主機接口與主機通信，并協(xié)調(diào)加速器上的作業(yè)執(zhí)行。內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源，可擴展至 128 GB。該芯片還有 128 MB 的片上 SRAM，由所有 PE 共享，為頻繁訪問的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。

此外，該網(wǎng)格包含以 8x8 配置組織的 64 個 PE。PE 相互連接，并通過網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。網(wǎng)格可以作為一個整體來運行一個作業(yè)，也可以分成多個可以運行獨立作業(yè)的子網(wǎng)格。

每個 PE 配備兩個處理器內(nèi)核(其中一個配備矢量擴展)和一些固定功能單元，這些單元經(jīng)過優(yōu)化以執(zhí)行關(guān)鍵操作，例如矩陣乘法、累加、數(shù)據(jù)移動和非線性函數(shù)計算。處理器內(nèi)核基于 RISC-V 開放指令集架構(gòu) (ISA)，并經(jīng)過大量定制以執(zhí)行必要的計算和控制任務(wù)。

每個 PE 還具有 128 KB 的本地 SRAM 內(nèi)存，用于快速存儲和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性，這是高效運行工作負載的基礎(chǔ)。該芯片提供線程和數(shù)據(jù)級并行性(TLP 和 DLP)，利用指令級并行性 (ILP)，并通過允許同時處理大量內(nèi)存請求來實現(xiàn)大量的內(nèi)存級并行性 (MLP)。

Meta 官網(wǎng)表示，AI 工作負載在 Meta 中無處不在，構(gòu)成了廣泛用例的基礎(chǔ)，包括內(nèi)容理解、Feed、生成 AI 和廣告排名。這些工作負載在 PyTorch 上運行，具有一流的 Python 集成、急切模式開發(fā)和 API 的簡單性。

深度學(xué)習(xí)推薦模型 ( DLRM ) 對于改善跨 Meta 服務(wù)和應(yīng)用程序的體驗尤其重要。但隨著這些模型的規(guī)模和復(fù)雜性增加，底層硬件系統(tǒng)需要提供呈指數(shù)級增長的內(nèi)存和計算能力，同時保持高效。

對于以 Meta 規(guī)模所需的效率水平運行的特定推薦工作負載，GPU 并不總是最佳選擇。我們應(yīng)對這一挑戰(zhàn)的解決方案是設(shè)計一系列特定于推薦的元訓(xùn)練和推理加速器 (MTIA) ASIC。Meta 根據(jù)下一代推薦模型的要求共同設(shè)計了第一代 ASIC，并將其集成到 PyTorch 中以創(chuàng)建一個完全優(yōu)化的排名系統(tǒng)。

此外，Meta 聲稱保持了 PyTorch 急切模式開發(fā)提供的用戶體驗和開發(fā)人員效率。隨著繼續(xù)支持 PyTorch 2.0，開發(fā)人員效率是一段旅程，它增強了 PyTorch 在編譯器級別(引擎下)的運行方式。

Meta 推出自研 AI 運算芯片：MTIA v1