21ic 獲悉,昨天 Meta 宣布將推出第一代自研的 AI 推理加速芯片(MTIA v1)以滿足 Meta 內(nèi)部 AI 開發(fā)與應(yīng)用的需要,MTIA v1 芯片在架構(gòu)方面由 PE 運算單元、片上緩存、片外緩存、傳輸接口、控制單元等組成。
據(jù)悉,該芯片是一款于 2020 年開始設(shè)計的 ASIC 芯片,通過編程可同時執(zhí)行一項或多項任務(wù),采用臺積電 7nm 制程工藝打造,運行頻率為 800MHz,TDP 為 25W,INT8 整數(shù)運算能力為 102.4 TOPS,F(xiàn)P16 浮點數(shù)運算能力為 51.2 TFLOPS,預(yù)計將于 2025 年推出。
該芯片在元訓(xùn)練和推理加速器上備了運行系統(tǒng)固件的專用控制子系統(tǒng),固件管理可用的計算和內(nèi)存資源,通過專用主機接口與主機通信,并協(xié)調(diào)加速器上的作業(yè)執(zhí)行。內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源,可擴展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪問的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。
此外,該網(wǎng)格包含以 8x8 配置組織的 64 個 PE。PE 相互連接,并通過網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。網(wǎng)格可以作為一個整體來運行一個作業(yè),也可以分成多個可以運行獨立作業(yè)的子網(wǎng)格。
每個 PE 配備兩個處理器內(nèi)核(其中一個配備矢量擴展)和一些固定功能單元,這些單元經(jīng)過優(yōu)化以執(zhí)行關(guān)鍵操作,例如矩陣乘法、累加、數(shù)據(jù)移動和非線性函數(shù)計算。處理器內(nèi)核基于 RISC-V 開放指令集架構(gòu) (ISA),并經(jīng)過大量定制以執(zhí)行必要的計算和控制任務(wù)。
每個 PE 還具有 128 KB 的本地 SRAM 內(nèi)存,用于快速存儲和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性,這是高效運行工作負載的基礎(chǔ)。該芯片提供線程和數(shù)據(jù)級并行性(TLP 和 DLP),利用指令級并行性 (ILP),并通過允許同時處理大量內(nèi)存請求來實現(xiàn)大量的內(nèi)存級并行性 (MLP)。
Meta 官網(wǎng)表示,AI 工作負載在 Meta 中無處不在,構(gòu)成了廣泛用例的基礎(chǔ),包括內(nèi)容理解、Feed、生成 AI 和廣告排名。這些工作負載在 PyTorch 上運行,具有一流的 Python 集成、急切模式開發(fā)和 API 的簡單性。
深度學(xué)習(xí)推薦模型 ( DLRM ) 對于改善跨 Meta 服務(wù)和應(yīng)用程序的體驗尤其重要。但隨著這些模型的規(guī)模和復(fù)雜性增加,底層硬件系統(tǒng)需要提供呈指數(shù)級增長的內(nèi)存和計算能力,同時保持高效。
對于以 Meta 規(guī)模所需的效率水平運行的特定推薦工作負載,GPU 并不總是最佳選擇。我們應(yīng)對這一挑戰(zhàn)的解決方案是設(shè)計一系列特定于推薦的元訓(xùn)練和推理加速器 (MTIA) ASIC。Meta 根據(jù)下一代推薦模型的要求共同設(shè)計了第一代 ASIC,并將其集成到 PyTorch 中以創(chuàng)建一個完全優(yōu)化的排名系統(tǒng)。
此外,Meta 聲稱保持了 PyTorch 急切模式開發(fā)提供的用戶體驗和開發(fā)人員效率。隨著繼續(xù)支持 PyTorch 2.0,開發(fā)人員效率是一段旅程,它增強了 PyTorch 在編譯器級別(引擎下)的運行方式。