當(dāng)前位置:首頁(yè) > 電源 > 功率器件
[導(dǎo)讀]過去十五年里,我們一直在我們的產(chǎn)品中使用高計(jì)算需求的機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的應(yīng)用如此頻繁,以至于我們決定設(shè)計(jì)一款全新類別的定制化機(jī)器學(xué)習(xí)加速器,它就是 TPU。TPU 究竟

過去十五年里,我們一直在我們的產(chǎn)品中使用高計(jì)算需求的機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的應(yīng)用如此頻繁,以至于我們決定設(shè)計(jì)一款全新類別的定制化機(jī)器學(xué)習(xí)加速器,它就是 TPU。

TPU 究竟有多快?今天,聯(lián)合在硅谷計(jì)算機(jī)歷史博物館舉辦的國(guó)家工程科學(xué)院會(huì)議上發(fā)表的有關(guān) TPU 的演講中,我們發(fā)布了一項(xiàng)研究,該研究分享了這些定制化芯片的一些新的細(xì)節(jié),自 2015 年以來(lái),我們數(shù)據(jù)中心的機(jī)器學(xué)習(xí)應(yīng)用中就一直在使用這些芯片。第一代 TPU 面向的是推論功能(使用已訓(xùn)練過的模型,而不是模型的訓(xùn)練階段,這其中有些不同的特征),讓我們看看一些發(fā)現(xiàn):

● 我們產(chǎn)品的人工智能負(fù)載,主要利用神經(jīng)網(wǎng)絡(luò)的推論功能,其 TPU 處理速度比當(dāng)前 GPU 和 CPU 要快 15 到 30 倍。

● 較之傳統(tǒng)芯片,TPU 也更加節(jié)能,功耗效率(TOPS/Watt)上提升了 30 到 80 倍。

● 驅(qū)動(dòng)這些應(yīng)用的神經(jīng)網(wǎng)絡(luò)只要求少量的代碼,少的驚人:僅 100 到 1500 行。代碼以 TensorFlow 為基礎(chǔ)。

● 70 多個(gè)作者對(duì)這篇文章有貢獻(xiàn)。這份報(bào)告也真是勞師動(dòng)眾,很多人參與了設(shè)計(jì)、證實(shí)、實(shí)施以及布局類似這樣的系統(tǒng)軟硬件。

 

 

TPU 的需求大約真正出現(xiàn)在 6 年之前,那時(shí)我們?cè)谒挟a(chǎn)品之中越來(lái)越多的地方已開始使用消耗大量計(jì)算資源的深度學(xué)習(xí)模型;昂貴的計(jì)算令人擔(dān)憂。假如存在這樣一個(gè)場(chǎng)景,其中人們?cè)?1 天中使用谷歌語(yǔ)音進(jìn)行 3 分鐘搜索,并且我們要在正使用的處理器中為語(yǔ)音識(shí)別系統(tǒng)運(yùn)行深度神經(jīng)網(wǎng)絡(luò),那么我們就不得不翻倍谷歌數(shù)據(jù)中心的數(shù)量。

TPU 將使我們快速做出預(yù)測(cè),并使產(chǎn)品迅速對(duì)用戶需求做出回應(yīng)。TPU 運(yùn)行在每一次的搜索中;TPU 支持作為谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)和谷歌云視覺 API(Google Cloud Vision API)等產(chǎn)品的基礎(chǔ)的精確視覺模型;TPU 將加強(qiáng)谷歌翻譯去年推出的突破性神經(jīng)翻譯質(zhì)量的提升;并在谷歌 DeepMind AlphaGo 對(duì)李世乭的勝利中發(fā)揮了作用,這是計(jì)算機(jī)首次在古老的圍棋比賽中戰(zhàn)勝世界冠軍。

我們致力于打造最好的基礎(chǔ)架構(gòu),并將其共享給所有人。我們期望在未來(lái)的數(shù)周和數(shù)月內(nèi)分享更多的更新。

論文題目:數(shù)據(jù)中心的 TPU 性能分析(In-Datacenter Performance Analysis of a Tensor Processing Unit)

 

 

摘要:許多架構(gòu)師相信,現(xiàn)在要想在成本-能耗-性能(cost-energy-performance)上獲得提升,就需要使用特定領(lǐng)域的硬件。這篇論文評(píng)估了一款自 2015 年以來(lái)就被應(yīng)用于數(shù)據(jù)中心的定制化 ASIC,亦即張量處理器(TPU),這款產(chǎn)品可用來(lái)加速神經(jīng)網(wǎng)絡(luò)(NN)的推理階段。TPU 的中心是一個(gè) 65,536 的 8 位 MAC 矩陣乘法單元,可提供 92 萬(wàn)億次運(yùn)算/秒(TOPS)的速度和一個(gè)大的(28 MiB)的可用軟件管理的片上內(nèi)存。相對(duì)于 CPU 和 GPU 的隨時(shí)間變化的優(yōu)化方法(高速緩存、無(wú)序執(zhí)行、多線程、多處理、預(yù)取……),這種 TPU 的確定性的執(zhí)行模型(deterministic execution model)能更好地匹配我們的神經(jīng)網(wǎng)絡(luò)應(yīng)用的 99% 的響應(yīng)時(shí)間需求,因?yàn)?CPU 和 GPU 更多的是幫助對(duì)吞吐量(throughout)進(jìn)行平均,而非確保延遲性能。這些特性的缺失有助于解釋為什么盡管 TPU 有極大的 MAC 和大內(nèi)存,但卻相對(duì)小和低功耗。我們將 TPU 和服務(wù)器級(jí)的英特爾 Haswell CPU 與現(xiàn)在同樣也會(huì)在數(shù)據(jù)中心使用的英偉達(dá) K80 GPU 進(jìn)行了比較。我們的負(fù)載是用高級(jí)的 TensorFlow 框架編寫的,并是用了生產(chǎn)級(jí)的神經(jīng)網(wǎng)絡(luò)應(yīng)用(多層感知器、卷積神經(jīng)網(wǎng)絡(luò)和 LSTM),這些應(yīng)用占到了我們的數(shù)據(jù)中心的神經(jīng)網(wǎng)絡(luò)推理計(jì)算需求的 95%。盡管其中一些應(yīng)用的利用率比較低,但是平均而言,TPU 大約 15-30 倍快于當(dāng)前的 GPU 或者 CPU,速度/功率比(TOPS/Watt)大約高 30-80 倍。此外,如果在 TPU 中使用 GPU 的 GDDR5 內(nèi)存,那么速度(TOPS)還會(huì)翻三倍,速度/功率比(TOPS/Watt)能達(dá)到 GPU 的 70 倍以及 CPU 的 200 倍。

 

 

表 1:6 種神經(jīng)網(wǎng)絡(luò)應(yīng)用(每種神經(jīng)網(wǎng)絡(luò)類型各 2 種)占據(jù)了 TPU 負(fù)載的 95%。表中的列依次是各種神經(jīng)網(wǎng)絡(luò)、代碼的行數(shù)、神經(jīng)網(wǎng)絡(luò)中層的類型和數(shù)量(FC 是全連接層、Conv 是卷積層,Vector 是向量層,Pool 是池化層)以及 TPU 在 2016 年 7 月的應(yīng)用普及程度。RankBrain [Cla15] 使用了 DNN,谷歌神經(jīng)機(jī)器翻譯 [Wu16] 中用到了 LSTM,Inception 用到了 CNN,DeepMind AlphaGo [Sil16][Jou15] 也用到了 CNN。

 

 

圖 1:TPU 各模塊的框圖。主要計(jì)算部分是右上方的黃色矩陣乘法單元。其輸入是藍(lán)色的「權(quán)重 FIFO」和藍(lán)色的統(tǒng)一緩存(Unified Buffer(UB));輸出是藍(lán)色的累加器(Accumulators(Acc))。黃色的激活(Activation)單元在Acc中執(zhí)行流向UB的非線性函數(shù)。

 

 

圖 2:TPU 芯片布局圖。陰影同圖 1。藍(lán)色的數(shù)據(jù)緩存占芯片的 37%。黃色的計(jì)算是 30%。綠色的I/O 是 10%。紅色的控制只有 2%。CPU 或 GPU 中的控制部分則要大很多(并且非常難以設(shè)計(jì))。

 

 

圖3:TPU印制電路板??梢圆迦敕?wù)器 SATA 盤的卡槽,但是該卡使用了 PCIe Gen3 x16 接口。

 

 

圖4:矩陣乘法單元的 systolic 數(shù)據(jù)流。軟件具有每次讀取 256B 輸入的錯(cuò)覺,同時(shí)它們會(huì)立即更新 256 個(gè)累加器 RAM 中其中每一個(gè)的某個(gè)位置。

 

 

表2:谷歌 TPU 與英特爾 Haswell E5-2699 v3、英偉達(dá)Tesla K80 的性能對(duì)比。E5 有 18 個(gè)核,K80 有 13 個(gè) SMX 處理器。圖 10 已經(jīng)測(cè)量了功率。低功率 TPU 比高功率 GPU 能夠更好地匹配機(jī)架(rack)級(jí)密度。每個(gè) TPU 的 8 GiB DRAM 是權(quán)重內(nèi)存(Weight Memory)。這里沒有使用 GPU Boost 模式。SECDEC 和非 Boost 模式把 K80 帶寬從 240 降至 160。非 Boost 模式和單裸片 vs 雙裸片性能把 K80 峰值 TOPS 從 8.7 降至 2.8(*TPU 壓模小于等于半個(gè) Haswell 壓模大小)。

 

 

圖5:TPU (die) roofline。 其脊點(diǎn)位于所獲權(quán)重內(nèi)存每字節(jié)運(yùn)行 1350 次的地方,距離右邊還比較遠(yuǎn)。

 

 

表格3:TPU 在神經(jīng)網(wǎng)絡(luò)工作載荷中性能受到限制的因素,根據(jù)硬件性能計(jì)數(shù)器顯示的結(jié)果。1,4,5,6行,總共100%,以矩陣單元活動(dòng)的測(cè)量結(jié)果為基礎(chǔ)。2,3行進(jìn)一步分解為64K權(quán)重的部分,我們的計(jì)數(shù)器無(wú)法準(zhǔn)確解釋矩陣單元何時(shí)會(huì)停頓在第6行中;7、8行展示了計(jì)數(shù)器結(jié)果,可能有兩個(gè)原因,包括RAW管道危害,PCIe輸入停止。9行(TOPS)是以產(chǎn)品代碼的測(cè)量結(jié)果為基礎(chǔ)的,其他列是以性能計(jì)數(shù)器的測(cè)量結(jié)果為基礎(chǔ)的,因此,他們并不是那么完美保持一致。這里并未包括頂部主服務(wù)器。MLP以及LSTM內(nèi)存帶寬有限,但是CNN不是。CNN1的測(cè)試結(jié)果會(huì)在文中加以分析。

 

 

圖 9:GPU 服務(wù)器(藍(lán)條)對(duì)比 CPU、TPU 服務(wù)器(紅條)對(duì)比 CPU、TPU 服務(wù)器對(duì)比 GPU(橘黃)的相對(duì)性能表現(xiàn)/Watt(TDP)。TPU' 是改進(jìn)版的 TPU(Sec.7)。綠條顯示了對(duì)比 CPU 服務(wù)器的比例,淡紫色顯示了與 GPU 服務(wù)器的關(guān)系。整體包括了主服務(wù)器的能耗,但不包括增量(incremental)。GM 和 WM 分別是幾何學(xué)圖形與加權(quán)平均值。

 

 

圖10:CNN0 平臺(tái)的單位功耗對(duì)比,其中紅色和橙色線是 GPU 加 CPU 系統(tǒng)的功率。藍(lán)色是英特爾 E5-2699 v3 Haswell CPU 的功率,綠色是英偉達(dá) Tesla K80 的功率,紫色為谷歌 TPU。每個(gè)服務(wù)器通常有多個(gè)芯片組,以上所有數(shù)字都已被整除成單芯片功率。

 

 

圖11:加權(quán)平均 TPU 性能作為度量單元,從 0.25 倍擴(kuò)展到了 4 倍:內(nèi)存帶寬,時(shí)鐘頻率+累加器,時(shí)鐘頻率,矩陣單元維度+累加器,以及矩陣單元維度。加權(quán)均值使得我們很難看出單個(gè) DNN 的貢獻(xiàn),但是,MLP 以及 LSTM 提升了 3 倍到 4 倍的內(nèi)存帶寬,但是,更高的時(shí)鐘頻率并沒帶來(lái)任何效果。對(duì)于 CNN 來(lái)說(shuō),結(jié)果反之亦然;4 倍的時(shí)鐘率,2 倍的效果。但是,更快的內(nèi)存并沒帶來(lái)什么好處。一個(gè)更大的矩陣乘法單元并不能對(duì)任何 DNN 有幫助。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉