谷歌出手AI芯片和公有云市場(chǎng) TPU首次對(duì)外全面開(kāi)放
今日?qǐng)?bào)道,谷歌向外宣布TPU將啟動(dòng)全面開(kāi)放模式,據(jù)悉這是谷歌TPU首次對(duì)外全面開(kāi)放。TPU的威力極大,它的出現(xiàn)必將給AI芯片和公有云市場(chǎng)將迎來(lái)新的變局。Google的機(jī)器學(xué)習(xí)利器Cloud TPU,在今日真的開(kāi)始面向更多用戶開(kāi)放了。
谷歌又出手了。又是一個(gè)大招。
這次谷歌傳奇Jeff Dean親自在推特上連發(fā)10條,滿懷激動(dòng)地對(duì)外宣布著這個(gè)消息:谷歌TPU首次對(duì)外全面開(kāi)放。
AI芯片和公有云市場(chǎng)將迎來(lái)新的變局。
之前英偉達(dá)的黃仁勛在談到谷歌TPU時(shí),就曾強(qiáng)硬的表示,對(duì)TPU的威脅不以為然。當(dāng)時(shí),老黃還列了列參數(shù):新的TPU可以實(shí)現(xiàn)45 teraflop的運(yùn)算能力,而英偉達(dá)最新的Volta GPU則能達(dá)到120 teraflop。
但如果你關(guān)注人工智能,肯定知道TPU的威力。谷歌搜索、翻譯、相冊(cè)等應(yīng)用,都有TPU在提供AI加速。更值得一提的是,AlphaGo也是借力TPU,稱霸圍棋界。
而且谷歌這款芯片還專門對(duì)AI進(jìn)行了優(yōu)化。
谷歌在官方博客中表示,在新發(fā)布的Cloud TPU幫助下,不到一天的時(shí)間,你就可以在ImageNet上把ResNet-50模型訓(xùn)練到75%的精度,成本不足200美元。
從現(xiàn)在起,每小時(shí)6.5美元,你也能用上谷歌TPU了。
理論上。
Google的機(jī)器學(xué)習(xí)利器Cloud TPU,從今天開(kāi)始面向更多用戶開(kāi)放了。
Cloud TPU今天發(fā)布了beta版,這一版本通過(guò)谷歌云平臺(tái)(Google Cloud Platform, GCP)提供,想幫更多機(jī)器學(xué)習(xí)專家更快地運(yùn)行模型。
Cloud TPU是谷歌設(shè)計(jì)的硬件加速器,專為加速、擴(kuò)展特定的TensorFlow機(jī)器學(xué)習(xí)工作負(fù)載而優(yōu)化。
每個(gè)Cloud TPU包含4個(gè)定制化的ASIC,單塊板卡的計(jì)算能力達(dá)到每秒180萬(wàn)億次浮點(diǎn)運(yùn)算(180 teraflops),有64GB的高帶寬內(nèi)存。
這些板卡可以單獨(dú)使用,也可以通過(guò)超高速專用網(wǎng)絡(luò)連接起來(lái),形成“TPU pod”。今年晚些時(shí)候,Google會(huì)開(kāi)始通過(guò)GCP供應(yīng)這種更大的超級(jí)計(jì)算機(jī)。
Google設(shè)計(jì)Cloud TPU的目標(biāo),是針對(duì)性地為TensorFlow工作負(fù)載提供一分錢一分貨的差異化性能,讓研究人員嫩更快地進(jìn)行迭代。
例如:
你能通過(guò)自定義、可控制的Google Compute Engine虛擬機(jī),對(duì)聯(lián)網(wǎng)的Cloud TPU進(jìn)行交互式的、獨(dú)享的訪問(wèn),而不用等待自己的工作在共享計(jì)算集群上排隊(duì)。
你能連夜在一組Cloud TPU上訓(xùn)練出同一個(gè)模型的幾個(gè)變體,第二天將訓(xùn)練出來(lái)的最精確的模型部署到生產(chǎn)中,而不用等幾天、甚至幾周來(lái)訓(xùn)練關(guān)鍵業(yè)務(wù)機(jī)器學(xué)習(xí)模型。
不到一天的時(shí)間,你就可以在ImageNet上把ResNet-50模型訓(xùn)練到75%的精度,成本不到200美元。
更簡(jiǎn)單的機(jī)器學(xué)習(xí)模型訓(xùn)練
過(guò)去,為定制ASIC和超級(jí)計(jì)算機(jī)編程需要深入的專業(yè)知識(shí)技能。相比之下,要對(duì)Cloud TPU編程,用高級(jí)TensorFlow API就可以了,Google還開(kāi)源了一組高性能的云TPU模型實(shí)現(xiàn),上手更簡(jiǎn)單:
Google在博客中說(shuō),經(jīng)過(guò)對(duì)性能和收斂性的不斷測(cè)試,這些模型都達(dá)到了標(biāo)準(zhǔn)數(shù)據(jù)集的預(yù)期精度。
以后,Google會(huì)逐漸推出更多模型實(shí)現(xiàn)。不過(guò),想要探險(xiǎn)的機(jī)器學(xué)習(xí)專家也可以用他們提供的文檔和工具,自行在Cloud TPU上優(yōu)化其他TensorFlow模型。
現(xiàn)在開(kāi)始用Cloud TPU,等到今年晚些時(shí)候Google推出TPU pod的時(shí)候,訓(xùn)練的時(shí)間-精度比能得到驚人的提升。
在NIPS 2017上,Google曾宣布ResNet-50和Transformer兩個(gè)模型在完整TPU pod上的訓(xùn)練時(shí)間,都從大半天下降到了30分鐘以內(nèi),不需要改動(dòng)任何代碼。
可擴(kuò)展的機(jī)器學(xué)習(xí)平臺(tái)云TPU還簡(jiǎn)化了機(jī)器學(xué)習(xí)計(jì)算資源的規(guī)劃和管理:
你可以為團(tuán)隊(duì)提供最先進(jìn)的機(jī)器學(xué)習(xí)加速,并根據(jù)需求的變化動(dòng)態(tài)調(diào)整生產(chǎn)力。
你可以直接用經(jīng)過(guò)Google多年優(yōu)化的高度集成機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施,無(wú)需投入大量金錢、時(shí)間、專業(yè)人才來(lái)設(shè)計(jì)、安裝、維護(hù)現(xiàn)場(chǎng)機(jī)器學(xué)習(xí)計(jì)算集群,不用考慮供電、冷卻、聯(lián)網(wǎng)、存儲(chǔ)要求等問(wèn)題。
Google Cloud TPU經(jīng)過(guò)預(yù)先配置,不需要安裝驅(qū)動(dòng)程序,因此,也不用想方設(shè)法讓一大群工作站和服務(wù)器的驅(qū)動(dòng)程序保持最新。
和其他Google云服務(wù)一樣,有復(fù)雜的安全機(jī)制保護(hù)著你的數(shù)據(jù)。
Google說(shuō)要為客戶的每個(gè)機(jī)器學(xué)習(xí)負(fù)載提供最適合的云服務(wù),除了TPU之外,他們還提供英特爾Skylake等高性能CPU,和包括英偉達(dá)Tesla V100在內(nèi)的高端GPU。
開(kāi)始使用吧Cloud TPU今天開(kāi)始提供,數(shù)量有限,按秒計(jì)費(fèi)。每個(gè)Cloud TPU每小時(shí)6.5美元。
要使用beta版的Cloud TPU,需要填個(gè)表,描述一下你要用TPU干什么。
Google說(shuō),會(huì)盡快讓你用上Cloud TPU。
2月27日,Google還要開(kāi)一場(chǎng)在線講座,再細(xì)致地談一談Cloud TPU。
在Google的博客文章中,提到了兩家客戶使用Cloud TPU的感受。
一家是投資公司Two Sigma。他們的深度學(xué)習(xí)研究現(xiàn)在主要在云上進(jìn)行,該公司CTO Alfred Spector說(shuō):“將TensorFlow工作負(fù)載轉(zhuǎn)移到TPU上,大大降低了編程新模型的復(fù)雜性,縮短了訓(xùn)練時(shí)間。”
另一家是共享出行公司Lyft。深度學(xué)習(xí)正在成為這家公司無(wú)人車研究的重要組成部分。