谷歌瘋狂速度推進(jìn)AI革命,讓人們?cè)谏疃葘W(xué)習(xí)系統(tǒng)中實(shí)現(xiàn)民主化
最近幾年,深度學(xué)習(xí)已經(jīng)成為越來(lái)越熱門(mén)的技術(shù),但很少有公司能像谷歌及其母公司Alphabet那樣,利用深度學(xué)習(xí)技術(shù)在如此多的領(lǐng)域取得巨大進(jìn)展,并將其完全融入到操作業(yè)務(wù)中去。為了與谷歌推動(dòng)其創(chuàng)新的努力保持一致,該公司在云計(jì)算大會(huì)NEXT 2017上發(fā)布了一系列與人工智能(AI)相關(guān)的公告,同時(shí)以“讓人們能夠在世界上最強(qiáng)大的深度學(xué)習(xí)系統(tǒng)中實(shí)現(xiàn)民主化”為主題。
近年來(lái),谷歌及其姊妹公司已經(jīng)成為“以瘋狂速度推進(jìn)AI革命”的代名詞,并在整個(gè)公司的服務(wù)中引入深度學(xué)習(xí)。其中最著名的例子是,Alphabet子公司Deep Mind的AI程序AlphaGo成為了第一個(gè)擊敗頂級(jí)圍棋選手的機(jī)器,而Waymo的無(wú)人駕駛汽車也已經(jīng)成為自動(dòng)駕駛革命的象征。但是,這是一場(chǎng)靜悄悄的AI革命,它塑造了從谷歌翻譯到谷歌搜索的所有東西,對(duì)谷歌本身產(chǎn)生了最大的影響。同時(shí),它還帶來(lái)了自動(dòng)推理的力量,幾乎可以影響到公司所做的每一件事情。
由于谷歌已經(jīng)建立起龐大的基礎(chǔ)設(shè)施來(lái)訓(xùn)練和運(yùn)行這些AI系統(tǒng),谷歌現(xiàn)在正將這些工具帶給大眾。有些公司已經(jīng)建立了自己的AI研究部門(mén),需要為特定的應(yīng)用程序建立高度定制的模型。然而,在這樣做的過(guò)程中,他們很快就遭遇了構(gòu)建大型深度學(xué)習(xí)模式的艱巨硬件要求,通常需要整個(gè)加速器農(nóng)場(chǎng)進(jìn)行快速的迭代。
在谷歌的案例中,它提供了一個(gè)名為“云機(jī)器學(xué)習(xí)引擎(Cloud Machine Learning Engine)”的深度學(xué)習(xí)托管平臺(tái),負(fù)責(zé)提供深度學(xué)習(xí)開(kāi)發(fā)所需的硬件,讓企業(yè)可以專注于構(gòu)建自己的模型,并將計(jì)算需求轉(zhuǎn)移到谷歌。畢竟,很少有公司在AI領(lǐng)域投入如此多的資金以建立自己的自定義加速器硬件,就像谷歌的張量處理單元(TPU)那樣。
當(dāng)然,盡管算法和硬件的進(jìn)步在AI革命中發(fā)揮了重要作用,但在沒(méi)有數(shù)據(jù)的情況下,很難在這一領(lǐng)域取得真正的進(jìn)展。目前的AI系統(tǒng)需要海量的數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)新概念。人類可以看到一個(gè)新物體的單一圖像,并能立即識(shí)別出它,但類似的AI系統(tǒng)需要大量的圖像從多個(gè)角度描繪這個(gè)物體,從而建立正確的內(nèi)部圖像。這意味著,像谷歌這樣的公司能夠收集到數(shù)億張照片,從而為地理位置等應(yīng)用程序構(gòu)建一個(gè)可視化的地球圖像,這是一個(gè)巨大的優(yōu)勢(shì)。
簡(jiǎn)而言之,深度學(xué)習(xí)革命是由數(shù)據(jù)驅(qū)動(dòng)的,但很少有公司能像谷歌那樣擁有如此多的數(shù)據(jù)。這意味著,當(dāng)涉及到深度學(xué)習(xí)系統(tǒng)時(shí),你很容易找到工具,但很難找到你真正可以使用的預(yù)先訓(xùn)練過(guò)的模型。我本人曾希望找到足夠強(qiáng)大的系統(tǒng)以便對(duì)全球新聞圖片進(jìn)行分類。在過(guò)去的幾年里,我嘗試了無(wú)數(shù)的系統(tǒng),我發(fā)現(xiàn)許多系統(tǒng)提供了令人不可思議的技術(shù),但是沒(méi)有任何系統(tǒng)能夠提供豐富的預(yù)先構(gòu)建的目錄,它們沒(méi)有成千上萬(wàn)的標(biāo)簽,也未能很好地利用來(lái)自非西方世界的圖像,直到我偶然發(fā)現(xiàn)了谷歌的 Cloud Vision系統(tǒng)。
事實(shí)上,這是許多公司的共同需求:他們有興趣為客戶建立服務(wù),而不是進(jìn)行AI研究。隨著外部化趨勢(shì)的發(fā)展,谷歌已經(jīng)通過(guò)發(fā)布許多內(nèi)部AI系統(tǒng)作為公共云的API來(lái)應(yīng)對(duì)這樣的挑戰(zhàn)。Cloud Vision接受任意圖片,并對(duì)物體、活動(dòng)以及文本分類。它能識(shí)別圖片中所描述的位置、估算人臉的情感,甚至還會(huì)標(biāo)記圖片中是否描繪了暴力。所有這些都有API調(diào)用,結(jié)果會(huì)在幾秒鐘內(nèi)反回饋來(lái),而且可無(wú)限擴(kuò)展。
Cloud Speech可用80多種語(yǔ)言進(jìn)行現(xiàn)場(chǎng)演講,不像傳統(tǒng)的語(yǔ)音轉(zhuǎn)錄系統(tǒng),它不需要任何訓(xùn)練。Cloud Natural Language接受英語(yǔ)、西班牙語(yǔ)和日語(yǔ)中的任意文本,并輸出獨(dú)立的解析樹(shù),識(shí)別關(guān)鍵實(shí)體,甚至執(zhí)行情緒分析。在NEXT 2017大會(huì)上,谷歌以其最新的工具 Cloud Video Intelligence擴(kuò)展了這個(gè)陣容,它將視頻和短片分割成場(chǎng)景,并在每個(gè)場(chǎng)景中識(shí)別出主要的主題和活動(dòng),讓人們可以獲取一個(gè)龐大的視頻檔案,并即時(shí)編輯索引,使其可以被按照題目盡心搜索。
這些API之所以如此強(qiáng)大,是因?yàn)樗鼈兪亲鳛楹?jiǎn)單的API而被公開(kāi)的。你只需用你的數(shù)據(jù)做一個(gè)API調(diào)用,幾秒鐘后就能得到世界上頂尖AI研究人員建立的、經(jīng)過(guò)預(yù)先訓(xùn)練過(guò)的算法給出的結(jié)果。深度學(xué)習(xí)的巨大復(fù)雜性隱藏在一個(gè)簡(jiǎn)單的API調(diào)用背后,你甚至可以將API調(diào)用串在一起,用幾行代碼構(gòu)建難以想象的復(fù)雜工作流程。
Teowaki的賈維爾拉米雷斯(Javier Ramirez)讓我們得以窺視,如何利用這些API快速構(gòu)建一個(gè)完整的工作流程,只需幾分鐘的時(shí)間和幾行代碼。在他的教程中,他以英國(guó)首相特里薩梅(Theresa May)就職演講的YouTube視頻為例,并通過(guò)Cloud Speech API為其提供了一個(gè)高質(zhì)量的文本文字記錄。然后,他通過(guò)Cloud Natural Language來(lái)獲取這些文本,以提取其中提到的重要實(shí)體(以及維基百科頁(yè)面上的鏈接以獲取更多信息),并計(jì)算出演講的一般情緒。
只需要幾行代碼就可以制作幾個(gè)API調(diào)用,然后用YouTube上的視頻轉(zhuǎn)錄,并提取關(guān)鍵實(shí)體和情感。更令人驚訝的是,整個(gè)工作流程都可以被放大,可以在數(shù)百萬(wàn)個(gè)視頻中運(yùn)行,而無(wú)需進(jìn)行任何改動(dòng)。這就是云計(jì)算的力量。
就在谷歌將其服務(wù)和安全模式具體化的同時(shí),它也為其不可思議的AI技術(shù)進(jìn)步打開(kāi)了大門(mén),并為想要打造自己模型的公司提供了AI托管環(huán)境,以及不斷增加的預(yù)先訓(xùn)練模型,這些模型允許公司通過(guò)簡(jiǎn)單的API調(diào)用來(lái)構(gòu)建復(fù)雜的應(yīng)用程序。
在NEXT 2017大會(huì)的幾次會(huì)議中,可以清楚地看到,AI以及其在主題演講中的大量存在表明,谷歌押注于將AI投入到企業(yè)中。最后,谷歌實(shí)際上是通過(guò)讓用戶容易使用來(lái)實(shí)現(xiàn)對(duì)世界上最先進(jìn)AI算法的訪問(wèn),以至于即使是最小的企業(yè)也可以利用深度學(xué)習(xí)的全部力量來(lái)徹底改變他們做生意的方式。