谷歌瘋狂速度推進AI革命,讓人們在深度學(xué)習(xí)系統(tǒng)中實現(xiàn)民主化
最近幾年,深度學(xué)習(xí)已經(jīng)成為越來越熱門的技術(shù),但很少有公司能像谷歌及其母公司Alphabet那樣,利用深度學(xué)習(xí)技術(shù)在如此多的領(lǐng)域取得巨大進展,并將其完全融入到操作業(yè)務(wù)中去。為了與谷歌推動其創(chuàng)新的努力保持一致,該公司在云計算大會NEXT 2017上發(fā)布了一系列與人工智能(AI)相關(guān)的公告,同時以“讓人們能夠在世界上最強大的深度學(xué)習(xí)系統(tǒng)中實現(xiàn)民主化”為主題。
近年來,谷歌及其姊妹公司已經(jīng)成為“以瘋狂速度推進AI革命”的代名詞,并在整個公司的服務(wù)中引入深度學(xué)習(xí)。其中最著名的例子是,Alphabet子公司Deep Mind的AI程序AlphaGo成為了第一個擊敗頂級圍棋選手的機器,而Waymo的無人駕駛汽車也已經(jīng)成為自動駕駛革命的象征。但是,這是一場靜悄悄的AI革命,它塑造了從谷歌翻譯到谷歌搜索的所有東西,對谷歌本身產(chǎn)生了最大的影響。同時,它還帶來了自動推理的力量,幾乎可以影響到公司所做的每一件事情。
由于谷歌已經(jīng)建立起龐大的基礎(chǔ)設(shè)施來訓(xùn)練和運行這些AI系統(tǒng),谷歌現(xiàn)在正將這些工具帶給大眾。有些公司已經(jīng)建立了自己的AI研究部門,需要為特定的應(yīng)用程序建立高度定制的模型。然而,在這樣做的過程中,他們很快就遭遇了構(gòu)建大型深度學(xué)習(xí)模式的艱巨硬件要求,通常需要整個加速器農(nóng)場進行快速的迭代。
在谷歌的案例中,它提供了一個名為“云機器學(xué)習(xí)引擎(Cloud Machine Learning Engine)”的深度學(xué)習(xí)托管平臺,負責提供深度學(xué)習(xí)開發(fā)所需的硬件,讓企業(yè)可以專注于構(gòu)建自己的模型,并將計算需求轉(zhuǎn)移到谷歌。畢竟,很少有公司在AI領(lǐng)域投入如此多的資金以建立自己的自定義加速器硬件,就像谷歌的張量處理單元(TPU)那樣。
當然,盡管算法和硬件的進步在AI革命中發(fā)揮了重要作用,但在沒有數(shù)據(jù)的情況下,很難在這一領(lǐng)域取得真正的進展。目前的AI系統(tǒng)需要海量的數(shù)據(jù)來學(xué)習(xí)一個新概念。人類可以看到一個新物體的單一圖像,并能立即識別出它,但類似的AI系統(tǒng)需要大量的圖像從多個角度描繪這個物體,從而建立正確的內(nèi)部圖像。這意味著,像谷歌這樣的公司能夠收集到數(shù)億張照片,從而為地理位置等應(yīng)用程序構(gòu)建一個可視化的地球圖像,這是一個巨大的優(yōu)勢。
簡而言之,深度學(xué)習(xí)革命是由數(shù)據(jù)驅(qū)動的,但很少有公司能像谷歌那樣擁有如此多的數(shù)據(jù)。這意味著,當涉及到深度學(xué)習(xí)系統(tǒng)時,你很容易找到工具,但很難找到你真正可以使用的預(yù)先訓(xùn)練過的模型。我本人曾希望找到足夠強大的系統(tǒng)以便對全球新聞圖片進行分類。在過去的幾年里,我嘗試了無數(shù)的系統(tǒng),我發(fā)現(xiàn)許多系統(tǒng)提供了令人不可思議的技術(shù),但是沒有任何系統(tǒng)能夠提供豐富的預(yù)先構(gòu)建的目錄,它們沒有成千上萬的標簽,也未能很好地利用來自非西方世界的圖像,直到我偶然發(fā)現(xiàn)了谷歌的 Cloud Vision系統(tǒng)。
事實上,這是許多公司的共同需求:他們有興趣為客戶建立服務(wù),而不是進行AI研究。隨著外部化趨勢的發(fā)展,谷歌已經(jīng)通過發(fā)布許多內(nèi)部AI系統(tǒng)作為公共云的API來應(yīng)對這樣的挑戰(zhàn)。Cloud Vision接受任意圖片,并對物體、活動以及文本分類。它能識別圖片中所描述的位置、估算人臉的情感,甚至還會標記圖片中是否描繪了暴力。所有這些都有API調(diào)用,結(jié)果會在幾秒鐘內(nèi)反回饋來,而且可無限擴展。
Cloud Speech可用80多種語言進行現(xiàn)場演講,不像傳統(tǒng)的語音轉(zhuǎn)錄系統(tǒng),它不需要任何訓(xùn)練。Cloud Natural Language接受英語、西班牙語和日語中的任意文本,并輸出獨立的解析樹,識別關(guān)鍵實體,甚至執(zhí)行情緒分析。在NEXT 2017大會上,谷歌以其最新的工具 Cloud Video Intelligence擴展了這個陣容,它將視頻和短片分割成場景,并在每個場景中識別出主要的主題和活動,讓人們可以獲取一個龐大的視頻檔案,并即時編輯索引,使其可以被按照題目盡心搜索。
這些API之所以如此強大,是因為它們是作為簡單的API而被公開的。你只需用你的數(shù)據(jù)做一個API調(diào)用,幾秒鐘后就能得到世界上頂尖AI研究人員建立的、經(jīng)過預(yù)先訓(xùn)練過的算法給出的結(jié)果。深度學(xué)習(xí)的巨大復(fù)雜性隱藏在一個簡單的API調(diào)用背后,你甚至可以將API調(diào)用串在一起,用幾行代碼構(gòu)建難以想象的復(fù)雜工作流程。
Teowaki的賈維爾拉米雷斯(Javier Ramirez)讓我們得以窺視,如何利用這些API快速構(gòu)建一個完整的工作流程,只需幾分鐘的時間和幾行代碼。在他的教程中,他以英國首相特里薩梅(Theresa May)就職演講的YouTube視頻為例,并通過Cloud Speech API為其提供了一個高質(zhì)量的文本文字記錄。然后,他通過Cloud Natural Language來獲取這些文本,以提取其中提到的重要實體(以及維基百科頁面上的鏈接以獲取更多信息),并計算出演講的一般情緒。
只需要幾行代碼就可以制作幾個API調(diào)用,然后用YouTube上的視頻轉(zhuǎn)錄,并提取關(guān)鍵實體和情感。更令人驚訝的是,整個工作流程都可以被放大,可以在數(shù)百萬個視頻中運行,而無需進行任何改動。這就是云計算的力量。
就在谷歌將其服務(wù)和安全模式具體化的同時,它也為其不可思議的AI技術(shù)進步打開了大門,并為想要打造自己模型的公司提供了AI托管環(huán)境,以及不斷增加的預(yù)先訓(xùn)練模型,這些模型允許公司通過簡單的API調(diào)用來構(gòu)建復(fù)雜的應(yīng)用程序。
在NEXT 2017大會的幾次會議中,可以清楚地看到,AI以及其在主題演講中的大量存在表明,谷歌押注于將AI投入到企業(yè)中。最后,谷歌實際上是通過讓用戶容易使用來實現(xiàn)對世界上最先進AI算法的訪問,以至于即使是最小的企業(yè)也可以利用深度學(xué)習(xí)的全部力量來徹底改變他們做生意的方式。