百度CTO王海峰:深度學(xué)習(xí)的核心東西是深度學(xué)習(xí)框架
6月28日上午消息,2019年全球軟件產(chǎn)業(yè)發(fā)展高峰論壇今日開幕,百度首席技術(shù)官王海峰發(fā)表演講。
王海峰指出,深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用,它的核心的東西是深度學(xué)習(xí)框架,可以說深度學(xué)習(xí)框架是智能時代的操作系統(tǒng),它向下會對接芯片,芯片會針對深度學(xué)習(xí)框架里面的這些運算來進(jìn)行優(yōu)化,向上是支撐各種應(yīng)用,核心的部分有訓(xùn)練框架,有了很多數(shù)據(jù),跟應(yīng)用相關(guān)的數(shù)據(jù),然后進(jìn)行訓(xùn)練,訓(xùn)練得到模型。然后預(yù)測框架會基于已經(jīng)訓(xùn)練好的模型,針對應(yīng)用與應(yīng)用相結(jié)合,最后實現(xiàn)真正的應(yīng)用。除了訓(xùn)練框架和預(yù)測框架以外,還有相應(yīng)的各種輔助工具。
他認(rèn)為,深度學(xué)習(xí)一旦應(yīng)用到某一個行業(yè)里面,包括旅游、物流、零售、汽車等,都會帶來很大的商業(yè)價值的提升。 此外,王海峰還介紹了百度的深度學(xué)習(xí)平臺飛漿,英文名字叫Paddle。目前,飛漿官方支持超過70個主流的模型,包括視覺的自然語言處理的、推薦的、語言的等。(雪梅)
以下為王海峰演講全文:
今天會議的主題是軟件,我就跟大家分享一個人工智能時代非常重要的技術(shù)軟件平臺,深度學(xué)習(xí)平臺。百度的深度學(xué)習(xí)平臺的中文名是飛漿、英文名字叫Paddle。
我們知道人類社會過去幾百年已經(jīng)經(jīng)歷了三次工業(yè)革命,第一次工業(yè)革命為人類帶來了機(jī)械技術(shù),第二次帶來了電器技術(shù),第三次帶來了信息技術(shù)。每一次工業(yè)革命核心的驅(qū)動技術(shù)都有一個共同特點,就是它們是相對通用的,不僅僅是某一個行業(yè),而是在各行各業(yè)都會起作用。就像我們熟悉的電在我們生活中已經(jīng)無處不在。我們很幸運,我們處在一個時代,這個時代是正在經(jīng)歷人類的第四次工業(yè)革命,這次工業(yè)革命核心的驅(qū)動技術(shù)就是人工智能技術(shù),人工智能已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的核心驅(qū)動力量,人工智能正推動我們這個時代進(jìn)入智能時代。
人工智能經(jīng)歷過60多年的發(fā)展,應(yīng)該說經(jīng)歷了三個很典型的階段,從人工智能技術(shù)的角度,早期是靠人工的規(guī)則,后來有了機(jī)器學(xué)習(xí),過去這些年推動人工智能在各行各業(yè)廣泛應(yīng)用的是深度學(xué)習(xí),當(dāng)然深度學(xué)習(xí)也是機(jī)器學(xué)習(xí)的一個分支。
我剛才說起推動工業(yè)革命的技術(shù)往往是通用的,我們看幾個例子,比如說人工智能里面一個很典型的任務(wù)做文字的識別。早期文字識別更多用規(guī)則,然后引入一些機(jī)器學(xué)習(xí)的技術(shù),那時候一個文字識別過程很復(fù)雜,比如一個典型的OCR系統(tǒng)要分六步,從區(qū)域檢測、行分割、字分割等等處理下來才能識別出來一些文字。用了深度學(xué)習(xí)技術(shù)以后,縮減為兩步,一個檢測一個識別,當(dāng)然依托的是大數(shù)據(jù)的技術(shù)。深度學(xué)習(xí)技術(shù)在OCR進(jìn)一步的演進(jìn)變成了端到端的識別系統(tǒng),實現(xiàn)了多任務(wù)聯(lián)合訓(xùn)練,端到端的聯(lián)合學(xué)習(xí),包括特征的互用和互補(bǔ)。
再看另一個在人工智能領(lǐng)域的技術(shù),自然語言處理,經(jīng)歷了從人工規(guī)則到自動學(xué)習(xí)到深度學(xué)習(xí)過程,早期自然語言處理規(guī)則往往是靠專家,尤其是語言學(xué)專家結(jié)合各種領(lǐng)域知識來寫的規(guī)則,這時候開發(fā)成本非常高。而且從一個領(lǐng)域遷移到另一個領(lǐng)域,或者從一個語言遷移到另一個語言都非常困難。后來有了機(jī)器學(xué)習(xí)自然語言處理以后,有大量的模型,我們?yōu)榱耸褂眠@些模型要進(jìn)行數(shù)據(jù)選擇、訓(xùn)練、模型的選擇還有特征工程等等,雖然自動化程度高了很多,但還很不標(biāo)準(zhǔn)化,同時過程也很復(fù)雜。用了深度學(xué)習(xí)以后進(jìn)一步實現(xiàn)了更好的標(biāo)準(zhǔn)化和自動化。深度學(xué)習(xí)既然已經(jīng)廣泛應(yīng)用,它的核心東西是什么?核心的東西是深度學(xué)習(xí)框架。我們可以說深度學(xué)習(xí)框架是智能時代的操作系統(tǒng),它向下會對接芯片,芯片會針對深度學(xué)習(xí)框架里面的這些運算來進(jìn)行優(yōu)化,向上是支撐各種應(yīng)用,核心的部分有訓(xùn)練框架,有了很多數(shù)據(jù),跟應(yīng)用相關(guān)的數(shù)據(jù),然后進(jìn)行訓(xùn)練,訓(xùn)練得到模型。然后預(yù)測框架會基于已經(jīng)訓(xùn)練好的模型,針對應(yīng)用與應(yīng)用相結(jié)合,最后實現(xiàn)真正的應(yīng)用。
除了訓(xùn)練框架和預(yù)測框架以外,還有就是有相應(yīng)的各種輔助工具。比如說怎么樣讓網(wǎng)絡(luò)選擇更自動化,比如說更低門檻的進(jìn)入等等,有很多輔助工具。
這就是百度的飛漿深度學(xué)習(xí)平臺,大家看到這個平臺最下面是核心框架,我剛才說的訓(xùn)練框架、預(yù)測框架等等都在里面,但是每一部分又有很多事情要做,比如說大規(guī)模分布式訓(xùn)練、工業(yè)級預(yù)處理,要做安全的加密等等,同時為每一個典型的領(lǐng)域又會提供很多的模型庫,比如說自然語言處理,對計算機(jī)視覺、語音、推薦等等這些。工具組建,除了基本的學(xué)習(xí)框架以外,有深度學(xué)習(xí)的工具組建、有遷移學(xué)習(xí)的、有強(qiáng)化學(xué)習(xí)的,同時還有自動化的網(wǎng)絡(luò)設(shè)計。從服務(wù)平臺這一層,比如說EDL,你即使不懂深度學(xué)習(xí)技術(shù)也不懂寫代碼,利用這個平臺可以零基礎(chǔ)的定制和訓(xùn)練以及提供服務(wù)。
現(xiàn)在飛漿已經(jīng)官方支持超過70個主流的模型,包括視覺的自然語言處理的、推薦的、語言的等等。比如說像其中剛才提到的自然語言處理,就提供了一系列面向工業(yè)應(yīng)用的中文的LP的工具集,包括基礎(chǔ)網(wǎng)絡(luò)層,也包括應(yīng)用層,比如說中文的詞法分析、情感分析、語義匹配、對話等等。
這里我講一個對于語義的解釋,基于語義的解釋可以完成很多分析理解處理的任務(wù)。大家可能聽說過Google出了一個自動學(xué)習(xí),我們從數(shù)據(jù)里面去自動訓(xùn)練自動學(xué)習(xí),但同時,人類的智能大家都知道,很重要一點還是有知識的,所以我們做的知識增強(qiáng)的語義表示模型,大家可以看到,跟基礎(chǔ)的系統(tǒng)相比,各方面的性能都會得到一個很大的提升,而且已經(jīng)得到了廣泛的應(yīng)用。
再舉一個視頻的例子,視頻的工具集包括視頻的自動分類、視頻的語義項量、視頻標(biāo)簽集等等,這些也會應(yīng)用于很多任務(wù),比如做信息流、包括搜索包括語義上的各種系統(tǒng)。右邊是一個視頻的例子,大家可以看到怎么樣分析這個視頻。 為了用好深度學(xué)習(xí),一方面算法要有先進(jìn)的算法,另一方面算力的支撐也非常重要,所以我們有一系列分布式計算的技術(shù)里面,大家可以看到,從單機(jī)單卡到單機(jī)雙卡到多機(jī)多卡,整個訓(xùn)練的技術(shù)也會有很大的提升。為了支撐,我們有一個大規(guī)模的參數(shù)服務(wù)器,這個也是在應(yīng)用中很重要的一部分,它可以適應(yīng)不同的場景,比如說有超大規(guī)模的數(shù)據(jù)、海量的特征以及適應(yīng)數(shù)據(jù)自膨脹的特點,包括高頻率的可以進(jìn)行模型的迭代。 為了做工業(yè)機(jī)數(shù)據(jù)的自處理,我們有一系列技術(shù),右邊有一些技術(shù)優(yōu)勢,比如說分布式文件系統(tǒng),IO直尺,高性能、多生產(chǎn)者、多消費者的設(shè)計等等這些。 還有很重要的一點,我們?yōu)榱俗屗鼜V泛的應(yīng)用,往往在做一個應(yīng)用的時候,不僅僅是其中一個模塊做好就行了,更重要的還要有端到端的全流程部署方案。
大家看到,我們要做好這個全流程的真正部署到一個應(yīng)用里面去,需要有底層硬件的支持,不管CPU、GPU還是移動端的硬件,以及相應(yīng)要有推理引擎,然后有各種不同的程序設(shè)計語言的支持,相應(yīng)的工具以及提供軟硬一體的方案等等一系列,形成全流程的部署方案。 舉個例子,比如說我們把這樣一套設(shè)備端部署解決方案用來進(jìn)行識別蟲害,這樣一個任務(wù),我們涉及到底層的平臺,涉及到工具站,涉及到模型怎么樣訓(xùn)練、怎么樣部署等等,當(dāng)然這一系列是基于百度的平臺支持。
我們都知道現(xiàn)在深度學(xué)習(xí)的核心是神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)第一步要干什么?第一步要做網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計早些年更多是靠人類專家來做這個設(shè)計,靠他的經(jīng)驗,經(jīng)驗更足,人可能把網(wǎng)絡(luò)設(shè)計的更好,從而得到更好的結(jié)果。但是這個過程其實是專業(yè)度很高同時也不容易的一個過程,現(xiàn)在我們已經(jīng)可以進(jìn)行自動化的網(wǎng)絡(luò)設(shè)計,這里就是一個自動化網(wǎng)絡(luò)設(shè)計的例子,大家可以看到,左邊是專家手工設(shè)計的網(wǎng)絡(luò),右邊是機(jī)器自動設(shè)計的一個網(wǎng)絡(luò)。 我們基于這套自動設(shè)計網(wǎng)絡(luò)AutoDL,也進(jìn)行了開源,也在Paddle進(jìn)行了AutoDL部分的開源,同時也進(jìn)行了模型的開源,效果達(dá)到了比人工設(shè)計網(wǎng)絡(luò)更好的效果,相當(dāng)于它自動化程度更高,省時省力,同時效果也更好。
前面我提起深度學(xué)習(xí)現(xiàn)在用的非常廣,但并不是每一個人都很全面的掌握了深度學(xué)習(xí)技術(shù),那么我們能提供一個更方便的工具平臺,可以讓基礎(chǔ)不太多甚至零基礎(chǔ)的人也能來用、來解決自己的問題,我們提供了這樣一個定制化訓(xùn)練和服務(wù)平臺,EasyDL,可以把各種數(shù)據(jù)送進(jìn)來進(jìn)行加工學(xué)習(xí)、部署,最后提供服務(wù),既可以提供云端服務(wù)也能提供各種智能設(shè)備上的服務(wù)。
這里我不再講EasyDL背后的各種技術(shù),但是給大家看一個曲線,我們看一下基于EasyDL進(jìn)行模型訓(xùn)練的數(shù)量在持續(xù)的增長,現(xiàn)在已經(jīng)有超過三萬個第三方應(yīng)用的模型,基于EasyDL實現(xiàn),然后來解決自己的任務(wù)。
這是另一個例子,農(nóng)作物,在農(nóng)耕地塊的識別,這里涉及到在這個應(yīng)用場景里面提取相應(yīng)的數(shù)據(jù),然后用衛(wèi)星遙感數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后進(jìn)行融合、部署,最后完成一個,比如說這個地塊里面,作物長得怎么樣,有沒有災(zāi)害等等進(jìn)行這種識別,自動的就可以進(jìn)行農(nóng)耕地的監(jiān)測。 剛才舉的只是兩個行業(yè),我們看一下,實際上百度的飛漿這個深度學(xué)習(xí)平臺,已經(jīng)用在很多行業(yè)里面,用在很多行業(yè)里面,我們也相應(yīng)的要看一看各個行業(yè)發(fā)展的趨勢。當(dāng)然這個報告是麥肯錫提供的報告,我們可以看到,深度學(xué)習(xí)一旦應(yīng)用到某一個行業(yè)里面,可能帶來的提升幅度,大家看到,旅游、物流、零售、汽車等等,各個行業(yè)都可以因這個深度學(xué)習(xí)的應(yīng)用帶來很大的商業(yè)價值的提升。 時間也到了,我今天的報告就到這里,我希望我們的飛漿深度學(xué)習(xí)平臺能推動人工智能發(fā)展,加快產(chǎn)業(yè)智能化。
謝謝大家!