深度學(xué)習(xí)庫(kù) 你只要知道這50個(gè)就夠了
掃描二維碼
隨時(shí)隨地手機(jī)看文章
Data Science Central網(wǎng)站主編、有多年數(shù)據(jù)科學(xué)和商業(yè)分析模型從業(yè)經(jīng)驗(yàn)的Bill Vorhies曾撰文指出,過(guò)去一年人工智能和深度學(xué)習(xí)最重要的發(fā)展不在技術(shù),而是商業(yè)模式的轉(zhuǎn)變——所有巨頭紛紛將其深度學(xué)習(xí)IP開源。 毋庸置疑,“開源浪潮”是2016年人工智能領(lǐng)域不可忽視的一大趨勢(shì),而其中最受歡迎的項(xiàng)目則是谷歌的深度學(xué)習(xí)平臺(tái)TensorFlow。下文就從TensorFlow說(shuō)起,盤點(diǎn)2016年AI開源項(xiàng)目,最后統(tǒng)計(jì)了Github最常用深度學(xué)習(xí)開源項(xiàng)目Top 50。
谷歌開源:圍繞TensorFlow打造深度學(xué)習(xí)生態(tài)圈
1.Google第二代深度學(xué)習(xí)引擎TensorFlow開源
2015年11月,谷歌開源深度學(xué)習(xí)平臺(tái)TensorFlow。2016年4月,谷歌推出了分布式TensorFlow?,F(xiàn)在,TensorFlow已經(jīng)成為業(yè)內(nèi)最受歡迎的深度學(xué)習(xí)平臺(tái)之一。
2.谷歌開源全球最精準(zhǔn)語(yǔ)言解析器SnytaxNet
2016年5月13日,Google Research宣布,世界準(zhǔn)確度最高的自然語(yǔ)言解析器SyntaxNet開源。谷歌開源再進(jìn)一步。據(jù)介紹,谷歌在該平臺(tái)上訓(xùn)練的模型的語(yǔ)言理解準(zhǔn)確率超過(guò)90%。SyntaxNet是一個(gè)在TensoFlow中運(yùn)行的開源神經(jīng)網(wǎng)絡(luò)框架,提供自然語(yǔ)言理解系統(tǒng)基矗谷歌公開了所有用用戶自己的數(shù)據(jù)訓(xùn)練新SyntaxNet模型所需要的代碼,以及谷歌已經(jīng)訓(xùn)練好的,可用于分析英語(yǔ)文本的模型Paesey McParseface。
Paesey McParseface建立于強(qiáng)大的機(jī)器學(xué)習(xí)算法,可以學(xué)會(huì)分析句子的語(yǔ)言結(jié)構(gòu),能解釋特定句子中每一個(gè)詞的功能。此類模型中,Paesey McParseface是世界上最精確的,谷歌希望它能幫助對(duì)自動(dòng)提取信息、翻譯和其他自然語(yǔ)言理解(NLU)中的應(yīng)用感興趣的研究者和開發(fā)者。
3.谷歌推出Deep&Wide Learning,開源深度學(xué)習(xí)API
2016年6月29日,谷歌推出Wide & Deep Learning,并將TensorFlow API開源,歡迎開發(fā)者使用這款最新的工具。同時(shí)開源的還有對(duì)Wide & Deep Learning的實(shí)現(xiàn),作為TF.Learn應(yīng)用程序接口的一部分,讓開發(fā)者也能自己訓(xùn)練模型。
4.谷歌開源TensorFlow自動(dòng)文本摘要生成模型
2016年8月25日,谷歌開源了TensorFlow中用于文本信息提取并自動(dòng)生成摘要的模型,尤其擅長(zhǎng)長(zhǎng)文本處理,這對(duì)自動(dòng)處理海量信息十分有用。自動(dòng)文本摘要最典型的例子便是新聞報(bào)道的標(biāo)題自動(dòng)生成,為了做好摘要,機(jī)器學(xué)習(xí)模型需要能夠理解文檔、提取重要信息,這些任務(wù)對(duì)于計(jì)算機(jī)來(lái)說(shuō)都是極具挑戰(zhàn)的,特別是在文檔長(zhǎng)度增加的情況下。
5.谷歌開源圖像分類工具TF-Slim,定義TensorFlow復(fù)雜模型
2016年8月31日,谷歌宣布開源TensorFlow高級(jí)軟件包TF-Slim,能使用戶快速準(zhǔn)確地定義復(fù)雜模型,尤其是圖像分類任務(wù)。自發(fā)布以來(lái),TF-Slim已經(jīng)得到長(zhǎng)足發(fā)展,無(wú)論是網(wǎng)絡(luò)層、代價(jià)函數(shù),還是評(píng)估標(biāo)準(zhǔn),都增加了很多類型,訓(xùn)練和評(píng)估模型也有了很多便利的常規(guī)操作手段。這些手段使你在并行讀取數(shù)據(jù)或者在多臺(tái)機(jī)器上部署模型等大規(guī)模運(yùn)行時(shí),不必為細(xì)節(jié)操心。此外,谷歌研究員還制作了TF-Slim圖像模型庫(kù),為很多廣泛使用的圖像分類模型提供了定義以及訓(xùn)練腳本,這些都是使用標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)寫就的。TF-Slim及其組成部分都已經(jīng)在谷歌內(nèi)部得到廣泛的使用,很多升級(jí)也都整合進(jìn)了tf.contrib.slim。
6.谷歌開源大規(guī)模數(shù)據(jù)庫(kù),10億+數(shù)據(jù),探索RNN極限
2016年9月13日,谷歌宣布開源大規(guī)模語(yǔ)言建模模型庫(kù),這項(xiàng)名為“探索RNN極限”的研究今年2月發(fā)表時(shí)就引發(fā)激論,如今姍姍來(lái)遲的開源更加引人矚目。研究測(cè)試取得了極好的成績(jī),另外開源的數(shù)據(jù)庫(kù)含有大約10億英語(yǔ)單詞,詞匯有80萬(wàn),大部分是新聞數(shù)據(jù)。這是典型的產(chǎn)業(yè)研究,只有在谷歌這樣的大公司才做得出來(lái)。這次開源也應(yīng)該會(huì)像作者希望的那樣,在機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域起到推進(jìn)作用。
7.谷歌開源TensorFlow圖說(shuō)生成模型,可真正理解圖像
2016年9月23日,谷歌宣布開源圖說(shuō)生成系統(tǒng)Show and Tell最新版在TensorFlow上的模型。該系統(tǒng)采用編碼器-解碼器神經(jīng)網(wǎng)絡(luò)架構(gòu),分類準(zhǔn)確率達(dá)93.9%,在遇到全新的場(chǎng)景時(shí)能夠生成準(zhǔn)確的新圖說(shuō)。谷歌表示,這說(shuō)明該系統(tǒng)能夠真正理解圖像。
8.谷歌開源超大數(shù)據(jù)庫(kù),含800萬(wàn)+視頻
2016年9月28日,谷歌在官方博客上宣布,將含有800萬(wàn)個(gè)Youtube視頻URL的視頻數(shù)據(jù)庫(kù)開源,視頻總時(shí)長(zhǎng)達(dá)到了50萬(wàn)個(gè)小時(shí)。一并發(fā)布的還有從包含了4800個(gè)知識(shí)圖譜分類數(shù)據(jù)集中提取的視頻級(jí)別標(biāo)簽。這一數(shù)據(jù)庫(kù)在規(guī)模和覆蓋的種類上都比現(xiàn)有的視頻數(shù)據(jù)庫(kù)有顯著提升。例如,較為著名的Sports-1M數(shù)據(jù)庫(kù),就只由100萬(wàn)個(gè)Youtube視頻和500個(gè)運(yùn)動(dòng)類目。谷歌官方博客上說(shuō),在視頻的數(shù)量和種類上,Youtube-8M代表的是幾乎指數(shù)級(jí)的增長(zhǎng)。
9.谷歌發(fā)布Open Images圖片數(shù)據(jù)集,包含900萬(wàn)標(biāo)注圖片
2016年10月1日,繼前天發(fā)布800萬(wàn)視頻數(shù)據(jù)集之后,谷歌又發(fā)布了圖片數(shù)據(jù)庫(kù)Open Images,包含了900萬(wàn)標(biāo)注數(shù)據(jù),標(biāo)簽種類超過(guò)6000種。谷歌在官方博客中寫到,這比只擁有1000個(gè)分類的ImageNet更加貼近實(shí)際生活。對(duì)于想要從零開始訓(xùn)練計(jì)算機(jī)視覺(jué)模型的人來(lái)說(shuō),這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)足夠了。就在12月,谷歌還開源了Open Images并行下載工具的腳本,5天速度最高超過(guò)200 M。
10.DeepMind開源AI核心平臺(tái)DeepMind Lab(附論文)
2016年12月5日,DeepMind宣布將其AI核心平臺(tái)DeepMind Lab開源。DeepMind實(shí)驗(yàn)室把全部代碼上傳至Github,供研究人員和開發(fā)者進(jìn)行實(shí)驗(yàn)和研究。DeepMind Lab這一平臺(tái)將幾個(gè)不同的AI研究領(lǐng)域整合至一個(gè)環(huán)境下,方便研究人員測(cè)試AI智能體導(dǎo)航、記憶和3D成像等能力。值得一提的是,這些代碼也包括AlphaGO的代碼,谷歌希望以此增加AI能力的開放性,讓更多開發(fā)者參與AI研究,觀察其他開發(fā)者是否能夠挑戰(zhàn)并打破DeepMind現(xiàn)在的紀(jì)錄。
Facebook開源:貫徹理念1.Facebook開源圍棋引擎DarkForest
6個(gè)月前,F(xiàn)acebook將其圍棋引擎DarkForest開源?,F(xiàn)在訓(xùn)練代碼已經(jīng)全部發(fā)布。Github鏈接:https://github.com/facebookresearch/darkforestGo。
2.Facebook開源文本分類工具fastText,不用深度學(xué)習(xí)也可以又快又準(zhǔn)
2016年8月19日,F(xiàn)acebook AI實(shí)驗(yàn)室(FAIR)宣布開源文本分析工具fastText。fastText既可以用于文本分類,又能用于學(xué)習(xí)詞匯向量表征。在文本分類的準(zhǔn)確率上與一些常用的深度學(xué)習(xí)工具不相上下,但是在時(shí)間上卻快很多——模型訓(xùn)練時(shí)間從幾天減少到幾秒。除了文本分類,fastText也能被用于學(xué)習(xí)詞語(yǔ)的向量表征,F(xiàn)acebook稱fastText比常用的Word2vec等最先進(jìn)的詞態(tài)表征工具表現(xiàn)都要好得多。
3.Facebook開源計(jì)算機(jī)視覺(jué)系統(tǒng)deepmask,從像素水平理解圖像(附論文及代碼)
2016年8月26日,F(xiàn)acebook宣布開源計(jì)算機(jī)視覺(jué)系統(tǒng)deepmask,稱該系統(tǒng)能“從像素水平理解物體”,F(xiàn)acebook希望開源能加速計(jì)算機(jī)視覺(jué)的發(fā)展。不過(guò),F(xiàn)acebook并沒(méi)有在自家產(chǎn)品中使用這些工具,像這樣落實(shí)到具體應(yīng)用前就開源,跟通常所說(shuō)的“開源”有些不同。對(duì)此,F(xiàn)acebook人工智能團(tuán)隊(duì)FAIR的負(fù)責(zé)人Yann LeCun 曾表示,正是因?yàn)镕AIR 做基礎(chǔ)的、不受制于公司短期效益的研究,才能真正推進(jìn)人工智能技術(shù)發(fā)展。
4.Facebook 開源AI 訓(xùn)練和測(cè)試環(huán)境CommAI-env
2016年9月27日,F(xiàn)acebook 宣布開放AI 訓(xùn)練和測(cè)試環(huán)境CommAI-env,可以用任何編程語(yǔ)言設(shè)置智能體。據(jù)介紹,CommAI-env 這個(gè)平臺(tái)用于訓(xùn)練和評(píng)估AI 系統(tǒng),尤其是注重溝通和學(xué)習(xí)的AI 系統(tǒng)。與用強(qiáng)化學(xué)習(xí)從玩游戲到下圍棋都能做的OpenAI Gym 不同,F(xiàn)acebook 的CommAI-env 側(cè)重基于溝通的訓(xùn)練和測(cè)試,這也是為了鼓勵(lì)開發(fā)人員更好地打造能夠溝通和學(xué)習(xí)的人工智能,呼應(yīng)該公司的十年規(guī)劃。Facebook 還表示,CommAI-env 會(huì)持續(xù)更新,并在成熟后舉辦競(jìng)賽推進(jìn)AI 的開發(fā)。
在AI 測(cè)試環(huán)境方面,F(xiàn)acebook 還開源了CommNet,這是一個(gè)讓基于神經(jīng)網(wǎng)絡(luò)的代理更好交互、實(shí)現(xiàn)合作而研發(fā)的模型,與CommAI-env 配套。12月,F(xiàn)acebook 還開源了 TorchCraft,在深度學(xué)習(xí)環(huán)境 Torch 與星際爭(zhēng)霸之間搭起了橋梁,方便研究人員使用控制器,編寫能夠玩星際爭(zhēng)霸游戲的智能代理。
5.Facebook 賈揚(yáng)清發(fā)文介紹 Caffe2go,手機(jī)就能運(yùn)行神經(jīng)網(wǎng)絡(luò)
2016年11月8日,Caffe作者、Facebook 研究員賈揚(yáng)清在官方網(wǎng)站上發(fā)文介紹了新的機(jī)器學(xué)習(xí)框架 Caffe2go,并表示在接下來(lái)的幾個(gè)月將其部分開源。Caffe2go 規(guī)模更小,訓(xùn)練速度更快,對(duì)計(jì)算性能要求較低,在手機(jī)上就行運(yùn)行,已經(jīng)成為 Facebook 機(jī)器學(xué)習(xí)的核心技術(shù)。
OpenAI
1.OpenAI 推出代理訓(xùn)練環(huán)境 OpenAI Gym
創(chuàng)立于2015年底的非盈利機(jī)構(gòu) OpenAI 的成立打破了谷歌、Facebook 等巨頭霸占 AI 領(lǐng)域的格局,但其創(chuàng)始人、特斯拉CEO馬斯克多次發(fā)表人工智能威脅論。馬斯克創(chuàng)立 OpenAI 目的何在?2016年5月4日,OpenAI 發(fā)布了人工智能研究工具集 OpenAI Gym,用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法,分析 OpenAI Gym 或可找出馬斯克的真正動(dòng)機(jī)。
2.另一種開源:OpenAI 介紹深度學(xué)習(xí)基礎(chǔ)框架