騰訊首個AI開源項目Angel升級,發(fā)布里程碑3.0版本
近日,騰訊低調(diào)發(fā)布首個AI開源項目Angel 3.0版本,進化版的Angel 3.0則嘗試打造一個全棧的機器學(xué)習(xí)平臺。
Angel是什么?
先來科普一下,Angle是基于參數(shù)服務(wù)器架構(gòu)的分布式計算平臺,致力于解決稀疏數(shù)據(jù)大模型訓(xùn)練以及大規(guī)模圖數(shù)據(jù)分析問題,由騰訊與北京大學(xué)聯(lián)合研發(fā)。
最新版本的3.0,功能特性涵蓋了機器學(xué)習(xí)的各個階段:特征工程,模型訓(xùn)練,超參數(shù)調(diào)節(jié)和模型服務(wù)。
Angel的特征工程模塊基于Spark開發(fā),增強了Spark的特征選擇功能,同時使用特征交叉和重索引實現(xiàn)了自動特征生成。這些組件可以無縫地整合進Spark的流水線。為了讓整個系統(tǒng)更加的智能,Angel 3.0還新增了超參數(shù)調(diào)節(jié)的功能,目前支持隨機搜索,網(wǎng)格搜索和貝葉斯優(yōu)化三種算法。
在模型服務(wù)方面,Angel 3.0提供了一個跨平臺的組件Angel Serving, Angel Serving不僅可以滿足Angel自身的需求,還可以為其他平臺提供模型服務(wù)。
在生態(tài)方面,Angel也嘗試將參數(shù)服務(wù)器(PS)能力賦能給其他的計算平臺,目前已經(jīng)完成了Spark On Angel和PyTorch On Angel兩個平臺的建設(shè)。
這兩個平臺各有優(yōu)勢和側(cè)重,Spark On Angel使用的是Angel內(nèi)置的算法核心,主要負責(zé)常見推薦領(lǐng)域的機器學(xué)習(xí)算法和基礎(chǔ)圖算法。 PyTorch On Angel使用PyTorch作為計算核心,主要負責(zé)推薦領(lǐng)域深度學(xué)習(xí)算法和圖深度學(xué)習(xí)算法。
回顧Angle 的歷史。2017 年 6 月, Angel 在 Github 上低調(diào)開源。開源兩周,這個項目在 Github 上已收獲 183 Watch,1693 Star,389 Fork,也吸引了許多業(yè)界工程師關(guān)注與貢獻。
2018年9月,Angel 2.0版本發(fā)布,支持千億級模型維度訓(xùn)練,同時算法庫也更加豐富,首次引入了深度學(xué)習(xí)算法和圖算法。同年,Angel加入Linux旗下深度學(xué)習(xí)基金會(現(xiàn)已更名為 LF AI 基金會(LF AI Foundation)),結(jié)合基金會成熟的運營,升級的Angel 2.0與國際開源社區(qū)繼續(xù)深入互動,致力于讓機器學(xué)習(xí)技術(shù)更易于上手研究及應(yīng)用落地的目標。
截至目前,Angel在GitHub上Star數(shù)已超過4200,F(xiàn)ork數(shù)超過1000。Angel項目目前總共有38為代碼貢獻者,其他包括8位committer,他們總共提交了超過2000個commit。而騰訊開源在GitHub上整體的項目數(shù)也已突破80個,涵蓋AI、云計算、安全等多個領(lǐng)域,累計獲得了超過23萬Star。
從1.0到3.0,Angel從一個單一的模型訓(xùn)練平臺發(fā)展到涵蓋機器學(xué)習(xí)各個流程,包含自己生態(tài)的通用計算平臺,代碼量也超過了50萬行。
為了后續(xù)維護和使用的方便,Angel將拆分成8個子項目,統(tǒng)一放在Angel-ML目錄下(https://github.com/Angel-ML):angel,PyTorch On Angel,sona(Spark On Angel),serving,automl,mlcore,math2和format。
而在應(yīng)用上,據(jù)了解,自2016年年初在騰訊內(nèi)部上線以來,Angel 已應(yīng)用于微信支付、QQ、騰訊視頻、騰訊社交廣告及用戶畫像挖掘等業(yè)務(wù)。
在過去12個月,Angel在騰訊內(nèi)部的任務(wù)數(shù)量有了非常明顯的增長,增幅達到150%。值得一提的是,Spark On Angel的任務(wù)數(shù)增長了10倍,為了讓Spark On Angel更加的易用,3.0版本對Spark On Angel做了大幅度升級。
Angel官方還維護了一個QQ群與外部開發(fā)者進行交流,對群用戶的統(tǒng)計表明:
Angel的絕大部分用戶來自中國,主要分布在北京,上海,杭州,成都和深圳等互聯(lián)網(wǎng)行業(yè)比較發(fā)達的城市。有超過100家的公司和科研機構(gòu)在使用或測試Angel,其中包括了中國最頂級的IT公司:微博,華為和百度等。記者記者(公眾號:記者)記者