新一代計(jì)算平臺(tái)Dataworks 會(huì)成為阿里計(jì)算引擎的“聚寶盆”嗎?
記者在云棲大會(huì)現(xiàn)場(chǎng)參加了一場(chǎng)計(jì)算智能峰會(huì),對(duì)阿里巴巴的計(jì)算引擎系統(tǒng)產(chǎn)生了極大的興趣。除去現(xiàn)場(chǎng)聆聽(tīng)阿里巴巴集團(tuán)副總裁周靖人、阿里巴巴研究員&PAI平臺(tái)負(fù)責(zé)人林偉、阿里巴巴資深技術(shù)專家&Dataworks負(fù)責(zé)人徐晟、阿里巴巴研究員&Maxcompute負(fù)責(zé)人關(guān)濤、阿里巴巴研究員&實(shí)時(shí)計(jì)算負(fù)責(zé)人蔣曉偉等五人的演講,更是在會(huì)后對(duì)其進(jìn)行了深度采訪。在整個(gè)對(duì)話交流中,對(duì)阿里巴巴的新一代計(jì)算引擎有了全局的掌握。
我們了解到,阿里巴巴計(jì)算平臺(tái)的新一代計(jì)算引擎,支撐了整個(gè)阿里經(jīng)濟(jì)體90%以上的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、交換、管控,數(shù)據(jù)規(guī)模已超EB級(jí)別。其中:
MaxCompute 是阿里巴巴自主研發(fā)的大數(shù)據(jù)計(jì)算引擎,在阿里集團(tuán)歷屆雙11海量數(shù)據(jù)的大規(guī)模并行計(jì)算中,在高并發(fā)、吞吐量等各方面承受住了大規(guī)模計(jì)算的考驗(yàn),在2015年Sort BenchMark排序競(jìng)賽中,一舉打破四項(xiàng)世界紀(jì)錄,奠定了阿里集團(tuán)大數(shù)據(jù)離線計(jì)算引擎的地位;
Blink作為Flink的演進(jìn)版本,是阿里集團(tuán)最新一代實(shí)時(shí)計(jì)算引擎,提供了流式數(shù)據(jù)計(jì)算能力,能夠支持百萬(wàn)級(jí)吞吐量的作業(yè),計(jì)算可達(dá)秒級(jí)延遲,關(guān)鍵指標(biāo)超越開(kāi)源Storm性能6到8倍,計(jì)算成本遠(yuǎn)低于開(kāi)源軟件。自2017年以來(lái),經(jīng)歷了雙11實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)復(fù)雜分析考研的Blink已成為阿里集團(tuán)最重要的實(shí)時(shí)計(jì)算引擎。
PAI是阿里巴巴機(jī)器學(xué)習(xí)平臺(tái),無(wú)縫對(duì)接了強(qiáng)大的計(jì)算引擎及大數(shù)據(jù)研發(fā)平臺(tái),具備超大規(guī)模稀疏模型的CPU系統(tǒng)級(jí)優(yōu)化、大規(guī)模圖像&語(yǔ)音&文本領(lǐng)域的GPU系統(tǒng)級(jí)優(yōu)化、在線推理加速需求的模型壓縮等核心能力,支持在線學(xué)習(xí)、深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)及遷移學(xué)習(xí)等多種學(xué)習(xí)方式。
而現(xiàn)場(chǎng),阿里巴巴展示了新一代計(jì)算引擎,布局整個(gè)大數(shù)據(jù)和AI生態(tài)鏈,這就是DataWorks。有個(gè)很形象的比喻是:如果把MaxCompute 、Blink、PAI等類比為一臺(tái)PC的CPU、GPU、SSD等硬件設(shè)備,那么DataWorks就是這臺(tái)大數(shù)據(jù)PC的Windows操作系統(tǒng)??梢?jiàn),DataWorks是對(duì)計(jì)算引擎整體上進(jìn)行了封裝。
據(jù)了解,實(shí)際上,DataWorks這個(gè)項(xiàng)目早在2009年就已啟動(dòng),到目前已經(jīng)成為阿里集團(tuán)數(shù)據(jù)開(kāi)發(fā)的標(biāo)準(zhǔn)平臺(tái),支撐著阿里集團(tuán)、螞蟻金服、菜鳥(niǎo)、優(yōu)酷、高德等所有事業(yè)部的數(shù)據(jù)開(kāi)發(fā)任務(wù)。
進(jìn)入公共云市場(chǎng),要前推到2013年,那時(shí)候DataWorks系列產(chǎn)品在全世界16個(gè)國(guó)家和地區(qū)實(shí)現(xiàn)部署可用,包括新加坡、悉尼、香港、德國(guó)、馬來(lái)西亞、日本、美國(guó)等。當(dāng)然也在國(guó)際上攬獲了一系列獎(jiǎng)項(xiàng),比如2017年,以DataWorks為主體的阿里云數(shù)加,獲得了國(guó)際軟博會(huì)金獎(jiǎng);2018年,DataWorks名列國(guó)家大數(shù)據(jù)博覽會(huì)十佳產(chǎn)品,榮獲最佳案例實(shí)踐獎(jiǎng);在2018國(guó)際權(quán)威評(píng)測(cè)機(jī)構(gòu)Forrester公布的Cloud Data Warehouse第二季度的榜單上,代表阿里云,攜手MaxCompute,獲得了世界排名第二的成績(jī)。
在對(duì)話交流環(huán)節(jié),就業(yè)界關(guān)心的話題向5位平臺(tái)負(fù)責(zé)人進(jìn)行了提問(wèn),以下為對(duì)話實(shí)錄,做了不改變?cè)獾木庉嬇c整理:
提問(wèn):Dataworks對(duì)計(jì)算引擎做歷史傳承,有何目的?
周靖人(阿里巴巴集團(tuán)副總裁):阿里巴巴從2008年、2009年就開(kāi)始做大數(shù)據(jù)和云計(jì)算,之前都是為了支撐核心的電商業(yè)務(wù),也是隨著阿里巴巴的業(yè)務(wù),大數(shù)據(jù)的平臺(tái)得到了高速的發(fā)展,這個(gè)平臺(tái)也就是Maxcompute的前身。其實(shí)今天所發(fā)布的所有的計(jì)算引擎包括Maxcompute、Blink、PAI、Dataworks,都不是簡(jiǎn)簡(jiǎn)單單一個(gè)產(chǎn)品,首先都是在阿里巴巴自身的業(yè)務(wù)場(chǎng)景里面取得了巨大的成功,也是幫助整個(gè)業(yè)務(wù)發(fā)展起到了一個(gè)至關(guān)重要的作用。
經(jīng)過(guò)這么大的業(yè)務(wù)體量高強(qiáng)度的驗(yàn)證過(guò)后,我們也希望把同樣的技術(shù)普惠到全球,特別是中國(guó)的企業(yè)用戶,所以才把這些產(chǎn)品通過(guò)阿里云的方式對(duì)外輸出,去服務(wù)各行各業(yè)的企業(yè)用戶。所以從歷史來(lái)講,因?yàn)橹辽僭谥袊?guó),阿里云整個(gè)計(jì)算平臺(tái)應(yīng)該是歷史最悠久,當(dāng)然可以說(shuō)也是技術(shù)積累最深,同時(shí)也是經(jīng)受住了非常大的業(yè)務(wù)考驗(yàn),具有真正企業(yè)級(jí)服務(wù)能力的大數(shù)據(jù)的智能計(jì)算平臺(tái)。
提問(wèn):產(chǎn)品的發(fā)布看似順理成章,實(shí)際上最難點(diǎn)在于?
周靖人:每個(gè)業(yè)務(wù)都有不同的計(jì)算引擎,導(dǎo)致很多不同業(yè)務(wù)采取的計(jì)算方案還是有一些不一樣。隨著阿里巴巴整個(gè)業(yè)務(wù)的體量發(fā)展,隨著整個(gè)核心技術(shù)的研發(fā),整個(gè)阿里巴巴集團(tuán)也越來(lái)越體會(huì)到我們今天需要有一個(gè)統(tǒng)一、高效的計(jì)算平臺(tái),會(huì)支持各種的計(jì)算模式,而不是單一的引擎。難點(diǎn)在于,怎么樣保證高性能、效率、功能和穩(wěn)定性,甚至安全等等。
我們也非常清楚整個(gè)大數(shù)據(jù)以及人工智能的開(kāi)發(fā),不是簡(jiǎn)簡(jiǎn)單單只包含了一些引擎的優(yōu)化,整個(gè)的流程是非常長(zhǎng)的。訓(xùn)練一個(gè)模型,不是說(shuō)模型就不變了,很多時(shí)候是因?yàn)樗械膽?yīng)用各方面不斷產(chǎn)生數(shù)據(jù),新的數(shù)據(jù)會(huì)給我們帶來(lái)一些新數(shù)據(jù),我們也會(huì)通過(guò)一些新的數(shù)據(jù)來(lái)修正我們之前的模型,同時(shí)修正的模型也能實(shí)時(shí)去進(jìn)行發(fā)布,中間的每一步都至關(guān)重要。
提問(wèn):計(jì)算平臺(tái)會(huì)隨著阿里云的全球化而全球化?
周靖人:是的,也就是說(shuō)我們今天為中國(guó)公司的業(yè)務(wù)國(guó)際化提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。隨著他們的業(yè)務(wù)發(fā)展,其實(shí)他們并不需要擔(dān)心是不是到了另外一個(gè)國(guó)家,是否需要把整個(gè)應(yīng)用移植到另外一個(gè)平臺(tái)。今天隨著阿里云的成長(zhǎng),有了成熟的技術(shù),他們可以使用同樣一個(gè)引擎,能夠在不深度變化他們的APP,就可以很快把他的業(yè)務(wù)拓展到海外,我覺(jué)得這都是我們整個(gè)計(jì)算平臺(tái)、阿里云云基礎(chǔ)建設(shè)給用戶提供的巨大的優(yōu)勢(shì)。
提問(wèn):做一站式平臺(tái),是否意味著目前第三方的IT外包公司就會(huì)消失?
周靖人:恰恰相反。阿里巴巴提供的是一個(gè)基礎(chǔ)的開(kāi)發(fā)的環(huán)節(jié),今天還需要大量甚至更多的第三方公司在上面,根據(jù)他們的業(yè)務(wù)特征、業(yè)務(wù)專長(zhǎng)去搭建更專業(yè)的平臺(tái)、更專業(yè)的引擎。我也相信由于云計(jì)算、大數(shù)據(jù)的發(fā)展,今天其實(shí)跟第三方的公司會(huì)促成更大的機(jī)遇。因?yàn)橛辛诉@樣一個(gè)云平臺(tái),有了這樣一個(gè)大數(shù)據(jù)的系統(tǒng),我們的合作伙伴真正意義上有了機(jī)會(huì)接觸更大的用戶群體。
提問(wèn):機(jī)器學(xué)習(xí)領(lǐng)域,在充分訓(xùn)練的前提下,是不是深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)越多,數(shù)據(jù)量越大,效果就越好?
林偉(阿里巴巴研究員、PAI平臺(tái)負(fù)責(zé)人):不是的。模型越大參數(shù)越多,其實(shí)會(huì)造成更多的問(wèn)題——因?yàn)閰?shù)表達(dá)能力空間更大。這就是為什么我們?cè)谟?xùn)練的時(shí)候要控制一些參數(shù)規(guī)模。因?yàn)闄C(jī)器學(xué)習(xí)是捕獲背后的邏輯關(guān)系,但是它的邏輯關(guān)系從真實(shí)和自然來(lái)說(shuō)不會(huì)有那么多。如果一個(gè)很大的參數(shù),理論上其實(shí)是在違背它的自然規(guī)律。所以并不是數(shù)據(jù)越多就越好。
但為什么深度學(xué)習(xí)最近這么熱?是因?yàn)橛泻芏酀撛诘年P(guān)系,人是看不到的,所以它通過(guò)一個(gè)很深度的網(wǎng)絡(luò),通過(guò)數(shù)據(jù)的能力,可能原來(lái)達(dá)不到的好效果,現(xiàn)在就能達(dá)到了。但大家不要忽略了數(shù)據(jù)。我們做機(jī)器學(xué)習(xí)的都知道數(shù)據(jù)最關(guān)鍵,如果數(shù)據(jù)都是一些不準(zhǔn)確的數(shù)據(jù),那是無(wú)法訓(xùn)練出一個(gè)靠譜的模型。
提問(wèn):阿里為什么會(huì)選擇Flink作為新一代流式計(jì)算引擎?Flink目前有哪些核心的技術(shù)值得外界關(guān)注?
蔣曉偉(阿里巴巴研究員、實(shí)時(shí)計(jì)算負(fù)責(zé)人):2013年之前我們開(kāi)始Flink項(xiàng)目,調(diào)研了業(yè)界所有的計(jì)算引擎,當(dāng)時(shí)的目標(biāo)不是簡(jiǎn)單選一個(gè)流計(jì)算的引擎,我們只想選一個(gè)通用引擎,我們堅(jiān)信在不同的計(jì)算模式下,有一個(gè)東西能支持多種計(jì)算場(chǎng)景。但由于很多流計(jì)算引擎需要你在延遲和吞吐之間做一定的取舍,所以在本質(zhì)上流計(jì)算引擎是不可能做到最優(yōu)的,特別是在對(duì)延遲要求比較高的時(shí)候,它是很難滿足這種需求。所以這時(shí)候我們開(kāi)始調(diào)研其他的各種引擎。經(jīng)過(guò)調(diào)研之后,我們覺(jué)得Flink價(jià)格最符合我們的理念。
Flink的出發(fā)點(diǎn)跟spark正好相反,它是把流計(jì)算當(dāng)做基礎(chǔ),能夠?qū)崿F(xiàn)連續(xù)處理。這樣的批處理用流計(jì)算來(lái)做(注:批處理和流處理基本的區(qū)別在于每一條新數(shù)據(jù)在到達(dá)時(shí)是被處理的,還是作為一組新數(shù)據(jù)的一部分稍后處理。批處理指稍后執(zhí)行,流處理指立即執(zhí)行)。Flink這種價(jià)格能夠長(zhǎng)期讓我們?cè)诹饔?jì)算和批處理做到非常完善,所以我們決定用Flink。
過(guò)去三四年時(shí)間里,我們?cè)贔link引擎上做了非常多的投入:Flink的多版性能改進(jìn)、引入新的價(jià)格、共享更好的代碼等等。在阿里內(nèi)部,由于我們有更好、更先進(jìn)的硬件架構(gòu),我們開(kāi)始支持存儲(chǔ)分離計(jì)算架構(gòu)。在這種架構(gòu)下,流計(jì)算引擎在失敗的時(shí)候能更快速修復(fù),使我們能夠更加動(dòng)態(tài)適應(yīng)流量的變化,來(lái)更新我們執(zhí)行計(jì)劃。
提問(wèn):為什么阿里計(jì)算引擎今天要做一站式?
徐晟(阿里巴巴資深技術(shù)專家、Dataworks負(fù)責(zé)人):我們希望對(duì)用戶來(lái)說(shuō)是一個(gè)統(tǒng)一的體驗(yàn)。至于說(shuō)用戶要解決的問(wèn)題,很可能我們下面有不同的引擎來(lái)解決不同的問(wèn)題。因?yàn)閷?duì)于用戶來(lái)說(shuō),我希望他看到的是一套產(chǎn)品,而不是讓用戶做選擇題。至于用哪種技術(shù),可能對(duì)用戶來(lái)說(shuō)就不是那么重要。畢竟對(duì)用戶來(lái)說(shuō),我們看到的是同一個(gè)層,我們不希望用戶更多介入怎么解這個(gè)問(wèn)題。
今天用戶如果要做模擬訓(xùn)練還是要做什么事情,我就相應(yīng)給你做事情就好了,至于說(shuō)代碼最后跑到什么地方,我覺(jué)得對(duì)用戶來(lái)說(shuō)不太關(guān)注。畢竟,谷歌做AlphaGo不是為了下圍棋,而是證明有能力提供這樣一個(gè)平臺(tái)來(lái)幫大家解決問(wèn)題。這也是我們的初衷。