當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]源 | 阿里巴巴中間件 文? |??簡(jiǎn)鋒 “每個(gè)人的時(shí)間都是有限的,在有限的時(shí)間里選擇一項(xiàng)值得投入的技術(shù)會(huì)變得尤為重要?!?筆者從 2008 年開(kāi)始工作到現(xiàn)在也有 12 個(gè)年頭了,一路走來(lái)都在和數(shù)據(jù)打交道,做過(guò)很多大數(shù)據(jù)底層框架內(nèi)核的開(kāi)發(fā)(Hadoop,Pig,Hive,Te


如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入

源 | 阿里巴巴中間件

文  |  簡(jiǎn)鋒


每個(gè)人的時(shí)間都是有限的,在有限的時(shí)間里選擇一項(xiàng)值得投入的技術(shù)會(huì)變得尤為重要。


筆者從 2008 年開(kāi)始工作到現(xiàn)在也有 12 個(gè)年頭了,一路走來(lái)都在和數(shù)據(jù)打交道,做過(guò)很多大數(shù)據(jù)底層框架內(nèi)核的開(kāi)發(fā)(Hadoop,Pig,Hive,Tez,Spark),也做過(guò)多年上層數(shù)據(jù)計(jì)算框架(Livy,  Zeppelin)以及數(shù)據(jù)應(yīng)用開(kāi)發(fā),包括數(shù)據(jù)處理,數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)。現(xiàn)在是 Apache Member 以及多個(gè) Apache 項(xiàng)目的 PMC 。2018 年加入阿里巴巴實(shí)時(shí)計(jì)算團(tuán)隊(duì)專(zhuān)注在 Flink 的研發(fā)。
        
今天我想結(jié)合自己過(guò)去的職業(yè)經(jīng)歷來(lái)聊聊如何評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)。我一直在大數(shù)據(jù)這個(gè)圈子,從最初的 Hadoop 到后來(lái)的 Hadoop 生態(tài)項(xiàng)目 Pig,Hive,Tez,然后又到新一代的計(jì)算引擎 Spark ,再到最近在做的 Flink ,大數(shù)據(jù)計(jì)算引擎貫穿我的整個(gè)職業(yè)生涯。我個(gè)人來(lái)說(shuō)是比較幸運(yùn)的,在每個(gè)階段都在做比較火的技術(shù),當(dāng)時(shí)更多的是憑著自己的興趣和直覺(jué)在選擇技術(shù)類(lèi)型?,F(xiàn)在回過(guò)頭來(lái)看我覺(jué)得需要從下面 3 個(gè)大的緯度來(lái)評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)。
 
1、技術(shù)深度
2、生態(tài)廣度
3、進(jìn)化能力
     

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入


   
技術(shù)深度


技術(shù)深度是指這項(xiàng)技術(shù)的根基是否扎實(shí),護(hù)城河是否夠?qū)拤蛏睿欠窈苋菀妆黄渌夹g(shù)所替代。通俗的來(lái)說(shuō)就是這項(xiàng)技術(shù)是否解決了其他技術(shù)所不能解決的有重要價(jià)值的問(wèn)題。這里有兩個(gè)要點(diǎn):

 
1、這個(gè)問(wèn)題沒(méi)有人能解,是這項(xiàng)技術(shù)首先解決了這個(gè)問(wèn)題。
2、解決這個(gè)問(wèn)題能夠帶來(lái)重大價(jià)值。
 
拿我職業(yè)生涯開(kāi)始階段學(xué)習(xí)的 Hadoop 為例。當(dāng)時(shí) Hadoop 剛出來(lái)的時(shí)候是一項(xiàng)革命性的技術(shù),因?yàn)楫?dāng)時(shí)除了 Google 宣稱(chēng)自己內(nèi)部有一套 GFS 和 MapReduce 系統(tǒng)外,業(yè)界其他公司都沒(méi)有一套完整的海量數(shù)據(jù)解決方案。而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)量與日俱增,處理海量數(shù)據(jù)的能力迫在眉睫。Hadoop 的誕生正好解決了這一燃眉之急。
 
隨著技術(shù)的發(fā)展, Hadoop 的處理海量數(shù)據(jù)能力的優(yōu)勢(shì)慢慢被人習(xí)慣,相反 Hadoop 存在的缺陷被人不斷詬病(性能差,MapReduce 編寫(xiě)復(fù)雜等等)。而這時(shí)候Spark應(yīng)運(yùn)而生,解決了 Hadoop MapReduce 計(jì)算引擎的頑疾。Spark 遠(yuǎn)超過(guò) Hadoop 的計(jì)算性能以及極其優(yōu)雅簡(jiǎn)單的 API 迎合了當(dāng)時(shí)用戶(hù)的需求,受到了廣大大數(shù)據(jù)工程師的熱捧。
 
現(xiàn)在我在阿里巴巴從事的是關(guān)于 Flink 的研發(fā)工作,主要原因是我看到了工業(yè)界對(duì)實(shí)時(shí)性的需求以及 Flink 在實(shí)時(shí)計(jì)算這個(gè)領(lǐng)域的霸主地位。之前大數(shù)據(jù)遇到的最大挑戰(zhàn)在于數(shù)據(jù)規(guī)模大(所以大家會(huì)稱(chēng)之為“大數(shù)據(jù)”),經(jīng)過(guò)工業(yè)界多年的努力和實(shí)踐,規(guī)模大這個(gè)問(wèn)題基本已經(jīng)解決了。接下來(lái)幾年,更大的挑戰(zhàn)在于速度,也就是實(shí)時(shí)性。而大數(shù)據(jù)的實(shí)時(shí)性并不是指簡(jiǎn)單的傳輸數(shù)據(jù)或者處理數(shù)據(jù)的實(shí)時(shí)性,而是從端到端的實(shí)時(shí),任何一個(gè)步驟速度慢了,就影響整個(gè)大數(shù)據(jù)系統(tǒng)的實(shí)時(shí)性。
 
在 Flink 看來(lái), Everything is stream 。Flink 的以 Stream 為核心的架構(gòu)是業(yè)界獨(dú)一無(wú)二的,由此而產(chǎn)生的性能優(yōu)越,高擴(kuò)展性,端到端 Exactly Once 等特性,更是使得 Flink 在流計(jì)算領(lǐng)域是當(dāng)之無(wú)愧的王者。
 
目前主流的流計(jì)算引擎有 3 個(gè):Flink、Storm 和 SparkStreaming 。
 

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入


注:Spark Streaming 只能選擇搜索字詞,理論上這樣的對(duì)比是不嚴(yán)謹(jǐn)?shù)?。但作為趨?shì),我們更關(guān)注的是其變化曲線(xiàn),實(shí)際影響應(yīng)該不大。

 
從上面的 Google trends 曲線(xiàn)可以看出,F(xiàn)link 處在一個(gè)快速增長(zhǎng)期, Storm 的熱度在逐年下降,而 Spark Streaming 幾乎進(jìn)入了平臺(tái)期。這就證明了 Flink 在流計(jì)算領(lǐng)域的根基之深,目前來(lái)看還沒(méi)有誰(shuí)可以超越 Flink 在流計(jì)算領(lǐng)域的霸主地位。
 

生態(tài)廣度


一項(xiàng)技術(shù)只有技術(shù)深度是不夠的,因?yàn)橐豁?xiàng)技術(shù)只能專(zhuān)注于做好一件事情,如果要解決實(shí)際生活中的復(fù)雜問(wèn)題,必定要和其他技術(shù)整合聯(lián)動(dòng),這就要求這項(xiàng)技術(shù)具有足夠?qū)挼纳鷳B(tài)廣度。生態(tài)的廣度有 2 個(gè)緯度可以衡量:
 
1、上下游生態(tài)。上下游生態(tài)指從數(shù)據(jù)流的角度來(lái)說(shuō)的數(shù)據(jù)上下游。
2、垂直領(lǐng)域生態(tài)。垂直領(lǐng)域生態(tài)是指某個(gè)細(xì)分領(lǐng)域或者應(yīng)用場(chǎng)景的整合。
 

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入

 
當(dāng) Hadoop 剛出來(lái)的時(shí)候只有 2 個(gè)基本的組件:HDFS 和 MapReduce ,分別解決了海量存儲(chǔ)和分布式計(jì)算的問(wèn)題。但隨著發(fā)展,需要解決的問(wèn)題越來(lái)越復(fù)雜,HDFS 和 MapReduce 已經(jīng)不能很方便的解決一些復(fù)雜問(wèn)題,這時(shí)候 Hadoop 的其他生態(tài)項(xiàng)目應(yīng)運(yùn)而生,比如 Pig,Hive,HBase 等等從垂直領(lǐng)域生態(tài)這個(gè)角度解決了 Hadoop 不容易或者不能解決的問(wèn)題。
 
Spark 亦是如此,一開(kāi)始的 Spark 是要替換原來(lái)的 MapReduce 計(jì)算引擎,后來(lái) Spark 發(fā)展了各種語(yǔ)言接口,各種上層框架,比如 Spark SQL,Spark Structured Streaming,MLlib,GraphX 等等,大大豐富了 Spark 的使用場(chǎng)景,擴(kuò)展了Spark的垂直領(lǐng)域生態(tài)。Spark 對(duì)各種 Data Source 的支持,更是讓 Spark 這個(gè)計(jì)算引擎和存儲(chǔ)結(jié)成了聯(lián)盟,建立了強(qiáng)大的上下游生態(tài)系統(tǒng),為端到端的解決方案奠定了基礎(chǔ)。

我現(xiàn)在做的 Flink 項(xiàng)目的生態(tài)仍然處于起步階段,當(dāng)時(shí)我加入阿里巴巴正不僅僅是看到了 Flink 作為流計(jì)算引擎的霸主地位,更是因?yàn)榭吹搅?Flink 生態(tài)的機(jī)會(huì)。大家如果從我的職業(yè)生涯來(lái)看,會(huì)發(fā)現(xiàn)些許變化,我在從一開(kāi)始專(zhuān)注于大數(shù)據(jù)的核心框架層慢慢在往周邊生態(tài)項(xiàng)目發(fā)展。一個(gè)主要的原因是我對(duì)整個(gè)大數(shù)據(jù)行業(yè)的判斷:大數(shù)據(jù)上半場(chǎng)戰(zhàn)斗集中在底層框架,目前已經(jīng)接近尾聲,未來(lái)的底層大數(shù)據(jù)生態(tài)圈中將不再有那么多的新的技術(shù)和框架,每個(gè)細(xì)分領(lǐng)域都將優(yōu)勝劣汰,走向成熟,更加集中化。下半場(chǎng)戰(zhàn)斗的重點(diǎn)講從底層走向上層,走向生態(tài)。之前的大數(shù)據(jù)創(chuàng)新更偏向于 IAAS 和 PAAS ,未來(lái)你將看到更多 SAAS 類(lèi)型的大數(shù)據(jù)產(chǎn)品和創(chuàng)新。
 

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入


每次談到大數(shù)據(jù)的生態(tài),我都拿出上面這張圖。這張圖基本上把你日常需要處理的大數(shù)據(jù)場(chǎng)景都包括進(jìn)來(lái)。從最左邊的數(shù)據(jù)生產(chǎn)者,到數(shù)據(jù)收集,數(shù)據(jù)處理,然后再到數(shù)據(jù)應(yīng)用(BI + AI)。你會(huì)發(fā)現(xiàn) Flink 可以應(yīng)用在每一個(gè)步驟。不僅涉及到大數(shù)據(jù),也涉及到 AI ,但是 Flink 的強(qiáng)項(xiàng)在于流計(jì)算處理,在其他領(lǐng)域的生態(tài)仍在起步階段,我個(gè)人正在做的工作就是完善 Flink 在上面這張圖上端到端的能力。
     
  
進(jìn)化能力


 一項(xiàng)技術(shù)如果技術(shù)深度和生態(tài)廣度都沒(méi)有問(wèn)題,那么至少說(shuō)明這項(xiàng)技術(shù)在當(dāng)下是值得學(xué)習(xí)的。但是投資一項(xiàng)技術(shù)還需要從時(shí)間這個(gè)緯度上考量。你肯定不希望自己學(xué)習(xí)的技術(shù)很快就被淘汰,每年都要去學(xué)習(xí)一項(xiàng)新技術(shù)。所以一項(xiàng)值得投資學(xué)習(xí)的技術(shù)必定需要具有持久的進(jìn)化能力。
 
我最初學(xué)的 Hadoop 到現(xiàn)在已經(jīng) 10 多年了,現(xiàn)在仍然被廣泛使用著。雖然現(xiàn)在有很多公有云廠(chǎng)商在搶占 Hadoop 的市場(chǎng),但你不得不承認(rèn)如果一家公司要成立一個(gè)大數(shù)據(jù)部門(mén),第一件事恐怕就是建一個(gè) Hadoop 集群吧。當(dāng)我們現(xiàn)在談?wù)?Hadoop 的時(shí)候,他已經(jīng)不是當(dāng)初的 Hadoop 了,他更多的是 Hadoop 生態(tài)圈的統(tǒng)稱(chēng)。大家有空可以看看 Cloudera CPO Arun 的這篇文章【1】,我對(duì)其中的觀(guān)點(diǎn)非常認(rèn)同。

【1】:
https://medium.com/@acmurthy/hadoop-is-dead-long-live-hadoop-f22069b264ac
 
Spark 項(xiàng)目就更不用多說(shuō)了。Spark 經(jīng)過(guò) 14,15 年爆發(fā),現(xiàn)在已經(jīng)進(jìn)入平穩(wěn)期。但是 Spark 仍在進(jìn)化,仍在擁抱變化。Spark on K8s 就是 Spark 擁抱云原生的最好佐證?,F(xiàn)在 Spark 社區(qū)炙手可熱的Delta,MLFlow 更是 Spark 的強(qiáng)大的進(jìn)化能力的佐證?,F(xiàn)在的 Spark 也不僅僅是當(dāng)年要取代 MapReduce 的那個(gè) Spark ,更多是一個(gè)適用于多種場(chǎng)景的通用計(jì)算引擎。
 
我從 18 年加入阿里巴巴到現(xiàn)在差不多 1 年半時(shí)間,在這一年半的時(shí)間了,我正好見(jiàn)證了 Flink 的進(jìn)化能力。

首先 Flink 經(jīng)過(guò)幾個(gè)大版本的發(fā)布,融入了 Blink 的大部分功能,將 Flink SQL 的能力提升了一大截。

其次 Flink 對(duì) K8s 的支持,對(duì) Python 的支持,對(duì) AI 的支持都在向人們證明這Flink自身強(qiáng)大的進(jìn)化能力。
 
小 Tips

除了以上的 3 大維度,在這里我還想分享下我在評(píng)估一項(xiàng)新技術(shù)時(shí)候的一些小技巧。

1、利用 Google trends 。Google trends 能很好的反映一項(xiàng)技術(shù)的發(fā)展勢(shì)頭,上面提到的趨勢(shì)圖很好的比較了 3 大流計(jì)算引擎 Flink , Spark Streaming 和 Storm ,我們不難得出結(jié)論:Flink 是流計(jì)算領(lǐng)域的王者。

2、查看 GitHub 上的awesome。一項(xiàng)技術(shù)受歡迎的一個(gè)指標(biāo)是 GitHub 上的 awesome list,你可以看看這個(gè) awesome list 的 GitHub star 數(shù)。此外你可以抽一個(gè)周末的時(shí)間看看這個(gè) awesome list 上的內(nèi)容,因?yàn)樯厦婊旧鲜顷P(guān)于這項(xiàng)技術(shù)的精華內(nèi)容,通過(guò)這些內(nèi)容你大致可以判斷出這項(xiàng)技術(shù)的價(jià)值。

3、看看技術(shù)網(wǎng)站上是否有一些技術(shù)布道者為這項(xiàng)技術(shù)背書(shū)(我個(gè)人經(jīng)常會(huì)看medium.com)。技術(shù)圈里通常有這樣一群人,他們對(duì)技術(shù)很執(zhí)著,也很有品位。如果一項(xiàng)技術(shù)真的很好,那么就會(huì)有技術(shù)布道者無(wú)償?shù)臑檫@項(xiàng)技術(shù)背書(shū),分享如何這項(xiàng)技術(shù)的使用心得。


總結(jié)


每個(gè)人的時(shí)間都是有限的,在有限的時(shí)間里選擇一項(xiàng)值得投入的技術(shù)會(huì)變得尤為重要。

 
以上是我對(duì)如何評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)的一些思考,也算是對(duì)我自己事業(yè)生涯在技術(shù)選型方面的一個(gè)小小的總結(jié)和回顧,希望我的這些思考能對(duì)大家的職業(yè)生涯有所幫助。

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入

長(zhǎng)按訂閱更多精彩▼

如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入

如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀(guān)點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀(guān)點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉