當前位置:首頁 > 物聯(lián)網 > 智能應用
[導讀] 其實我一直不太喜歡張口閉口講“大數據”,我更喜歡說“數據”。因為大數據的本質在于“數據”,而不是“大”。由于媒體一直重點宣揚大數據的“大”,所以有時候我們往往會忽然大數據的本質在“數據”,而不是“大”,“大”只是你看到的表相,本質還是數據自身。在我們講清楚大數據的含義之后,我們來聊聊大數據目前到底處在一個什么樣的位置。從歷史發(fā)展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。

 其實我一直不太喜歡張口閉口講“大數據”,我更喜歡說“數據”。因為大數據的本質在于“數據”,而不是“大”。由于媒體一直重點宣揚大數據的“大”,所以有時候我們往往會忽然大數據的本質在“數據”,而不是“大”,“大”只是你看到的表相,本質還是數據自身。在我們講清楚大數據的含義之后,我們來聊聊大數據目前到底處在一個什么樣的位置。從歷史發(fā)展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。

數據這個概念已經出來很多年了(超過10年),但一直沒有一個準確的定義(也許也并不需要)。數據工程師(DataEngineer)對大數據的理解會更多從技術和系統(tǒng)的角度去理解,而數據分析人員(Data Analyst)對大數據理解會從產品的角度去理解,所以數據工程師(Data Engineer) 和數據分析人員(Data Analyst)所理解的大數據肯定是有差異的。我所理解的大數據是這樣的,大數據不是單一的一種技術或者產品,它是所有與數據相關的綜合學科。

 

 

當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術一開始會以非??斓乃俣仁艿酱蠹易放酰缓蟮竭_一個頂峰,之后人們開始認識到這項新技術并沒有當初預想的那么具有革命性,然后會過于悲觀,之后就會經歷泡沫階段。等沉寂一定階段之后,人們開始回歸理性,正視這項技術的價值,然后開始正確的應用這項技術,從此這項技術開始走向穩(wěn)步向前發(fā)展的道路。(題外話,筆者在看這幅圖的時候也聯(lián)想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。

1、從大數據的歷史來看,大數據已經經歷了 2 個重要階段

兩個重要階段是指過高期望的峰值和泡沫化的底谷期 ?,F在正處于穩(wěn)步向前發(fā)展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數據大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然后慢慢走向下降通道(當然這張曲線并不會和上面這張技術成熟度曲線完全擬合,比如技術曲線處在下降通道有可能會使討論這項技術的搜索量增加)。接下來我想講一下我對大數據領域未來趨勢的幾個判斷。

2、數據規(guī)模會繼續(xù)擴大,大數據將繼續(xù)發(fā)揚光

前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩(wěn)步向前發(fā)展。做這樣判斷主要有以下 2 個原因:

上游數據規(guī)模會繼續(xù)增長,特別是由于 IOT 技術的發(fā)展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,數據規(guī)模仍將繼續(xù)快速增長,這是能夠帶動大數據持續(xù)穩(wěn)定向前發(fā)展的基本動力。下游數據產業(yè)還有很多發(fā)展的空間,還有很多數據的價值我們沒有挖掘出來。

雖然現在人工智能,區(qū)塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍?zhí)椎?,大數據仍將扮演一個重要而基礎的角色??梢赃@么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續(xù)向上發(fā)展。

 

3、數據的實時性需求將更加突出

之前大數據遇到的最大挑戰(zhàn)在于數據規(guī)模大(所以大家會稱之為“大數據”),經過工業(yè)界多年的努力和實踐,規(guī)模大這個問題基本已經解決了。接下來幾年,更大的挑戰(zhàn)在于速度,也就是實時性。而大數據的實時性并不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統(tǒng)的實時性。所以大數據的實時性,包括以下幾個方面:

快速獲取和傳輸數據;快速計算處理數據;實時可視化數據;在線機器學習,實時更新機器學習模型

目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優(yōu)秀的產品涌現出來。當大數據的實時性增強之后,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環(huán),促進整個數據流的良性發(fā)展。

4、大數據基礎設施往云上遷移勢不可擋

目前IT基礎設施往云上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當然我這邊說的云并不單單指公有云,也包括私有云,混合云。因為由于每個企業(yè)的業(yè)務屬性不同,對數據安全性的要求不同,不可能把所有的大數據設施都部署在公有云上,但向云上遷移這是一個未來注定的選擇。目前各大云廠商都提供了各種各樣的大數據產品以滿足各種用戶需求,包括平臺型(PAAS) 的 EMR ,服務型 (SAAS) 的數據可視化產品等等。大數據基礎設施的云化對大數據技術和產品產生也有相應的影響。大數據領域的框架和產品將更加 Cloud Native 。

 

計算和存儲的分離。我們知道每個公有云都有自己對應的分布式存儲,比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的物理存儲并不是在 EC2 上面,對 EC2 來說, S3 是 remote storage 。所以如果你要是 AWS 上面做大數據開發(fā)和應用,而且你的數據是在 S3 上,那么你就自然而然用到了計算和存儲的分離。擁抱容器,與 Kubernate 的整合大勢所趨,我們知道在云環(huán)境中 Kuberneate 基本上已經是容器資源調度的標準。更具有彈性(Elastic)。與云上其他產品和服務整合更加緊密。

5、大數據產品全鏈路化

全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數據產品組件。以 Hadoop 為代表的大數據產品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發(fā)成本太高。全鏈路化就是為了解決這一問題,用戶需要的并不是 Hadoop,Spark,Flink 等這些技術,而是要以這些技術為基礎的能解決業(yè)務問題的產品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大數據的價值并不是數據本身,而是數據背后所隱藏的對業(yè)務有影響的信息和知識。下面是一張摘自 wikipedia 的經典數據金字塔的圖。

 

大數據技術就是對最原始的數據進行不斷處理加工提煉,金字塔每上去一層,對應的數據量會越小,同時對業(yè)務的影響價值會更大更快。而要從數據(Data) 最終提煉出智慧(Wisdom),數據要經過一條很長的數據流鏈路,沒有一套完整的系統(tǒng)保證整條鏈路的高效運轉是很難保證最終從數據中提煉出來有價值的東西的,所以大數據未來產品全鏈路化是另外一個大的趨勢。

6、大數據技術往下游數據消費和應用端轉移

上面講到了大數據的全鏈路發(fā)展趨勢,那么這條長長的數據鏈路目前的狀況是如何,未來又會有什么樣的趨勢呢?我的判斷是未來大數據技術的創(chuàng)新和發(fā)力會更多的轉移到下游數據消費和應用端。之前十多年大數據的發(fā)展主要集中在底層的框架,比如最開始引領大數據風潮的 Hadoop ,后來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源調度器 Kubernetes 等等,每個細分領域都涌現出了一系列優(yōu)秀的產品。

總的來說,在底層技術框架這塊,大數據領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業(yè)提供最佳用戶體驗的產品,以解決用戶的實際業(yè)務問題,或者說未來大數據的側重點將從底層走向上層。之前的大數據創(chuàng)新更偏向于 IAAS 和 PAAS ,未來你將看到更多 SAAS 類型的大數據產品和創(chuàng)新。從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。

2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了數據分析公司 Looker,并將該公司并入 Google Cloud。

2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在數據可視化以及幫助企業(yè)解讀所使用和所積累的海量數據的其他工具方面的工作。

2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。

Arcadia Data 是一家云原生 AI 驅動的商業(yè)智能實時分析廠商。面對最終用戶的大數據產品將是未來大數據競爭的重點,我相信會未來大數據領域的創(chuàng)新也將來源于此,未來 5 年內大概率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。

7、開源閉源并駕齊驅

大數據領域并不是只有 Hadoop,Spark,Flink 等這類大家耳熟能詳的開源產品,還有很多優(yōu)秀的閉源產品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產品雖然沒有開源產品那么受開發(fā)者歡迎,但是他們對于很多非互聯(lián)網企業(yè)來說是非常受歡迎的。因為對于一個企業(yè)來說,采用哪種大數據產品有很多因素需要考慮,否開源并不是唯一標準。產品是否穩(wěn)定,是否有商業(yè)公司支持,是否足夠安全,是否能和現有系統(tǒng)整合等等往往是某些企業(yè)更需要考慮的東西,而閉源產品往往在這類企業(yè)級產品特性上具有優(yōu)勢。

最近幾年開源產品受公有云的影響非常大,公有云可以無償享受開源的成果,搶走了開源產品背后的商業(yè)公司很多市場份額,所以最近很多開源產品背后的商業(yè)公司開始改變策略,有些甚至修改了 Licence 。不過我覺得公有云廠商不會殺死那些開源產品背后的商業(yè)公司,否則就是殺雞取卵,殺死開源產品背后的商業(yè)公司,其實就是殺死開源產品的最大技術創(chuàng)新者,也就是殺死開源產品本身。我相信開源界和公有云廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創(chuàng)新的主力,一些優(yōu)秀的閉源產品同樣也會占據一定的市場空間。

8、底層技術的集中化和上層應用的全面開花

學習過大數據的人都會感嘆大數據領域的東西真是多,特別是底層技術,感覺學都學不來。經過多年的廝殺和競爭,很多優(yōu)秀的產品已經脫穎而出,也有很多產品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者,傳統(tǒng)的 MapReduce 除了一些舊有的系統(tǒng),基本不太可能會開發(fā)新的 MapReduce 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇,原有的 Storm 系統(tǒng)也開始慢慢退出歷史舞臺。

同樣 Kafka 也在消息中間件領域基本上占據了壟斷地位。未來的底層大數據生態(tài)圈中將不再有那么多的新的技術和框架,每個細分領域都將優(yōu)勝劣汰,走向成熟,更加集中化。未來更大的創(chuàng)新將更多來來自上層應用或者全鏈路的整合方面。在大數據的上層應用方面未來將會迎來有更多的創(chuàng)新和發(fā)展,比如基于大數據上的BI產品, AI 產品等等,某個垂直領域的大數據應用等等,我相信未來我們會看到更多這方面的創(chuàng)新和發(fā)展。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉