當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]在Google中輸入“Databricks”,看到的前幾個(gè)建議條目很可能是“IPO”、“工作機(jī)會(huì)”和“估值”。這足以表明大家對這個(gè)大數(shù)據(jù)獨(dú)角獸的十足興趣——如同科技圈對這幾年的Robinhood、幾年前的Uber和Airbnb廣泛的熱情。在Google里輸入Databricks然...


在Google 中輸入“Databricks”,看到的前幾個(gè)建議條目很可能是“IPO”、“工作機(jī)會(huì)”和“估值”。這足以表明大家對這個(gè)大數(shù)據(jù)獨(dú)角獸的十足興趣——如同科技圈對這幾年的Robinhood、幾年前的Uber和 Airbnb廣泛的熱情。

百億估值的Databricks,到底是做什么的?

在Google里輸入Databricks

然而,與共享經(jīng)濟(jì)和金融科技不同,Databricks的產(chǎn)品和核心業(yè)務(wù),仍然只有一小部分的VC、數(shù)據(jù)科學(xué)家和工程師有所了解。

這篇文章旨在幫助更多的人——無論是不是業(yè)內(nèi)人士——理解Databricks,這個(gè)相對低調(diào)的獨(dú)角獸。因此,我不會(huì)上來對Spark和Delta之類的技術(shù)大聊特聊,而是先快速的縱覽大數(shù)據(jù)這個(gè)獨(dú)特領(lǐng)域,再解釋Databricks是如何融入其中,前景又如何。


01



30秒的“大數(shù)據(jù)”概述


盡管大數(shù)據(jù)市場十分龐大,是一個(gè)千億美元、年同比增長達(dá)兩位數(shù)的吸金獸,但它最終歸結(jié)為三個(gè)關(guān)鍵問題、兩個(gè)基礎(chǔ)和一個(gè)終極目標(biāo)。三個(gè)關(guān)鍵問題
  • 要處理什么數(shù)據(jù)?(系統(tǒng)生成的日志,或是商用數(shù)據(jù)集,或是用戶數(shù)據(jù),等等)
  • 如何使用數(shù)據(jù)?(商業(yè)智能BI,商業(yè)分析,機(jī)器學(xué)習(xí),圖表,等等)
  • 如何把數(shù)據(jù)從源頭向下游匯集和轉(zhuǎn)化?(ETL數(shù)據(jù)管道,以及各類變種)
這三個(gè)問題,每個(gè)問題的答案都有十幾種不同的解決方案。而每個(gè)解決方案都有足夠的市場需求,來容納多個(gè)優(yōu)質(zhì)上市公司。

兩個(gè)基礎(chǔ)

  • 存儲(chǔ)(數(shù)據(jù)存放在物理磁盤上。無論是在本地的數(shù)據(jù)中心里,還是云上)
  • 計(jì)算(租用一個(gè)服務(wù)器來對數(shù)據(jù)進(jìn)行計(jì)算)
計(jì)算是花銷巨頭,原因是,服務(wù)器的運(yùn)行(按時(shí)間計(jì)算)比為磁盤的占地(空間)昂貴得多。當(dāng)然,完整的來說,網(wǎng)絡(luò)也是基礎(chǔ)之一,但與這篇Databricks的討論相關(guān)度不大。(關(guān)于存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)如何協(xié)同工作,請參閱Kevin Xu之前的帖子《如何對云計(jì)算征稅?》,詳見文末

終極目標(biāo)

每家擁有數(shù)據(jù)的公司,希望實(shí)現(xiàn)的一個(gè)終極目標(biāo)是:搭建一個(gè)自動(dòng)化系統(tǒng),將原始數(shù)據(jù)集源源不斷地轉(zhuǎn)化為業(yè)務(wù)價(jià)值。換句話說,一個(gè)自動(dòng)將“數(shù)據(jù)變現(xiàn)”的系統(tǒng)。在互聯(lián)網(wǎng)風(fēng)靡之前,我們的大部分?jǐn)?shù)據(jù)還保存在 Excel 電子表格中時(shí),這并不難:寫幾個(gè)VBScript就足夠了?,F(xiàn)在,我們的每一個(gè)YouTube視頻觀看事件——開始、暫停、跳過廣告等,都被收集、解析、聚合,最終變成某個(gè)高管屏幕前的柱狀圖。而這一切,很可能時(shí)刻都在發(fā)生。

殊途同歸

雖然最終目標(biāo)類似,但有可以實(shí)現(xiàn)的方式卻十分之多。每個(gè)在大數(shù)據(jù)領(lǐng)域運(yùn)營的 SaaS 或開源公司,都致力于這條“數(shù)據(jù)流水線”的一個(gè)或多個(gè)部分。雖然云巨頭(AWS、Azure、GCP)在嘗試構(gòu)建一體化的服務(wù)和生態(tài),但擁有創(chuàng)造性解決方案的小型供應(yīng)商仍有足夠的空間找到立足點(diǎn),并成長并成為巨頭。Databricks、Snowflake就是典型的例子。

如果想了解當(dāng)今的大數(shù)據(jù)領(lǐng)域是怎樣一個(gè)龐然大物,Matt Turck的年度大數(shù)據(jù)版圖很有參考價(jià)值。在過去的幾年里,不僅每個(gè)類別里的公司數(shù)量都有所增長,新的類別也在不斷涌現(xiàn)。



02



話說回來,Databricks到底是做什么的?


如果你對Databricks官方主頁上的標(biāo)語(“一個(gè) Lakehouse 平臺(tái),承載所有數(shù)據(jù)、分析和人工智能”)感到困惑,那你一定不是唯一一個(gè)。但有了上面的概述,讓我們看看能否從這個(gè)標(biāo)語得到一些啟發(fā),來了解Databricks。

從本質(zhì)上講,Databricks是一家計(jì)算公司,通過解決三個(gè)關(guān)鍵問題中的以下兩個(gè),提出了一種搭建數(shù)據(jù)流水線低代碼解決方案

  • 如何使用數(shù)據(jù)?

  • 如何把數(shù)據(jù)從源頭向下游匯集和轉(zhuǎn)化?

為什么解決這兩個(gè)問題,會(huì)讓Databricks變得如此有價(jià)值?一個(gè)有幫助的類比,是更知名的Arduino——一個(gè)開源的電子原型開發(fā)平臺(tái)。

想象一下,如果你被派了一個(gè)任務(wù),要用一堆電子元件搭一個(gè)FM收音機(jī)——如果你和我一樣,幾乎沒有任何硬件方面的經(jīng)驗(yàn),這聽上去根本無從下手。


百億估值的Databricks,到底是做什么的?

用電子元件造一個(gè)FM收音機(jī)? (左: Youtube - GreatScott!, 右: Wikipedia)這種無從下手的感覺,正是許多工程師在使用低抽象工具構(gòu)建“數(shù)據(jù)流水線”時(shí)所感受到的:從AWS云服務(wù)租用虛擬機(jī),編寫Python腳本,對數(shù)據(jù)集進(jìn)行計(jì)算。不一會(huì)兒,困難就會(huì)接踵而至:如何協(xié)調(diào)多臺(tái)機(jī)器使得計(jì)算能夠并行?一個(gè)虛擬機(jī)計(jì)算了大半,突然斷線了,怎么處理?

回到Arduino,之所以它使得原型設(shè)計(jì)、構(gòu)建變得如此容易,歸根究底,是因?yàn)槠洳]有從開關(guān)、斷路器這些基礎(chǔ)元件出發(fā),而是提供了三個(gè)重要的組件,來吸引你我一樣的非硬件工程師:

1. 一種更容易調(diào)度Arduino硬件的高抽象語言。(比如,基本如“從一個(gè)數(shù)據(jù)針讀取數(shù)據(jù)”的簡單操作,用C或者C 寫,工作量不小。而在Arduino平臺(tái)上,這只用調(diào)用一個(gè)函數(shù)digitalRead(pin)就行了)。

2. 一個(gè)架構(gòu)在面包板上的硬件生態(tài)。每一個(gè)模塊都可以毫不費(fèi)力地插入拔出,方便快速迭代。

3. 一套可行的、從Arduino原型到可售賣版本的轉(zhuǎn)化流程。


百億估值的Databricks,到底是做什么的?

Arduino的快速迭代組成部分


假如你認(rèn)同Arduino為硬件開發(fā)帶來的革新,那么Databricks的作用很好理解——它同樣帶來了三個(gè)核心組件,只不過是針對大數(shù)據(jù)運(yùn)算:

1. Apache Spark:一個(gè)開源引擎,通過高抽象語言,極大地降低了分布式計(jì)算的門檻。設(shè)想一下,現(xiàn)在我們手頭有1個(gè)PB的數(shù)據(jù),分布在1000個(gè)機(jī)器組成的集群上,現(xiàn)在需要把每條數(shù)據(jù)里的某個(gè)值乘以2,并且處理好過程中任何機(jī)器斷線造成的結(jié)果丟失。用Spark的Python接口來寫,只需要一行:

.map(lambda x: x*2)這和在單個(gè)機(jī)器上對一個(gè)數(shù)組進(jìn)行操作完全一樣——這種便利背后,Spark封裝了所有與機(jī)器集群打交道的復(fù)雜度,讓用戶可以用他們熟悉的Python、Scala、SQL語言發(fā)布命令。

Databricks的創(chuàng)始人們——用CEO Ali Ghodsi的自嘲來說,一群“伯克利嬉皮士”——是Spark框架的始作俑者。這些大數(shù)據(jù)嬉皮士們在分布式計(jì)算世界里是舉足輕重的人物。

2. 數(shù)據(jù)筆記本:一個(gè)即時(shí)交互、反饋迅速的數(shù)據(jù)沙盒。把這個(gè)筆記本想象成Arduino的面包板,插上不同的組件,可以快速獲得功能上的反饋。在數(shù)據(jù)筆記本中,用戶可以在每一個(gè)“單元格”里跑幾行代碼,實(shí)現(xiàn)一個(gè)小功能,并實(shí)時(shí)給出計(jì)算結(jié)果。

百億估值的Databricks,到底是做什么的?

?一個(gè)數(shù)據(jù)筆記本,包含三個(gè)單元格,以及相應(yīng)的運(yùn)算結(jié)果

數(shù)據(jù)筆記本并不是Databricks特有的功能。事實(shí)上,這是數(shù)據(jù)科學(xué)家和分析師最常用的工具之一,Jupyter Notebook可以說是最早、最知名的提供商。然而,Spark使得Databricks的數(shù)據(jù)筆記本獲得了超能力:每一個(gè)數(shù)據(jù)筆記本都可以連接上數(shù)量巨大的服務(wù)器集群,并且通過Spark對大量數(shù)據(jù)做并行計(jì)算。這是單個(gè)機(jī)器上的數(shù)據(jù)筆記本遠(yuǎn)遠(yuǎn)無法達(dá)到的。

從工程上來說,將數(shù)據(jù)筆記本對接上大量的計(jì)算資源,并不是那么容易的事。這也是Databricks的主要用戶們(數(shù)據(jù)工程師和分析師)厭于完成的繁雜工序。

在許多公司里,這些人肩負(fù)著達(dá)成“最終目標(biāo)”的使命,而他們正如同Arduino的使用者一樣,在開始搭建數(shù)據(jù)流水線時(shí),需要不斷地試錯(cuò)、迭代,無論是清洗數(shù)據(jù),還是訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型。Databricks在合適的時(shí)機(jī)出現(xiàn),通過這個(gè)獲得了超能力的筆記本,讓搭建過程變得十分便捷、迅速。如果讀過我之前一篇“無代碼、低代碼”文章,你或許記得低代碼產(chǎn)品的核心價(jià)值:將工程師們從低價(jià)值的勞動(dòng)中解放出來。Databricks通過這個(gè)上手即用、高抽象的數(shù)據(jù)筆記本,很好地闡述了這樣一個(gè)低代碼故事。

3. 任務(wù)集:從開發(fā)到生產(chǎn)的無縫銜接。現(xiàn)在我們有一個(gè)筆記本,其中包含一堆單元格,實(shí)現(xiàn)了一個(gè)初步的數(shù)據(jù)流水線,接下來呢?我們自然不想每次有新的數(shù)據(jù)進(jìn)來,都需要手動(dòng)地一個(gè)個(gè)單元格跑一遍。另外,在開發(fā)過程中,為了加快運(yùn)算速度和降低成本,我們一般只會(huì)采用數(shù)據(jù)集的部分(一個(gè)樣本),而非整個(gè)數(shù)據(jù)集。

Databricks的解決方案,“任務(wù)集”,非常方便:每一個(gè)任務(wù)對應(yīng)著一個(gè)筆記本(實(shí)現(xiàn)著一個(gè)完整功能),用戶們可以指定運(yùn)行頻率、機(jī)器數(shù)量上限,每隔一段時(shí)間自動(dòng)運(yùn)行筆記本中的所有單元格,完成對完整數(shù)據(jù)集的計(jì)算。

對已經(jīng)有一個(gè)基于筆記本的流水線來說,從開發(fā)環(huán)境到生產(chǎn)環(huán)境,幾乎只需要按幾個(gè)按鈕。這全都仰仗于Spark帶來的便利:無論是幾個(gè)機(jī)器上1GB的數(shù)據(jù),還是幾千機(jī)器上數(shù)十PB的數(shù)據(jù),跑的都是同樣一套代碼,幾乎無需變動(dòng)


03



Databricks如何賺錢?

歸根究底,Databricks 是一家提供“計(jì)算”的公司。與該類別的其他公司一樣,它通過租出服務(wù)器的計(jì)算資源來賺錢。
值得注意的是,Databricks并不真的擁有這些服務(wù)器。相反,其整個(gè)系統(tǒng)建立在主要的云提供商的基礎(chǔ)服務(wù)上(AWS、Azure、GCP)。對Databricks用戶來說,他們的賬單主要分為兩部分:常規(guī)的服務(wù)器租用成本(由底層云提供商收?。?,以及Databricks在這些服務(wù)器上“附加”的功能費(fèi)用,如數(shù)據(jù)筆記本和任務(wù)集。這兩個(gè)成本都是按小時(shí)收費(fèi)的——常見的按用量收費(fèi)方式。

Databricks并不是唯一一家站在“云巨頭”肩膀上的公司。他們的另一位知名競爭對手,Snowflake,也采用了類似的架構(gòu)。Snowflake好用的云數(shù)據(jù)倉庫,底層所依賴的基礎(chǔ)服務(wù),與Databricks非常相似。

那么,工程師們是否可以使用相同的構(gòu)建模塊(例如 AWS EC2 和 S3),來自己搭一個(gè)“內(nèi)部版本的Databricks”,來避免給Databricks交錢,降低成本?

當(dāng)然可能——但很可能不值得。至少,在這家公司達(dá)到一定規(guī)模之前都不值得。回到我們關(guān)于全代碼、低代碼的討論,“可以做”不代表“應(yīng)該做”。Databricks提供的集群自動(dòng)休眠、共享和權(quán)限管理等功能,都需要很多工程資源來搭建,而這些工程資源,可以用到對一個(gè)公司更有價(jià)值、更核心的地方。



04



"一個(gè)Lakehouse平臺(tái),承載所有數(shù)據(jù)、分析和人工智能"

讀到現(xiàn)在,希望這個(gè)標(biāo)語開始變得更有意義一些(除了Lakehouse部分)。Databricks試圖提供完整的“數(shù)據(jù)流水線”方案——這意味著更多需要處理的數(shù)據(jù)、更多跑數(shù)據(jù)的機(jī)器、更多的收入。當(dāng)然,Databricks的用戶愿意為平臺(tái)的解放出來的生產(chǎn)力付費(fèi)。

Databricks的產(chǎn)品規(guī)劃,很清晰地告訴我們,它不想局限于一家提供“數(shù)據(jù)筆記本”的公司(這是很多人現(xiàn)在的認(rèn)識)。這是因?yàn)?,盡管數(shù)據(jù)科學(xué)家和分析師們喜歡這些強(qiáng)大的數(shù)據(jù)筆記本,不介意為之付出“低代碼溢價(jià)”,數(shù)據(jù)工程師們卻并不總這么想。他們的工作更底層,負(fù)責(zé)數(shù)據(jù)接入、基礎(chǔ)架構(gòu)、效率提升。這些工程師們對靈活度的要求很高,并且完全不介意多寫一些代碼,或是自己搭方案。百億估值的Databricks,到底是做什么的?

數(shù)據(jù)流水線的人手、技術(shù)分布

在“數(shù)據(jù)流水線”上,這些數(shù)據(jù)工程師們往往占據(jù)上游,也是運(yùn)算量、成本極大的一個(gè)環(huán)節(jié)(換句話說,重要的收入來源)。為了贏得他們的青睞,Databricks采用的策略是擁抱開源,尤其是即Spark之后,推出了Delta Lake——一個(gè)開源的數(shù)據(jù)存儲(chǔ)方案(這也是Lakehouse的名字來源)。開源的方案給了這些工程師們所需的自由度,使得他們能夠更可預(yù)期地掌握、挪動(dòng)數(shù)據(jù)。Delta的開源,意味著任何人都可以在其方案里使用優(yōu)秀的“.delta”存儲(chǔ)格式,但是這在Databricks的數(shù)據(jù)本里,有著最為方便的原生支持。與新的功能,比如”Live Table“一起,Databricks平臺(tái)已經(jīng)開始贏得一些硬核數(shù)據(jù)工程師的青睞。從長遠(yuǎn)來看,能讓所有與數(shù)據(jù)打交道的人們(數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、分析師)在同一個(gè)平臺(tái)上協(xié)作,有著巨大的價(jià)值。每一方都可以有完整的視圖、上下游語境,讓開發(fā)”數(shù)據(jù)流水線“的過程快上許多。

Databricks想讓這些人都住在同一幢”Lakehouse“里。任重而道遠(yuǎn),工程仍是進(jìn)行時(shí)。但對這家八歲的公司來說,進(jìn)展迅速,未來可期。


更新通知:硅谷成長攻略作者"大羊洋"的所有SaaS相關(guān)文章將同步發(fā)到《互聯(lián)》中英雙語電子周刊(interconnected.blog)。《互聯(lián)》通過分析創(chuàng)建者(企業(yè)家,工程師)、運(yùn)營者(企業(yè)經(jīng)理)、投資者(資本家)和監(jiān)管者(政客和政府官員),來分析各個(gè)行業(yè)和思考宏觀趨勢。創(chuàng)始人Kevin Xu現(xiàn)任Github國際擴(kuò)張戰(zhàn)略高級主管。




參考:

“如何對云計(jì)算征稅?”:https://interconnected.blog/how-do-we-tax-cloud-computing/

年度大數(shù)據(jù)版圖:http://46eybw2v1nh52oe80d3bi91u-wpengine.netdna-ssl.com/wp-content/uploads/2020/09/2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉