編者按:本文來自微信公眾號 億歐網(wǎng)(ID:i-yiou),作者:雷小寒,編輯丨劉歡,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
縱觀全球科技創(chuàng)新領(lǐng)域,沒有一家企業(yè)似Databricks一樣,風(fēng)頭無兩。
在國內(nèi),Databricks遠(yuǎn)不如OpenAI名氣大。
但它的身后,站了近100家全球頂級VC。
貝萊德、黑石集團(tuán)、微軟、英偉達(dá)、Andreessen Horowitz、亞馬遜云AWS、老虎環(huán)球基金、高瓴資本、富達(dá)投資、普信、摩根士丹利旗下Counterpoint Global、DST Global、谷歌旗下CapitalG、AT&T Ventures都是Databricks的股東。
除此之外,新加坡主權(quán)財(cái)富基金GIC(新加坡政府投資公司)、加拿大養(yǎng)老基金投資管理機(jī)構(gòu)CPP Investments、卡塔爾主權(quán)財(cái)富基金QIA(卡塔爾投資局)也先后入局。
最容易被忽略但異常關(guān)鍵且神秘的是投資方In-Q-Tel(IQT)。
IQT名稱取自單詞“Intelligence”的字母組合,資金來源主要是美國中央情報(bào)局(CIA)、美國國家安全局(NSA)、美國聯(lián)邦調(diào)查局(FBI)和美國國防部(DoD)等。
IQT主要專注于軟件、基礎(chǔ)設(shè)施、材料科學(xué)三大領(lǐng)域的投資。
自1999年成立以來,已投資500多家公司,最出圈的當(dāng)屬Palantir Technologies,該公司以大數(shù)據(jù)技術(shù)幫助軍方定位和擊斃本?拉登。
IQT曾在2016年以戰(zhàn)投的身份入股剛起步的Databricks?;蛟S也正是IQT的背書,Databricks日后的發(fā)展、融資才能“坐上火箭”。
Databricks2024年12月剛剛完成百億單筆融資,直接刷新硅谷風(fēng)險(xiǎn)投資紀(jì)錄。
這家AI數(shù)據(jù)+大模型基礎(chǔ)服務(wù)的美國企業(yè),通過將Apache Spark這一開源分布式計(jì)算框架商業(yè)化,已經(jīng)從一個學(xué)術(shù)實(shí)驗(yàn)成長為估值620億美元的行業(yè)巨擘。
換言之,Databricks還未上市,其估值已經(jīng)高達(dá)4500億人民幣,超過了國內(nèi)興業(yè)銀行市值,相當(dāng)于2個平安銀行。
簡單量化對比,Databricks比東方財(cái)富、立訊精密、恒瑞醫(yī)藥、海康威視、中興通訊、順豐控股、山西汾酒等系列A股佼佼者還“值錢”。
簡述Databricks的商業(yè)模式,它就像是一個超級智能的“數(shù)據(jù)廚房管家”,幫助企業(yè)和數(shù)據(jù)科學(xué)家把雜亂無章的數(shù)據(jù)變成有價值的信息。
想象一下,你有一個巨大的廚房,里面堆滿了各種食材(數(shù)據(jù))。
這些食材可能來自不同的地方,有的是新鮮蔬菜,有的是冷凍肉類,還有的是干貨。你想要用這些食材做出一頓美味的飯菜(也就是從數(shù)據(jù)中提取有價值的信息),但你面臨幾個問題:
食材雜亂無章:廚房里到處都是食材,沒有分類,也沒有標(biāo)簽,你很難找到自己需要的東西。這就像是企業(yè)的數(shù)據(jù),可能來自不同的部門、不同的格式,很難管理和使用。
工具不齊全:你可能有刀、鍋和爐灶,但沒有烤箱或者攪拌機(jī),這就限制了你能做出的菜肴種類。同樣,企業(yè)可能有各種數(shù)據(jù)分析工具,但這些工具功能有限,無法滿足復(fù)雜的數(shù)據(jù)處理需求。
不會做飯:即使你有食材和工具,但如果你不知道怎么做菜,或者沒有菜譜(數(shù)據(jù)分析方法),也很難做出美味的飯菜。這就像是數(shù)據(jù)科學(xué)家面臨的挑戰(zhàn),他們需要合適的工具和方法來處理數(shù)據(jù)。
Databricks可以幫你:
整理食材(數(shù)據(jù)管理):分類存放,貼上標(biāo)簽,讓你輕松找到需要的東西。就像是把食材放在不同的冰箱和櫥柜里,一目了然。
提供齊全的工具(強(qiáng)大的功能):提供了一整套工具,從切菜刀(數(shù)據(jù)清洗工具)到烤箱(數(shù)據(jù)分析工具),再到攪拌機(jī)(人工智能工具)。你可以用這些工具輕松處理各種數(shù)據(jù)。
提供菜譜(數(shù)據(jù)分析方法):不僅提供工具,還提供菜譜(數(shù)據(jù)分析方法和模型)。即使你不會做飯,也可以按照菜譜一步步操作,做出美味的飯菜。就像是 Databricks 提供的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析模板,幫助數(shù)據(jù)科學(xué)家快速上手。
智能廚房助手(自動化和優(yōu)化):Databricks 還有一個智能廚房助手,可以根據(jù)你的需求自動調(diào)整烹飪過程,比如自動調(diào)節(jié)火候、提醒你下一步該做什么。就像是 Databricks的自動化功能,可以優(yōu)化數(shù)據(jù)處理和分析過程,節(jié)省時間和精力。
同樣的,假設(shè)你是一家超市的老板,你想知道哪些商品最受歡迎,哪些商品需要補(bǔ)貨,哪些促銷活動最有效。你手頭有很多數(shù)據(jù),比如銷售記錄、庫存信息、顧客反饋等,但數(shù)據(jù)分散在不同的地方,很難整合和分析。
這時候,Databricks 就可以幫你:把所有數(shù)據(jù)集中在一個地方,方便管理和分析。
通過數(shù)據(jù)分析工具,找出哪些商品賣得最好,哪些商品庫存不足。
利用人工智能模型,預(yù)測未來的需求,提前做好補(bǔ)貨準(zhǔn)備。根據(jù)分析結(jié)果,調(diào)整促銷策略,提高銷售額和顧客滿意度。
除此之外,全世界都在“狂熱”的大模型領(lǐng)域,Databricks也是重倉了基礎(chǔ)服務(wù),你可以在他提供的平臺上,在自己的數(shù)據(jù)上訓(xùn)練和微調(diào)模型。
不得不說,在人人都在聊的大數(shù)據(jù)與AI時代大幕下,Databricks已然成為繞不開的“主角”。
從伯克利到創(chuàng)業(yè)前線
這是一個關(guān)于“數(shù)據(jù)創(chuàng)新”的故事,也是一個關(guān)于“競爭和策略”的旅程。
Databricks的故事始于加州大學(xué)伯克利分校的AMPLab實(shí)驗(yàn)室。
2013年,Databricks由Matei Zaharia(首席技術(shù)官)、Ali Ghodsi(首席執(zhí)行官)等七位在計(jì)算機(jī)科學(xué)領(lǐng)域有著深厚造詣的研究人員共同創(chuàng)立,他們也是Apache Spark開源項(xiàng)目的核心貢獻(xiàn)者。
當(dāng)時,數(shù)據(jù)處理領(lǐng)域正被Hadoop的批處理模式主導(dǎo),但彼時,這種模式在效率和靈活性上已顯捉襟見肘。
Spark作為一種內(nèi)存計(jì)算框架,以其更快速的數(shù)據(jù)處理能力和對流式處理、機(jī)器學(xué)習(xí)等多種應(yīng)用場景的支持,逐漸成為學(xué)術(shù)界和工業(yè)界的寵兒。
然而,Spark在企業(yè)級應(yīng)用中仍存在諸多挑戰(zhàn),如缺乏商業(yè)支持、代碼質(zhì)量參差不齊、部署與管理復(fù)雜等問題。
面對這些挑戰(zhàn),創(chuàng)始團(tuán)隊(duì)意識到,只有將Spark的技術(shù)優(yōu)勢與商業(yè)應(yīng)用深度結(jié)合,才能真正改變大數(shù)據(jù)處理的格局。
于是,Databricks應(yīng)運(yùn)而生。
懷揣著“解決大數(shù)據(jù)處理效率低下”的初心,團(tuán)隊(duì)踏上了創(chuàng)業(yè)之路。
他們深知技術(shù)的重要性,同時也洞察到市場的巨大潛力,為Databricks的快速發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
成為美國資本市場炙手可熱的“香餑餑”
創(chuàng)業(yè)初期,Databricks就憑借技術(shù)實(shí)力、創(chuàng)新商業(yè)模式(開源低門檻、鼓勵用戶使用第三方平臺等)以及大有來頭的創(chuàng)業(yè)團(tuán)隊(duì),迅速吸引了投資者的目光。
2013年,Databricks完成4000萬美元的A輪融資,為公司的研發(fā)和業(yè)務(wù)拓展提供了啟動資金。
后來隨著Spark在企業(yè)市場上逐漸走紅,Databricks的商業(yè)模式和產(chǎn)品也開始被廣泛認(rèn)可。
2019年,Databricks獲得了兩輪總計(jì)6.5億美元的融資,估值不斷攀升。
資本的青睞也來自對其技術(shù)前景的信心:Databricks不僅要做Spark的“維護(hù)者”,還要在大數(shù)據(jù)處理和分析領(lǐng)域提供更加完整的一站式解決方案。
也是在2019年,微軟開始投資Databricks,并且將這家初創(chuàng)公司的軟件版本整合到了其云產(chǎn)品Microsoft Azure中。
Azure Databricks是微軟云服務(wù)平臺Azure上提供的一個托管服務(wù),結(jié)合了ApacheSpark的強(qiáng)大功能與Azure的企業(yè)級特性,為用戶提供數(shù)據(jù)處理環(huán)境。此外,微軟還利用Databricks的技術(shù)來增強(qiáng)自身產(chǎn)品的機(jī)器學(xué)習(xí)能力,也讓Databricks借助Azure進(jìn)一步拓寬了生態(tài)影響力。
而真正的里程碑在2021年,這一年里,它連續(xù)獲得了兩輪大規(guī)模融資,估值躍升至380億美元。
其中一次在2021年2月完成的G輪融資,金額達(dá)到了10億美元,而微軟正是這次融資的主要參與者之一。
2023年8月底的融資中,AI芯片巨頭英偉達(dá)也成為了Databricks的新投資者。接著12月宣布的J輪融資中,英偉達(dá)也繼續(xù)支持Databricks,可見兩家公司在人工智能領(lǐng)域的合作也在不斷加深。
時間到2024年,資本的熱情讓Databricks的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ali Ghodsi都始料未及,他后來表示到“我看到了一張Excel表格,上面記錄了所有想要投資的人。高達(dá)190億美元,我差點(diǎn)從椅子上摔下來,我們甚至還沒有和每個人談過”。
2024年底,Databricks再次打破紀(jì)錄,宣布獲得100億美元的新融資,由Thrive Capital領(lǐng)投,得到了Insight Partners、DST Global、Andreessen Horowitz、WCM Investment Management等硅谷巨頭的支持,同時吸引了Ontario Teachers’Pension Plan、Wellington Management、Iconiq Growth、Sands Capital和MGX等機(jī)構(gòu)投資者的參與,估值飆升至620億美元。
此時,Databricks已不是那個需要“呼吁援助”的初創(chuàng)公司,而是一家業(yè)務(wù)遍布全球、具備相當(dāng)行業(yè)影響力的科技企業(yè)。
這筆創(chuàng)紀(jì)錄的融資幫助Databricks在全球化擴(kuò)張、技術(shù)研發(fā)和戰(zhàn)略收購上都取得了充分的“彈藥”,也讓外界更期待它接下來的發(fā)展。
股價被萬眾期待,但2024年底Databricks宣布暫緩IPO。
時臨美國大選,對于一家處于快速變化的技術(shù)領(lǐng)域中的公司來說,確保在一個有利的時間點(diǎn)進(jìn)入資本市場的確也是非常重要的。
Databricks到底有什么“魅力”?
讓投資人趨之若鶩
技術(shù)領(lǐng)域:從Spark到Lakehouse的縱深演進(jìn)
Databricks之所以備受資本及市場矚目,很大程度上也源于它在技術(shù)上的持續(xù)創(chuàng)新。
最初的Spark,到后來衍生出的Lakehouse、Delta Lake和MLflow等核心產(chǎn)品,Databricks的步伐也一直踏在技術(shù)風(fēng)口,無論是自身創(chuàng)新還是收購策略都走在大數(shù)據(jù)與AI融合的關(guān)鍵點(diǎn)上。
傳統(tǒng)上,大數(shù)據(jù)存儲分為“數(shù)據(jù)湖”和“數(shù)據(jù)倉庫”兩種方式:前者存儲靈活但治理能力不足,后者管理和查詢效率高但缺乏靈活性。
Databricks率先提出的Lakehouse架構(gòu),將二者優(yōu)勢相結(jié)合,實(shí)現(xiàn)了“大規(guī)模數(shù)據(jù)存儲”與“高效數(shù)據(jù)分析”兼具的理想模式。
這樣,企業(yè)無需在兩者之間做出艱難的選擇,既能享受數(shù)據(jù)湖的海量存儲,又能體驗(yàn)數(shù)據(jù)倉庫的高效分析。
在解決了“存多少、怎么存”的問題后,“數(shù)據(jù)質(zhì)量和一致性”成為另一個重點(diǎn)。
Databricks開發(fā)了Delta Lake,為數(shù)據(jù)湖提供類似數(shù)據(jù)倉庫的ACID事務(wù)能力,支持可伸縮的元數(shù)據(jù)管理和版本控制。
換言之,無論是大規(guī)模實(shí)時寫入還是并發(fā)查詢,數(shù)據(jù)的完整性都能得到保證。
隨著大模型時代的到來,Databricks也將觸角伸向了生成式AI領(lǐng)域。
這里就正好要說到,除了大家都了解的企業(yè)亟需數(shù)據(jù)治理、大數(shù)據(jù)技術(shù)服務(wù)以外,為什么GPU巨頭也這么看好Databricks?他與AI產(chǎn)業(yè)的聯(lián)系是什么?
Databricks不僅發(fā)布了自研的大模型Dolly,為了進(jìn)一步拉近“數(shù)據(jù)分析”與“模型應(yīng)用”之間的距離,Databricks推出了MLflow。一款面向機(jī)器學(xué)習(xí)全生命周期的管理平臺:從實(shí)驗(yàn)跟蹤、模型訓(xùn)練到部署和監(jiān)控,MLflow都提供了一站式工具鏈。
也不得不提到2023年6月,Databricks以13億美元的價格收購位于舊金山的人工智能初創(chuàng)公司MosaicML。
MosaicML以其高效的機(jī)器學(xué)習(xí)框架而聞名,特別是其開源的大語言模型(LLM),MPT-7B和MPT-30B,被開發(fā)者認(rèn)為性能優(yōu)越,且易于使用。
那會生成式AI的應(yīng)用越來越廣泛,Databricks看到了將MosaicML的技術(shù)融入自身平臺的機(jī)會,隨即高價收下MosaicML,為公司持續(xù)開拓AI領(lǐng)域業(yè)務(wù)走出了重要的一步。
也是這一步的突進(jìn)補(bǔ)齊了他們整體AI基礎(chǔ)服務(wù)業(yè)務(wù),除了龐大的數(shù)據(jù)源特色,也搭建好了“集成性”的LLM部署平臺。
后續(xù)也是持續(xù)性在AI領(lǐng)域推動新產(chǎn)品新工具的發(fā)布;例如Databricks Assistant等產(chǎn)品。
戰(zhàn)場翻盤:Databricks與SageMaker、Snowflake的博弈
要知道盡管是大數(shù)據(jù)賽道的明星,Databricks在AI道路的成長也并非一路“獨(dú)行”。
當(dāng)時市場上針對開發(fā)者的數(shù)據(jù)工程、機(jī)器學(xué)習(xí)和協(xié)作數(shù)據(jù)科學(xué)的數(shù)據(jù)分析平臺除了Snowflake、Google BigQuery在大數(shù)據(jù)服務(wù)競爭之外;在這個細(xì)分的AI大模型基礎(chǔ)設(shè)施領(lǐng)域中還有許多不凡的競爭對手。
2024年前,讓AI開發(fā)技術(shù)人員更“受用”的其中一家友商-亞馬遜AWS的Sagemaker可是更炙手可熱。Sagemaker在jumpstart中加入了預(yù)訓(xùn)練的大語言模型,對于企業(yè)來說吸引力巨大。
在Databricks還未收購MosaicML之前,相信更多碼農(nóng)更傾向于Sagemaker(Databrick很早就推出了ML產(chǎn)品,但是在這個領(lǐng)域,一直無法獲得巨大進(jìn)展)。
2023年6月Databricks+MosaicML的到來,不得不說是Databricks走向AI領(lǐng)域強(qiáng)有力的敲門磚。
MosaicML不僅自帶了客戶,融合到Databricks業(yè)務(wù)中后,提供大模型,訓(xùn)練數(shù)據(jù)、也提供平臺,可以說是徹底轉(zhuǎn)身為一家大數(shù)據(jù)服務(wù)+大模型基礎(chǔ)設(shè)施服務(wù)商,面對Snowflake有了更多AI競爭力,面向Sagemaker有了更具特色的數(shù)據(jù)分析資源。
在AI領(lǐng)域,為企業(yè)提供部署服務(wù)、AI應(yīng)用開發(fā)環(huán)境、訓(xùn)練環(huán)境、包括自動化機(jī)器學(xué)習(xí)(AutoML)工具、模型訓(xùn)練、部署和監(jiān)控功能等……;加之有英偉達(dá)這位GPU巨頭的支持,可以說是無往不利。
針對文本生成、代碼輔助和自動推理等應(yīng)用,Databricks也推出了自研的開源模型DBRX,并與LangChain生態(tài)系統(tǒng)深度結(jié)合,為開發(fā)者提供豐富的生成式AI服務(wù)接口。
當(dāng)然,資本的熱捧,技術(shù)的加持,但對于To B市場的競爭也還是不容小覷。
面對來自Snowflake及其他競爭對手的壓力,Databricks希望通過加強(qiáng)其Lakehouse架構(gòu)的功能來鞏固市場份額。
特別是考慮到一些大型客戶希望將數(shù)據(jù)移出Snowflake的原生存儲層并遷移到如AWS上的對象存儲中,這種情況下支持Iceberg表就顯得尤為重要。
所以2024年6月,Databricks以20億美元的價格收購了數(shù)據(jù)優(yōu)化初創(chuàng)公司Tabular,而這家初創(chuàng)公司的年經(jīng)常性收入僅為100萬美元,Databricks用了一個相當(dāng)“離譜”價格完成這次收購。
據(jù)悉,也是由Databricks和Snowflake之間的爭斗推動而成。
無論怎樣,Databricks通過將Tabular的技術(shù)整合進(jìn)自己的平臺,可以加速實(shí)現(xiàn)Delta Lake與Iceberg之間的互操作性,也為“競爭”加了一把油,搶得更多贏面。
Databricks在面對業(yè)務(wù)綜合的巨頭“競爭”時,也十分討巧,通過其高度集成的平臺和強(qiáng)大的AI功能,形成了與AWS許多產(chǎn)品的互補(bǔ)關(guān)系,而非直接的對抗。
可以看到雙方的合作,也在2024年更近一步。
“2024年12月,AWS在Marketplace中推出了適用于Databricks數(shù)據(jù)智能平臺的SaaS快速啟動增強(qiáng)版。
過去,在AWS上部署Databricks需要手動配置,并且要求使用者具備一定的AWS基礎(chǔ)架構(gòu)預(yù)置工具的知識。
而現(xiàn)在,無論是數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家還是業(yè)務(wù)分析師,所有類型的用戶都可以通過AWS Marketplace,僅需遵循三個指導(dǎo)性步驟就能迅速輕松地完成Databricks的部署?!?/p>
與巨頭的戰(zhàn)略合作是穩(wěn)步向前的策略,但隨著大數(shù)據(jù)和AI市場的快速發(fā)展,越來越多的科技企業(yè)進(jìn)入這一領(lǐng)域,市場競爭日益激烈。
一路走來,戰(zhàn)略并購也是Databricks持續(xù)推動的棋。
據(jù)悉,通過與學(xué)術(shù)界和開源社區(qū)的緊密合作,Databricks能夠及時獲取最新的技術(shù)信息。
同時Databricks計(jì)劃利用新籌集的資金進(jìn)行戰(zhàn)略收購,整合相關(guān)技術(shù)和資源,從并購、戰(zhàn)略合作等路徑進(jìn)一步提升公司的技術(shù)實(shí)力和市場競爭力。
除此之外,“人才是第一資源也是這家公司快速發(fā)展的優(yōu)勢之一”。
大數(shù)據(jù)和AI領(lǐng)域的人才競爭非常激烈,Databricks也是從收入方面給足了員工價值感。
根據(jù)2023年的全球程序員薪酬報(bào)告,Databricks為不同級別的工程師提供了相當(dāng)高的薪資待遇。
初級工程師(Entry-Level Engineer)分類中,Databricks以27.42萬美元的總薪酬中位數(shù)處于領(lǐng)先地位。
中級工程師(Engineer)職位方面,Databricks的中位數(shù)薪資達(dá)到了44.3萬美元。
對于高級工程師(Senior Engineer),Databricks提供的薪酬水平更是達(dá)到了58.4萬美元的中位數(shù),遠(yuǎn)超了行業(yè)內(nèi)的平均水平,明顯高于其他競爭對手。
結(jié)語:中國Databricks在哪?
縱觀Databricks的成長歷程,從學(xué)術(shù)實(shí)驗(yàn)室通過不斷的技術(shù)創(chuàng)新、多輪融資的成功、走向全球市場的迅速擴(kuò)張,Databricks的成長不僅在大數(shù)據(jù)和AI領(lǐng)域占據(jù)了重要地位,其實(shí)也為企業(yè)如何在快速變化的技術(shù)環(huán)境中保持競爭力提供了寶貴的經(jīng)驗(yàn)。
隨著中國企業(yè)對模型處理能力需求的增長,能否精準(zhǔn)理解客戶的數(shù)據(jù)需求將直接影響產(chǎn)品的市場競爭力。
在中國這個更為多樣又廣闊的市場,在資本已經(jīng)逐步關(guān)注到AI+Data潛力背景下,除了阿里云、騰訊云以外,也是完全具備孕育出類似Databricks這樣獨(dú)角獸企業(yè)潛力的。
類似于與Databricks有部分相似業(yè)務(wù)的企業(yè):星環(huán)科技、滴普科技、中科聞歌, 再比如九章云極DataCanvas,又有誰可以成為中國的“Databricks”呢?
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。