作者丨劉楊楠
編輯丨海腰
圖源丨CNBC
3月6日,開源數(shù)據(jù)庫龍頭MongoDB遭遇上市以來最黑暗的一天。
當(dāng)天公布2025財(cái)年第四季度報(bào)告和2026財(cái)年業(yè)績預(yù)告后,略顯悲觀的數(shù)據(jù)預(yù)測引得MongoDB股價(jià)暴跌近27%,估值縮水至143億美元,較195億美元的最高值跌去50億美元。
華爾街的分析師們紛紛開始下調(diào)目標(biāo)價(jià)格,但評級仍保持在“買入”或“持有”狀態(tài)。分析師們之所以對MongoDB保持相對積極的態(tài)度,或許與前不久的一樁收購案有關(guān)。
2月24日,MongoDB宣布以2.2億美元收購Voyage AI,為這家成立僅17個(gè)月的明星AI公司寫下一個(gè)暫時(shí)的句號。
Voyage AI的故事短暫又輝煌,公司2023年9月成立,由清華姚班出身的天才學(xué)者掌舵,獲“AI教母”李飛飛背書,共融資2800萬美元,其發(fā)布的模型曾被數(shù)位AI大牛點(diǎn)贊。
正因如此,這筆收購讓外界猝不及防,人們不禁好奇:這樣一家技術(shù)過硬、團(tuán)隊(duì)頂尖且不缺投資者關(guān)注的明星初創(chuàng)企業(yè),為什么會(huì)在成立僅17個(gè)月的時(shí)間選擇被收購?
但從MongoDB今天的處境來看,這場收購中,Voyage AI或許是更加被需要的一方。
戛然而止的天才創(chuàng)業(yè)故事
Voyage AI的17個(gè)月可謂轟轟烈烈。
2023年9月,斯坦福大學(xué)計(jì)算機(jī)科學(xué)家、清華大學(xué)2012屆姚班校友馬騰宇(Tengyu Ma)創(chuàng)辦Voyage AI,全明星陣容讓人眼前一亮。
馬騰宇自己的履歷就足夠惹眼。
2008年,馬騰宇在清華姚班畢業(yè)后,到普林斯頓大學(xué)攻讀博士學(xué)位;博士二年級獲得理論計(jì)算機(jī)方向的西蒙斯獎(jiǎng)、IBM博士獎(jiǎng)學(xué)金、NIPS最佳學(xué)生論文獎(jiǎng)、COLT最佳論文獎(jiǎng)等多種獎(jiǎng)項(xiàng);博士畢業(yè)后,馬騰宇到斯坦福擔(dān)任助理教授,也正式開始研究AI。
和馬騰宇打過交道的人無一不稱他為天才。他的博導(dǎo)教授曾預(yù)言,“如果他創(chuàng)業(yè),未來一定會(huì)給全球科技帶來嶄新一頁”。2021年,馬騰宇拿下有“諾貝爾獎(jiǎng)風(fēng)向標(biāo)”之稱的斯隆獎(jiǎng)后,“AI教母”李飛飛不掩贊嘆:“真正的天才不該埋沒在實(shí)驗(yàn)室”。
于是,馬騰宇創(chuàng)辦了Voyage AI。
公司成立后,馬騰宇組建起了一支來自斯坦福、MIT、加州大學(xué)伯克利分校和普林斯頓大學(xué)的世界級AI研究團(tuán)隊(duì),并邀請李飛飛擔(dān)任學(xué)術(shù)顧問。
Voyage AI的殺手锏就是通過其先進(jìn)的嵌入和重排序模型,實(shí)現(xiàn)高精度檢索能力,從而解決AI的幻覺問題。
嵌入模型是RAG系統(tǒng)的核心組件之一,可將文本數(shù)據(jù)轉(zhuǎn)換為向量嵌入,以便在向量數(shù)據(jù)庫中進(jìn)行高效的語義搜索;重排序模型則在RAG系統(tǒng)中用于優(yōu)化檢索結(jié)果的相關(guān)性。
嵌入模型與生成模型非常相似,依靠強(qiáng)大的神經(jīng)網(wǎng)絡(luò)(通常基于Transformer)架構(gòu)來捕獲和壓縮語義上下文,封裝文字、圖片、音頻等背后各種概念之間的復(fù)雜關(guān)系。早期在嵌入模型中封裝越多的知識,并將其生成的信息反饋到下一代模型的訓(xùn)練中,就會(huì)使得下游的RAG、搜索、推理系統(tǒng)更強(qiáng)大。
嵌入模型的訓(xùn)練難度也很大,需要在模型架構(gòu)、數(shù)據(jù)收集、函數(shù)選擇等方面多重考慮。
創(chuàng)業(yè)前,馬騰宇已經(jīng)帶領(lǐng)團(tuán)隊(duì)在斯坦福人工智能實(shí)驗(yàn)室和麻省理工學(xué)院NLP小組進(jìn)行了5年以上的研究,收集了海量數(shù)據(jù)集、進(jìn)行預(yù)處理和后處理實(shí)驗(yàn),以及開發(fā)專有方法以將對比學(xué)習(xí)應(yīng)用于文本。
創(chuàng)業(yè)后,Voyage AI發(fā)布還了多個(gè)系列模型,包括通用嵌入模型、代碼檢索嵌入模型、多模態(tài)嵌入模型。過去三個(gè)月,這些模型都升級到了最新的3.0版本。
這些模型能夠從高度專業(yè)化的文本和非結(jié)構(gòu)化數(shù)據(jù)(如法律文檔、金融報(bào)告、企業(yè)知識庫等)中提取語義信息,從而顯著提高AI模型的準(zhǔn)確性和可靠性。
為了讓應(yīng)用側(cè)的企業(yè)直觀感受到voyage系列模型的實(shí)力,Voyage AI決定免費(fèi)為每個(gè)組織嵌入前5000個(gè)文檔/查詢。
Voyage AI的工作也受到很多技術(shù)大牛的認(rèn)可。
Spot AI CEO Tanuj Thapliyal就曾在Linkedin上發(fā)文表示,對馬騰宇團(tuán)隊(duì)的工作成果感到很興奮?!霸谖覀傾GI的旅程中,無論上下文窗口的大小如何。嵌入模型(embeddings)和重排序器(rerankers)是組織世界上非結(jié)構(gòu)化數(shù)據(jù),并保持其有序性的最為關(guān)鍵的內(nèi)核?!?/p>
種種buff疊加,也讓Voyage AI頗受資本歡迎。
2024年10月,Voyage AI宣布完成2000萬美元A輪融資,總?cè)谫Y額達(dá)到2800萬美元。其中,風(fēng)投公司CRV領(lǐng)投了本輪融資,參與者包括Snowflake、Databricks、Pear VC、Tectonic Ventures等,且CRV普通合伙人Murat Bicer也加入了Voyage AI的董事會(huì)。
Voyage AI官網(wǎng)博客提到:“通過這筆投資,我們旨在擴(kuò)大我們的產(chǎn)品范圍,并繼續(xù)為您提供最先進(jìn)的非結(jié)構(gòu)化數(shù)據(jù)搜索和檢索模型?!?/p>
但就在所有人都期待Voyage AI的下一個(gè)里程碑時(shí),突然宣布了被MongoDB收購的消息。
意料之外,情理之中
2月24日,開源數(shù)據(jù)庫龍頭MongoDB宣布收購Voyage AI,估值2.2億美元。
這時(shí)距離Voyage AI A輪融資僅過了6個(gè)月,距離公司成立僅17個(gè)月。從歷史經(jīng)驗(yàn)來看,AI公司這么快退出的案例并不常見。
去年,喬治城大學(xué)安全與新興技術(shù)中心在一項(xiàng)研究中分析了2014年至2023年的人工智能并購事件。研究發(fā)現(xiàn),大型科技平臺通常在人工智能公司成立后平均4.8年收購它們,而其他公司收購的人工智能公司平均成立7.4年,足以見得Voyage AI的“反?!?。
Voyage AI A輪融資的領(lǐng)投方CRV也難掩遺憾,“對我們來說是較短的結(jié)局之一”,CRV合伙人Murat Bicer表示。畢竟業(yè)務(wù)更成熟時(shí)被收購,Voyage AI或許會(huì)得到遠(yuǎn)高于2.2億美元的估值。
從CRV的公開表態(tài)可以感受到,他們很看好Voyage AI。
Bicer曾直言,CRV看重Voyage AI是一支非常強(qiáng)大的技術(shù)團(tuán)隊(duì)。“目前,該領(lǐng)域(生成式AI領(lǐng)域)真正擁有數(shù)十年而非數(shù)年專業(yè)知識和經(jīng)驗(yàn)的人非常少,”他補(bǔ)充道。“當(dāng)這些人在做某件事時(shí),我們知道他們將以一種推動(dòng)整個(gè)市場前進(jìn)的方式進(jìn)行創(chuàng)新?!?/p>
被收購前,CRV已經(jīng)在為Voyage AI提供業(yè)務(wù)方面的輔助,幫助其組建管理團(tuán)隊(duì)、制定上市戰(zhàn)略并更好地協(xié)調(diào)定價(jià)。
然而,Voyage AI的退出來得太快,CRV許多努力仍在早期。但盡管如此,Bicer依然將Voyage AI此次被收購描述為一個(gè)“非常圓滿的結(jié)局”。
事實(shí)上,這次收購也是情理之中。
仔細(xì)翻看Voyage AI成立時(shí)的官宣博客會(huì)發(fā)現(xiàn),公司成立之初,團(tuán)隊(duì)就指出,實(shí)際應(yīng)用場景中,嵌入模型性能與行業(yè)專有數(shù)據(jù)有強(qiáng)關(guān)聯(lián)。
具體來看,在模型訓(xùn)練和性能評測環(huán)節(jié),高質(zhì)量數(shù)據(jù)集都是必備項(xiàng)。
MTEB(Massive Text Embedding Benchmark)是一個(gè)大規(guī)模的文本嵌入模型評估基準(zhǔn),能衡量文本嵌入模型在多樣化任務(wù)上的性能。它包含56個(gè)數(shù)據(jù)集,涵蓋8種任務(wù)類型,如文本分類、聚類、檢索、語義文本相似度(STS)等,并支持超過112種語言。
但博客提出,MTEB被“過度使用”了,有人會(huì)用評測集中的數(shù)據(jù)集直接給模型做訓(xùn)練,以此讓模型在評測時(shí)有更好的表現(xiàn),這也一定程度上折損了MTEB的公信力。為了進(jìn)行更全面的評估,Voyage AI自己構(gòu)建了九個(gè)額外的數(shù)據(jù)集,且數(shù)據(jù)均來自“真實(shí)世界的行業(yè)領(lǐng)域 (RWID)”,涵蓋了技術(shù)文檔、餐廳評論和新聞報(bào)道等多種數(shù)據(jù)。
博客進(jìn)一步寫道:“現(xiàn)實(shí)世界的場景總是比學(xué)術(shù)基準(zhǔn)更具挑戰(zhàn)性,因?yàn)槊總€(gè)行業(yè)都有其獨(dú)特的術(shù)語和知識庫,就像每個(gè)企業(yè)一樣?!币訴oyage AI的模型voyage-01為例,Voyage 01雖然開箱即用,但通過真實(shí)的業(yè)務(wù)數(shù)據(jù)微調(diào),它就能以更低的成本變得更好。
Voyage AI目前還針對編碼和金融場景量身定制了嵌入模型,并正在擴(kuò)展到更多領(lǐng)域。“我們還可以在小型、未標(biāo)記的公司特定數(shù)據(jù)集上微調(diào)嵌入,為LangChain、OneSignal、Druva和Galpha等試點(diǎn)客戶實(shí)現(xiàn)10-20%的準(zhǔn)確率提升?!?/p>
可見,想要嵌入模型在真實(shí)場景中有更好的準(zhǔn)確性和相關(guān)性,很大程度需要與真實(shí)的運(yùn)營數(shù)據(jù)深度集成。但對于醫(yī)療、金融等對數(shù)據(jù)安全要求極高的場景,企業(yè)通常不愿將業(yè)務(wù)數(shù)據(jù)隨便提供給第三方廠商。馬騰宇也表示:“要讓AI應(yīng)用充分發(fā)揮其潛力,企業(yè)必須信任其輸出,因此檢索需要與運(yùn)營數(shù)據(jù)深度集成,以確保準(zhǔn)確性和相關(guān)性?!?/p>
因此,和MongoDB等有企業(yè)大量真實(shí)業(yè)務(wù)數(shù)據(jù)的企業(yè)合作,對Voyage AI而言無疑是事半功倍的選擇。
但數(shù)據(jù)庫企業(yè)那么多,為什么是MongoDB?
MongoDB或許更需要Voyage AI
MongoDB可謂NoSQL數(shù)據(jù)庫中文檔型數(shù)據(jù)庫的“鼻祖”。
大約從1970年起,此后二十多年一直是關(guān)系型數(shù)據(jù)庫的天下。但傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理高并發(fā)讀寫、海量數(shù)據(jù)存儲(chǔ)和非結(jié)構(gòu)化數(shù)據(jù)時(shí)存在很大局限性。
直到2007年,關(guān)系型數(shù)據(jù)庫來到轉(zhuǎn)折前夜。
當(dāng)時(shí),Dwight Merriman、Kevin Ryan、Eliot Horowitz三位工程師共同創(chuàng)辦10gen,初衷是打造一款面向開發(fā)者的PaaS產(chǎn)品,還拿到了超8000萬美元的投資。
資金就位后,三人本計(jì)劃找一個(gè)能夠支持其PaaS產(chǎn)品的海量數(shù)據(jù)庫。但當(dāng)時(shí)成熟的數(shù)據(jù)庫基本都是基于單機(jī)架構(gòu)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫,如Oracle,MS SQLServer等。即便Oracle支持一些集群部署,其擴(kuò)展性也僅限于2-4臺服務(wù)器。
于是,10gen的創(chuàng)始團(tuán)隊(duì)決定直接自己開發(fā)一個(gè)數(shù)據(jù)存儲(chǔ)服務(wù),讓所有數(shù)據(jù)都能被存儲(chǔ),并提供易用的API,讓開發(fā)者可以對數(shù)據(jù)進(jìn)行常見的增刪改查操作。
為便于開發(fā)者操作,Eliot決定使用JSON作為數(shù)據(jù)格式進(jìn)行存儲(chǔ)。JSON的數(shù)據(jù)在英文被稱為“JSON Document”,“文檔數(shù)據(jù)庫”的名字由此而來。
兩年后的2009年2月,10gen正式發(fā)布開源數(shù)據(jù)庫MongoDB 1.0,首次打破了關(guān)系型數(shù)據(jù)庫的統(tǒng)治。
之后,10gen在數(shù)據(jù)庫的路上越走越遠(yuǎn)。2013年8月,10gen改名為MongoDB,正式以NoSQL數(shù)據(jù)庫為主業(yè);2014年,MongoDB收購WiredTiger存儲(chǔ)引擎,大幅提高M(jìn)ongoDB的寫入性能。
2017年10月,成立十年的MongoDB在納斯達(dá)克上市。上市后,MongoDB的市場表現(xiàn)也超出預(yù)期,市值最高一度達(dá)到335.6億美元。
但就在MongoDB勢頭正盛的關(guān)頭,開源、靈活的技術(shù)特色也給公司帶來不少麻煩。
2017年初,由于MongoDB數(shù)據(jù)庫在默認(rèn)配置下無需用戶名和密碼即可訪問,使得大量黑客入侵了全球數(shù)萬個(gè)MongoDB數(shù)據(jù)庫,勒索用戶交贖金才能恢復(fù)數(shù)據(jù)。
2018年10月,MongoDB又宣布將其開源許可證從GNU AGPLv3切換到服務(wù)器端公共許可證(SSPL)。一石激起千層浪,許多開發(fā)者和企業(yè)用戶認(rèn)為SSPL對商業(yè)用戶不夠友好,限制了軟件的自由使用和分發(fā)。Linux發(fā)行版(如Debian和Fedora)甚至拒絕使用SSPL協(xié)議下的MongoDB。
開源許可證變更后,AWS、IBM和微軟等云服務(wù)商們又紛紛推出兼容MongoDB的產(chǎn)品,以應(yīng)對MongoDB的競爭。
不過,接連的風(fēng)波并未傷及MongoDB的根本,他們?nèi)栽谧约旱墓?jié)奏里不斷優(yōu)化產(chǎn)品。2018年6月,MongoDB推出多文檔ACID強(qiáng)事務(wù)機(jī)制,意味著MongoDB能夠支撐更復(fù)雜的數(shù)據(jù)操作,適用于更廣泛的業(yè)務(wù)需求。
深圳鈦鉑數(shù)據(jù)創(chuàng)始人及CTO、MongoDB中文社區(qū)主席唐建法曾撰文總結(jié)了MongoDB的三條核心優(yōu)勢:
基于JSON的數(shù)據(jù)模型最接近開發(fā)者的面向?qū)ο蟮脑O(shè)計(jì)思維;
靈活動(dòng)態(tài)的模型意味著在需求多變的時(shí)候極大簡化數(shù)據(jù)庫設(shè)計(jì)流程;
自動(dòng)分片、多節(jié)點(diǎn)自動(dòng)同步和跨中心能力支持各種現(xiàn)代化復(fù)雜部署需求。
目前,MongoDB是全球最受歡迎的文檔型數(shù)據(jù)庫,在全球100多個(gè)國家和地區(qū)擁有超過50000個(gè)客戶。因此,對于Voyage AI而言,MongoDB確實(shí)是一個(gè)理想的合作伙伴。
然而,MongoDB今天的處境卻并不樂觀。
疫情后,全球經(jīng)濟(jì)開始放緩,各企業(yè)IT支出相應(yīng)縮減,加以AI沖擊,MongoDB往日的差異化優(yōu)勢逐漸被AI的光芒掩蓋,Atlas的新工作負(fù)載增長低于預(yù)期。
3月6日,在2026財(cái)年業(yè)績報(bào)告中,MongoDB的全年預(yù)期也不樂觀,預(yù)計(jì)全年收入在22.4億-22.8億美元之間,低于分析師預(yù)期的23.2億美元;MongoDB預(yù)計(jì)全年調(diào)整后的每股收益在2.44-2.62美元之間,遠(yuǎn)低于分析師預(yù)期的3.34美元。業(yè)績預(yù)告發(fā)布后,MongoDB股價(jià)下跌近27%,和去年509美元的最高點(diǎn)也相去甚遠(yuǎn),估值已縮水至143億美元。
但盡管如此,收購Voyage AI對市場信心的激勵(lì)作用已經(jīng)開始顯現(xiàn)。面對較為悲觀的全年預(yù)期,多位高評級分析師仍對MongoDB給出“買入”或“持有”的評級。
接下來,MongoDB將陸續(xù)與Voyage AI深度集成。
MongoDB CEO Dev Ittycheria在博客中寫道,Voyage AI與MongoDB的集成將確保開發(fā)人員不再需要管理外部嵌入API、獨(dú)立向量存儲(chǔ)或復(fù)雜的搜索管道。
“AI檢索將內(nèi)置于數(shù)據(jù)庫本身,使語義搜索、矢量檢索和排名與傳統(tǒng)查詢一樣流暢,”Ittycheria解釋道。集成本身將分三個(gè)階段進(jìn)行:
第一階段,Voyage AI的文本嵌入、多模態(tài)嵌入和重新排名模型將通過 Voyage AI當(dāng)前的API以及AWS和Azure市場廣泛提供。
在第二階段,MongoDB將把Voyage AI的功能嵌入到MongoDB Atlas中,首先是針對Vector Search的自動(dòng)嵌入服務(wù),該服務(wù)將自動(dòng)處理嵌入生成?!半S后將進(jìn)行本機(jī)重新排名,允許開發(fā)人員立即提高檢索準(zhǔn)確性?!盜ttycheria寫道。
在第三階段,MongoDB將添加先進(jìn)的AI檢索功能,并增強(qiáng)多模態(tài)能力。
“我們還計(jì)劃引入指令調(diào)整模型,讓開發(fā)人員使用簡單的提示而不是復(fù)雜的微調(diào)來優(yōu)化搜索行為,”Ittycheria解釋說,并補(bǔ)充說它將通過在 MongoDB Atlas優(yōu)化AI應(yīng)用程序時(shí)嵌入生命周期管理來進(jìn)行補(bǔ)充。
AI這艘時(shí)代巨輪,MongoDB雖然不是上得最早的那個(gè),卻也找到了最有經(jīng)驗(yàn)的船員,未來能否跑上快航道,就要交給時(shí)間決定了。
本文為創(chuàng)業(yè)邦原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載,否則創(chuàng)業(yè)邦將保留向其追究法律責(zé)任的權(quán)利。如需轉(zhuǎn)載或有任何疑問,請聯(lián)系editor@cyzone.cn。