編者按:本文來自微信公眾號 有新Newin(ID:NewinData),作者: 有新,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
2023 年即將結(jié)束,回顧今年生成式 AI 爆發(fā)式的增長,AI 領(lǐng)域最受矚目的一筆10億美金的并購 —— Databricks 在今年 6 月以 13 億美金的“天價”,收購了當(dāng)時成立 2 年的大語言模型(LMM)基礎(chǔ)設(shè)施創(chuàng)業(yè)公司 MosaicML。
受這起收購的推動,AI Infra 初創(chuàng)公司以及科技巨頭們紛紛開始了融資和產(chǎn)品迭代的熱潮?;乜?MosaicML 這筆收購,當(dāng)時僅有 60 多人,但是已經(jīng)推出了 MPT 7B、30B 兩個開源大語言模型,總下載量超過 330 萬,也是最早一批推出開源 LLM 的公司之一。
本期為大家分享的是創(chuàng)投圈知名播客節(jié)目 OnBoard! 不久前與 MosaicML 聯(lián)合創(chuàng)始人& CTO Hanlin Tang 深度英文對談。
此外,OnBoard! 還邀請到了老嘉賓&硅谷成長期投資人 Sapphire Ventures 合伙人 Casber Wang,帶領(lǐng)大家從創(chuàng)始人和投資人的視角,一起解讀這個有里程碑意義的收購,以及對于生成式 AI、Al infra 核心競爭力和未來格局等等話題進行非常有意思的探討。
這次深度對話的中文完整內(nèi)容由 有新Newin出品,enjoy~
Monica
首先,我們應(yīng)該向觀眾簡單介紹一下你自己,以及你是如何進入 AI 領(lǐng)域的。像往常一樣,我們也希望你們兩位分享一個有趣的事實。你最近發(fā)現(xiàn)有什么有趣的 AI 項目或產(chǎn)品嗎?對于 Casber 來說,我還有另一個問題。你最近在 AI 方面的投資是什么?
Hanlin Tang
很高興來到這里,感謝邀請,我是 Hanlin Tang,曾是 MosaicML 的 Co-founder。我在 AI/ML 領(lǐng)域工作了相當(dāng)長的時間。我想我最初是在研究生院讀書時,當(dāng)時我在計算神經(jīng)科學(xué)領(lǐng)域工作。那時我們沒有大量的數(shù)據(jù)集來訓(xùn)練這些模型,但我們?nèi)栽趪L試構(gòu)建可以執(zhí)行視覺識別任務(wù)的神經(jīng)網(wǎng)絡(luò)層。
因此,當(dāng)整個 ImageNet 和深度學(xué)習(xí)的浪潮來臨時,對我來說,自然而然地也轉(zhuǎn)向了這個領(lǐng)域,所以之前在 Intel 負(fù)責(zé) AI 層面的工作,再之前則是在另一家名為 Nirvana Systems 的深度學(xué)習(xí)初創(chuàng)公司。哦,有趣的近期項目或 AI 領(lǐng)域的事情,我實際上可能會提到我最近偶然發(fā)現(xiàn)的一篇舊論文。在沒有 ImageNet 來訓(xùn)練這些模型的時代,人們所做的是組裝這些卷積神經(jīng)網(wǎng)絡(luò),包括卷積層和池化層,而這些權(quán)重并不是通過反向傳播學(xué)習(xí)得來的,而是實際上在猴子的視覺皮層中測量得來的,他們測量了濾波器的結(jié)果,并將其實例化到硅基神經(jīng)網(wǎng)絡(luò)中。
事實證明,這種方法的性能相當(dāng)好。這就是舊式訓(xùn)練這些模型的方法,你只是嘗試弄清楚大腦是如何做到的,然后將這些濾波器倒入神經(jīng)網(wǎng)絡(luò)中。我希望這種方式能奏效,并且很興奮地看到,即使在今天,這種類型的架構(gòu)仍然與它起源的神經(jīng)科學(xué)有著密切的聯(lián)系。
Monica
當(dāng)然,我非常期待看到更多神經(jīng)科學(xué)研究與深度學(xué)習(xí)之間的聯(lián)系。
Casber Wang
謝謝再次邀請,Monica。我是 Casber Wang,Sapphire Adventures 的合伙人。我們是一個主要投資企業(yè)級 B2B 的成長階段風(fēng)險資本公司,管理著大約 100 億美元的資金。目前,我主要關(guān)注 Infra 方面,包括數(shù)據(jù)、 DevOps 和 AI/ML 領(lǐng)域。顯然,我會說從投資者的角度來看, AI/ML 已經(jīng)發(fā)生了很大變化。即使回想到 2017 年和 2018 年,當(dāng)時人們對 AI/ML 的推廣還不夠真實,大家對 AI/ML 非常懷疑。
ChatGPT 的推出我認(rèn)為已經(jīng)在很大程度上改變了這種情況,但即使在那之前,我認(rèn)為你看看我們所談?wù)摰哪切└鼈鹘y(tǒng)的 AI ML,那些被像 Alteryx 或者 DataRobot 這樣的公司支持,在企業(yè)中廣泛使用的技術(shù),它們?nèi)匀槐粡V泛使用。我傾向于認(rèn)為 ChatGPT 是一個分水嶺時刻,它吸引了很多關(guān)注,無論是從籌資還是從消費者角度來看。但正如 Hanlin 剛才提到的,很多發(fā)展已經(jīng)在很久以前就發(fā)生了。我傾向于認(rèn)為 AI/ML 的發(fā)展更像是機械工程,比如建造橋梁。
現(xiàn)在的 AI/ML 幾乎像生物學(xué)研究一樣,你可能會最終達到某個地方,有可以追溯的路徑,但很難確切地知道你在逐塊建造什么,所以我只是覺得時機、一切都非常合適。當(dāng) ChatGPT 實際推出時,這個領(lǐng)域發(fā)生了巨大的 Cambrian 爆發(fā)。然后我們開始看到很多興趣,無論是從企業(yè)家方面還是從投資者社區(qū)的角度進入這個領(lǐng)域。因此,我花了很多時間關(guān)注 LLM 公司等,而且往往對這些機會非常興奮,不幸的是,我沒有投資 MosaicML ,祝賀 Ruby 和 Hanlin 取得了很好的成果。我最近在一家叫做 Weights & Biases 的公司投了一筆資。我認(rèn)識 CEO Lucas 已經(jīng)很長時間了,這是我會說的 MLOps 領(lǐng)域之一,它已經(jīng)存在一段時間了,現(xiàn)在又開始向傳統(tǒng) ML 領(lǐng)域,但也向新的 LLM 方面發(fā)展。
Monica
Weights & Biases 成立已經(jīng)很久了,這波新的 LLM 浪潮是否改變了你對現(xiàn)有公司的看法?
Casber Wang
我不這么認(rèn)為。我實際上覺得它是從傳統(tǒng) ML 到新的 LLM 方面的一個很自然的橋梁。我認(rèn)為你可以談?wù)摬煌娜宋锝巧?,對吧,像現(xiàn)在有更多新人加入做 AIML。但當(dāng)我們看市場頂端時,我認(rèn)為有些人已經(jīng)做了很長時間,無論是欺詐檢測、自動駕駛汽車等等。我認(rèn)為這波新浪潮,并不是說它是完全新的,會取代舊的東西。我看它更像是通往未來更大事物的延伸。
Hanlin Tang
我只是想說,我仍然記得當(dāng) Weights & Biases 剛起步時,在那里有一個非常小的展位。他們建立了一個特別出色的平臺,特別是在 LLM 領(lǐng)域。至少對于我們在訓(xùn)練大規(guī)模模型方面所做的,監(jiān)控的能力,以及分享監(jiān)控的能力非常重要,因為我們每天都有 10 到 20 個人查看模型訓(xùn)練的結(jié)果,以確保一切正常。Weights & Biases 在構(gòu)建一個真正可用和優(yōu)秀的產(chǎn)品方面做得非常出色。
Monica
從投資者和創(chuàng)業(yè)者的視角,看看現(xiàn)在已有的 MLOps 和工具,其中哪些會在這波新的 LLM 浪潮中保留,哪些可能會被替換、顛覆或改變?
Casber Wang
我覺得很有趣,因為我認(rèn)為隨著越來越多新事物的出現(xiàn),某些更老的東西也會隨之而來。我是說,顯然,有些技術(shù)是老的,但我認(rèn)為從技術(shù)棧和哲學(xué)觀點來看,它們?nèi)匀淮嬖?,我告訴人們,比如 Lucas 在創(chuàng)立 Weights & Biases 之前,他創(chuàng)立了 Cloudflare,后來賣給了 Appen,那是一家標(biāo)注公司,然后在此基礎(chǔ)上擴大了標(biāo)注業(yè)務(wù),所以我認(rèn)為你會開始看到許多被重新激活或以不同形式重新出現(xiàn)的領(lǐng)域,
我認(rèn)為這里真正令人興奮的是,我認(rèn)為在 LLM 之前,許多模型并沒有真正部署到生產(chǎn)中。我認(rèn)為 MosaicML 在幫助人們真正部署到生產(chǎn)方面做得非常好,而我認(rèn)為,一旦你將東西部署到生產(chǎn)中,就會出現(xiàn)各種實際的問題或難題,而這些問題或難題將由一套新的工具來解決,比如監(jiān)控或流量控制。
而今天,我認(rèn)為再次從投資者和企業(yè)家的角度來看,你可能會抽象地將這些 LLM 視為一個黑盒子,作為一個 API 調(diào)用,而實際上在你擴張這些應(yīng)用時,底層發(fā)生了更多事情。在管理更好的部署或推理方面,你可以做更多事情。你如何管理和優(yōu)化這些工作流程以達到最佳結(jié)果。當(dāng)然,Hanlin 可能對此有更多見解吧?
Hanlin Tang
我想,我們看到的是,企業(yè)想要部署這類模型時,顯然有 MLOps 的需求,以及監(jiān)控和評估等方面的需求。但對我來說不清楚的是,現(xiàn)有解決方案目前是否足夠好,足以支持部署,還是真的存在那種阻礙他們多個月無法進行生產(chǎn)部署的痛點?就像一個新的界面或新的 MLOps 工具介入時一樣。挑戰(zhàn)的一部分也是,目前對于 LLM 應(yīng)用來說,它更像是一種創(chuàng)造性的探索,就像每個企業(yè)都在做,“讓我們舉辦一個 LLM 黑客馬拉松,嘗試原型這些應(yīng)用可能會是什么樣子”,在沒有確定這一點之前,很難預(yù)測需要哪些額外工具才能使這些事情真正實現(xiàn)。
Casber Wang
再分享一個軼事。我昨天剛在舊金山參加了 Google Next,我不打算點名,但那里有一個相當(dāng)著名的動作識別供應(yīng)商。我去看了他們的演示,而這個演示在中間卡住了三次。從真實企業(yè)的角度來看,如果你啟動了 GitHub Copilot 或者說像 GitLab Copilot 這樣的東西,而且在你第一次嘗試使用時,你遇到了三個異常,那可能不是一個很好的體驗。但早期,我想根據(jù) Hanlin 的觀點,人們正在嘗試這些東西。我們是如此興奮,愿意在早期承擔(dān)更大的錯誤容忍度。但隨后,在更嚴(yán)肅的企業(yè)環(huán)境中,如果你想讓人們真正將其整合到日常工作流程中,你必須期望一定程度的準(zhǔn)確性,這與實驗和嘗試完全不同。
Hanlin Tang
我只是想回應(yīng)一下,很多艱苦的工作并不是找到一個酷炫的方法來服務(wù)于 LLM,而是像磨掉最后的 99% 的延遲那樣的艱苦工作,或者像每個愚蠢的服務(wù)失敗,或者隨機的 GPU 故障之類的。這些基礎(chǔ)工作的處理使這些產(chǎn)品達到企業(yè)對關(guān)鍵任務(wù)部署的可靠性和期望,所以我認(rèn)為目前的很多工具,包括我們所構(gòu)建的,實際上還沒有達到那種狀態(tài),因為還有很多艱苦的工作需要完成。
Monica
我記得在我上一期與 Casber 的節(jié)目中,我們簡要談?wù)摿诉@個話題,當(dāng)時 MLOps 領(lǐng)域非常碎片化,那期節(jié)目大概是半年前,比 LLM 浪潮成為主流之前。我認(rèn)為你們剛才討論的讓我想起,可能是因為我們看到傳統(tǒng)的 LLMOps 領(lǐng)域并沒有看到很多大的沖突,可能正如你們所說,大多數(shù)模型沒有進入生產(chǎn)階段,所以它們沒有機會擴展。如果 LLM 能夠?qū)⒏嗄P驼嬲赜蠥I應(yīng)用增長,我們可能會看到很多現(xiàn)有的工具,無論是新的還是舊的,都會專注于生產(chǎn)環(huán)境。這聽起來像是更多的機會!
回到 Hanlin,所以我想對于那些不太了解的人來說,如果你能給我們介紹一下MosaicML 做什么,以及它的關(guān)鍵技術(shù)和業(yè)務(wù)。
Hanlin Tang
當(dāng)然。我認(rèn)為我們大約兩年半前開始,因為我們看到大規(guī)模模型將成為一種趨勢,使這些工具高效、易用和易于獲取是這些能力真正進入更廣泛企業(yè)的方式。在 Intel ,我們看到許多公司在這方面的掙扎,不幸的是,即使到今天,深度學(xué)習(xí)的軟件工具仍然非常不成熟。你配置錯誤一個驅(qū)動,突然就慢了兩倍,而且你不知道為什么,所以這就是我們要解決的問題。
我們很幸運看到我們的產(chǎn)品準(zhǔn)備好之后, LLM 波浪來臨。Mosaic 的簡要介紹是,我們構(gòu)建了軟件 Infra ,使公司能夠高效、輕松地在自己的數(shù)據(jù)上訓(xùn)練自己的模型。我們相信在一個可能更好的世界中,我們賦予企業(yè)能力,使他們能夠訓(xùn)練自己的模型,自己的 LLM ,并建立自己的偏見和觀點。我們的工作是構(gòu)建 Infra ,解決性能問題,解決工程挑戰(zhàn),使這些公司能夠非常輕松地做到這一點。我們很幸運有一些客戶,包括亞洲的,實際上相當(dāng)多,但也包括美國的,與我們一起走過這段旅程。
Monica
Mosaic 是什么時候成立的?
Hanlin Tang
成立于 2021 年 1 月。
Monica
2021 年 1 月的時候,很多人或許都看不到 LLM 或大型模型將像我們現(xiàn)在所說的那樣占據(jù)世界,所以我很好奇,那時你在做什么?你和你的團隊看到了哪些早期跡象,讓你們相信是時候為大型模型建造 infra 了?
Hanlin Tang
我想早期,我們看到 OpenAI 在 GPT 系列模型上所做的事情。顯然,它們還沒有達到今天的能力水平,但看著已經(jīng)很有可能性。坦率地說,當(dāng)我們專注于大規(guī)模模型時,我們認(rèn)為大規(guī)模模型將成為一種趨勢。但它們是 LLM 、大規(guī)模計算機視覺模型還是非transfomer 架構(gòu)的大規(guī)模訓(xùn)練,當(dāng)我們開始公司時這還不太確定,所以一塊一塊地,我們從簡單的計算機視覺模型、分割模型到 BERT 風(fēng)格的模型,再到 LLM 。我會說就在去年這個時候,我們已經(jīng)構(gòu)建了這個技術(shù)棧,但大多數(shù)公司都在問,“什么是 LLM ,我為什么需要它?”哦,這些東西編造了很多東西。我為什么要使用這樣的東西?我認(rèn)為這只是一個時機問題,我們看到了大規(guī)模模型,我們不知道確切的類型,我們必須為未來做好準(zhǔn)備。
Monica
確實,在過去的一年里發(fā)生了很多事情。從 Stable Diffusion,和去年年底 ChatGPT 的問世,你們看到了什么?你們是什么時候開始意識到,你們的平臺需求發(fā)生了變化?在你們的產(chǎn)品線和商業(yè)模式方面,你們過去一兩年內(nèi)做出了哪些主要的里程碑式變化?
Hanlin Tang
我認(rèn)為顯然一旦 ChatGPT 出現(xiàn)后,企業(yè)的需求顯著上升。一開始,我們真的很專注于從頭開始預(yù)訓(xùn)練我們自己的模型,完全控制數(shù)據(jù)來源,并為特定的語言需求進行調(diào)優(yōu)。我認(rèn)為隨著技術(shù)環(huán)境的發(fā)展,我們?nèi)缓髷U展到,好的,現(xiàn)在你想要接手一個現(xiàn)有的模型并對其進行微調(diào)。你想能夠服務(wù)這種構(gòu)建出來的模型,我們想要構(gòu)建出這種端到端的訓(xùn)練和構(gòu)建 LLM 的堆棧。我們的重點一直在 ML 系統(tǒng)方面,所以這就是我們所看到的進展。
Casber, 我不知道你在嘗試解決這個領(lǐng)域的初創(chuàng)公司中看到了什么。像他們的進展是否與我們的方式類似,還是實際上與我們的方法相反?
Casber Wang
你們公司 Intel 可能在企業(yè)方面看到了這一點,事情總是從更定制化開始,然后才會像你們 團隊那樣,先賣給頂層人物,這些人愿意為此付出高價并想要定制這些東西,然后才能向下游推廣。
我認(rèn)為像你們這樣,以正確的方式接近市場。有些人,你知道,從時間角度來看,不幸的是,他們被困在了舊有的范式中。之所以這樣,是因為在這里之前有很多興趣、很多關(guān)注、很多預(yù)算,而不是真正的現(xiàn)金。之所以有那么多針對 MLOps 的點式解決方案,這是我的理論,是因為大多數(shù)認(rèn)真做 ML 的人已經(jīng)建立了自己的管道,所以他們只需要一兩個點式解決方案,就能夠插入并解決他們堆棧中的某個問題。因此,有公司在圍繞如何構(gòu)建可以插入他人堆棧的東西來建立業(yè)務(wù),而不是看全局。
這并不是因為他們自己的過錯,而是沒有看到更大的圖景。
就像在大型企業(yè)中,你不會考慮如何訓(xùn)練我的端到端模型,而當(dāng) ChatGPT 出現(xiàn)時,這是一件大事。我確信我們還會談到的另一件事是,那些從非消費角度出發(fā)的人,從自下而上的那些更長尾的應(yīng)用,那并不是企業(yè)級的。但現(xiàn)在它們正在出現(xiàn),但這是一個 Prompt 市場,或者是一些其他的東西正在出現(xiàn)。這些是在 LLM 出現(xiàn)之前通常不需要的新東西,所以這是在解決一個非常不同的領(lǐng)域。
Hanlin Tang
我我傾向于同意。我認(rèn)為我們的論點一直是專注于硬件工程問題,尤其是 ML 性能。在傳統(tǒng)的機器學(xué)習(xí)中,如果是 100 美元或 50 美元,可能不值得遷移到新的堆?;蝾愃频臇|西。但當(dāng)它是一百萬美元或五十萬美元時,這種效率突然變得非常關(guān)鍵,所以我們想解決一個核心的經(jīng)濟問題,有這樣的需求,并希望我們能夠構(gòu)建出其他工具。
Monica
從一開始,你們就專注于提高大型模型訓(xùn)練的成本效率。那么你們的早期客戶是誰?我會想象,比如早期像 OpenAI 這樣的 LLM 構(gòu)建者,他們那時可能已經(jīng)建立了他們的堆棧。
Hanlin Tang
我們早期的一批客戶是那些正在訓(xùn)練 Bert 模型的客戶。對于他們來說,他們試圖抓住越來越大的 Bert 模型,所以那是我們的首次介紹。我們實際上也在計算機視覺和語義分割方面投入了很多,但在那部分起飛之前,NLP 和LLM 的階段已經(jīng)進來了,所以我認(rèn)為那是我們獲得的第一批客戶。但我們花了整整一年的時間來構(gòu)建。顯然,我們與潛在客戶進行了交流,了解了他們的痛點。但工程方面確實需要首先進行高效的大規(guī)模訓(xùn)練。
Monica
我想深入了解一些非常有趣的 MosaicML 公司的產(chǎn)品或公司決策。首先,我注意到的是,一開始, MosaicML 實際上開源了很多工具。漢林,你能不能談一談你們開源了什么,以及為什么決定開源?
Hanlin Tang
當(dāng)然。一開始,我們開源了一個基于 PyTorch 的庫,名為 Composer,它允許有效地訓(xùn)練,同時也能有效地插入新類型的算法來訓(xùn)練這些模型。我們實際上是出于對我們研究團隊進行實驗的必要而構(gòu)建了這個。一旦我們想要將其推廣給客戶,就很明顯,ML 數(shù)據(jù)科學(xué)家想要看到和了解一切,他們不會接受“嘿,這里有一個加速模型訓(xùn)練的黑匣子代碼,但你不能看,不能知道它做了什么,這是專有的,一些專有的秘密配方,”這真的行不通。而我們從核心上非常支持開源。老實說,WHI(制作數(shù)據(jù)庫的公司)從核心上也非常支持開源,因為從哲學(xué)角度來看,這非常契合,因為我們試圖開源它。我們從外部人員那里獲得了很多貢獻,他們進來使用等等。
后來,或者說更晚些時候,我們決定也開源 MPT 。MBT-7B,我認(rèn)為是首個商業(yè)許可的 Llama 風(fēng)格模型被發(fā)布。對我們來說,這個模型很棒。我們對社區(qū)的反應(yīng)感到非常榮幸。對我們來說,這是我們工具能做什么的聲明。我們開源它的原因是顯然為了幫助社區(qū)從中發(fā)展。但也是,“嘿,伙計們,這個模型從頭開始訓(xùn)練只用了10天。這不是什么神奇的八位數(shù)成本。這里是它真正的成本以及如何做到的。順便說一句,只需點擊按鈕,它就能工作,”這也是我們考慮的部分目標(biāo)。
Casber Wang
我想在這里問一個問題,如果你今天要開始 MosaicML ,知道已經(jīng)發(fā)生了這么多的發(fā)展,人們已經(jīng)加入了開源列車,顯然,我認(rèn)為你仍然會像你提到的模型那樣開源,向人們展示你用 15 或 20 萬的訓(xùn)練成本,相比于多少開源培訓(xùn),以及驗證策略。但就核心架構(gòu)而言,你今天還會開源像 Composer 這樣的工具嗎?或者說,因為市場更加成熟,我們就更傾向于封閉源代碼?
Hanlin Tang
我認(rèn)為對于像 Composer 這樣的工具,我今天大概還是會選擇開源,主要是因為數(shù)據(jù)科學(xué)家不信任封閉源代碼,尤其是當(dāng)他們把數(shù)據(jù)和模型托付給你時。如果它保持封閉源代碼,要跨越那個說服障礙真的很難。我個人認(rèn)為,對社區(qū)來說,開源總體上更好。從商業(yè)角度來看,如果我們找不到一種方法來在開源的同時盈利,那么我們可能選錯了行業(yè),或者我們必須重新考慮我們正在做的事情,像我們必須找到一種在開源的基礎(chǔ)上盈利的方法,無論如何,這是我們一開始的理念。
Monica
這也是我對 Casber 的一個問題,因為我們長期專注于 Infra 開發(fā)者工具和領(lǐng)域,我們經(jīng)歷過 2020 年和 2021 年,開源的熱潮,那時候你有一個非常好的社區(qū)(也不需要收入和商業(yè)模式),好像就能成為獨角獸。在那之后發(fā)生了什么變化?如果我是一位創(chuàng)始人,我應(yīng)該如何思考是否開源我的產(chǎn)品?如果我已經(jīng)擁有一個相對成功的開源項目,我應(yīng)該如何考慮商業(yè)化之路?
Casber Wang
我認(rèn)為最大的差別是,之前,大多數(shù)開源公司或更有機的開源項目都是這樣的,就像你想到 Confluent,Kafka 不是為了開始 Confluent 而開源的,它基本上是一個有機過程,在 LinkedIn 發(fā)展了三四年之后才開始創(chuàng)建公司。然后在 2020 年和 2021 年,LinkedIn、Uber 的高級工程師開始使用。你要創(chuàng)辦一家開源公司,我要看你發(fā)展過程是否是有機的。最極端的例子是有人在創(chuàng)辦公司的那一刻就開源項目,并宣稱那家公司是一家開源公司;我認(rèn)為這樣你就無法獲得社區(qū)吸引力的好處,但也無法讓社區(qū)共同構(gòu)建產(chǎn)品,對抗測試產(chǎn)品,但你也在商業(yè)化方面花費了精力,你基本上是在向社區(qū)免費提供東西,然后稍后你需要捕獲東西。
從這個角度來看,這是一個更難的循環(huán),所以我認(rèn)為最重要的一點是考慮開源與否,就像這個產(chǎn)品團隊是否能夠在不管是不是開源的情況下對該產(chǎn)品進行商業(yè)化。我認(rèn)為這是最大的一點,然后如果開源是正確的決定,那么就變成了“這個開源項目已經(jīng)存在多久了",如果它是一個數(shù)據(jù)庫產(chǎn)品,就像如果它只存在了 6 個月,你可能需要更多時間來對抗測試那個東西。
如果你只是在一個非常年輕的開源項目數(shù)據(jù)庫方面開始一家公司,你會遇到穩(wěn)定性問題,因為你還沒有經(jīng)過對抗測試,”與某人從 Progress 或 MySQL 這樣更經(jīng)過對抗測試的項目開始相比,你會得到更多開源驗證的好處,不是嗎?我認(rèn)為這是一個非常重要的決策。只是要思考你所處的開源項目類型,以及你應(yīng)該開源還是不開源。
當(dāng)然,其次,我認(rèn)為像 Hanlin 提到的,在一些快速發(fā)展的領(lǐng)域,如 ML 和 AI,開源可能是一個非常有趣的策略,因為你在某種程度上將自己嵌入到社區(qū)堆棧中,通常,我認(rèn)為像我這樣的投資者最天真的問題之一就是,為什么不是 Google 做這個?為什么不是 Amazon 做這個?為什么不是別人做這個?我認(rèn)為這在一開始也很大程度上是一個品牌的事情,社區(qū)會考慮堆棧應(yīng)該是什么樣的,然后他們就會跟隨這個項目。他們不會去想,嘿,讓我去找找亞馬遜、谷歌有什么,他們只會堅持使用 Mosaic 和其他三個工具,因為這就是社區(qū)里的東西。這就是人們使用它的原因,與其他不同,所以這里有一種品牌和網(wǎng)絡(luò)效應(yīng),而沒有開源的驗證,你真的得不到這個。
Casber Wang
所以我認(rèn)為那就是開源也可以是一個非常好的強有力的驗證策略,與另一方面相比,我認(rèn)為開源通常在市場非常成熟,問題集非常成熟的情況下表現(xiàn)不那么好。
作為買家,我知道我需要解決什么問題。我知道這里有具體的 KPI 會拿來和你比較,然后這個工具是否開源對我的決策影響不大,所以它更像是一個錦上添花的東西,而不是早期你可以有機會進來為社區(qū)定義標(biāo)準(zhǔn)。這就是我認(rèn)為開源變得非常有價值的地方。
Hanlin Tang
我想回應(yīng)一下,客戶來找我們并不是因為我們傳統(tǒng)上是開源的,客戶數(shù)據(jù)科學(xué)家在某處使用開源工具,他們想購買像一個管理版本的東西,但對我們來說,情況非常不同。我們大部分來自客戶的詢問不是因為他們已經(jīng)在使用 Composer。他們想買這個未經(jīng)管理的 Composer,因為我們實際上并沒有提供這個產(chǎn)品。他們找我們是因為他們有一個問題需要解決。他們想訓(xùn)練一個模型,開源的 Composer 是做到這一點的工具之一。他們喜歡在自己更了解的技術(shù)棧上進行構(gòu)建,而不是它僅僅是我們整個需求生成路線的一部分。
Monica
但我認(rèn)為你提出了一個關(guān)于市場時機的非常有趣的觀點。我認(rèn)為這也是一個利弊并存的問題,因為市場仍在興起,所以你在早期看到的許多開源工具可能看起來不是那么理想,很容易批評他們不適合大企業(yè)使用,或者,我們不知道基礎(chǔ)模型層會如何改變,這可能會改變對那個工具的需求。所以,那么作為一個投資者或賣方創(chuàng)始人,我應(yīng)該等待事情成熟嗎?我應(yīng)該等待自己擁有一個所謂的“企業(yè)就緒”產(chǎn)品嗎?還是你認(rèn)為我們先開始獲得市場份額?
Casber Wang
我認(rèn)為從投資者的角度來看,對于這個問題提供更大的答案是有必要的。再次強調(diào),不同的開源項目在技術(shù)堆棧的不同位置上也有不同的技術(shù)難題,比如,我不是要低估 Langchain 和 LlamaIndex 在他們的堆棧上所做的事情,但像那種中間件訓(xùn)練部分的腳本,它并不完全像數(shù)據(jù)庫一樣的產(chǎn)品。但對于他們來說,社區(qū)的度量是如此重要。因為有了開發(fā)者和我這樣的人,以及其他人喜歡它的人,啟動是建設(shè)的第一要務(wù),然后所有其他工具都插入到鏈中,然后我只會繼續(xù)使用它們,所以你有了這種網(wǎng)絡(luò)效應(yīng),而對于第三和第四名的玩家來說,在我看來,他們應(yīng)該轉(zhuǎn)向其他事情,我認(rèn)為已經(jīng)有很多人這樣做了。與那些性能更高、技術(shù)認(rèn)證要求更高、人們正在使用它們來滿足更具體需求的東西相比,這些東西位于堆棧較低的位置。我認(rèn)為在這里你可以說,也許你不必是第一個進入市場的人,你可以帶來一個更成熟的產(chǎn)品,立即就能正常運作,所以這是我的觀點。
Hanlin Tang
我當(dāng)然也同意這一點。我意思是,我們在發(fā)布之前多次測試了 Factor Composer,以確保吸引力合適,性能達到我們想要的水平,所以我們遵循了這樣的路徑,讓它確保一切正常運行,確保性能達到我們想要的水平之后,我們才真正全力以赴。
Monica
您什么時候開始對您的開源項目進行商業(yè)化,以及隨著時間的推移,您的商業(yè)化方法如何演變?
Hanlin Tang
實際上,最初我們就一直打算這樣做,就是創(chuàng)辦公司的初衷。我們知道我們需要按消耗和使用收費。我們知道,機器學(xué)習(xí)科學(xué)家和語言模型科學(xué)家,一個團隊可以輕松消耗數(shù)百萬美元的 GPU 小時來訓(xùn)練這些模型。我們想捕捉到這一點,而不是每月每位數(shù)據(jù)科學(xué)家頭部收取 20 美元之類的費用,所以就商業(yè)化部分來說,我們需要構(gòu)建整個 Infra 和編排堆棧,并使其在訓(xùn)練大規(guī)模模型方面正常運行。我們將在計算層的頂部進行商業(yè)化,要么是我們提供算力,要么是我們帶來算力,但我們的軟件層將是附加的。您訓(xùn)練得越多,使用得越多,我們就能收費得越多。這對我們正在構(gòu)建的事情來說效果很好,因為我們讓客戶的工作負(fù)載運行得更快,并消除了模型開發(fā)過程中的痛點。因此,即使他們可能在計算上花費更多,他們實際上會消耗更少的計算資源,更快地將產(chǎn)品推向市場,所以這種協(xié)同效應(yīng)對我們來說非常有效,
Monica
從投資者的角度來看,作為一家軟件公司,您總是希望按使用量收費,這就是為什么人們喜歡它。就像您可以根據(jù)算力的使用量收費,但是對于所有的公共云公司來說,他們已經(jīng)構(gòu)建了 Infra ,知道如何管理他們的運營和 Infra 。那么您認(rèn)為這個領(lǐng)域?qū)⑷绾伟l(fā)展,尤其是對于像一些新創(chuàng)企業(yè)來說,他們剛剛進入這個市場。
Hanlin Tang
對于我們來說,我們很幸運地有了公有云公司的偉大合作伙伴,因為我們幫助客戶更輕松地訓(xùn)練大規(guī)模模型, GPU 的使用量就會增加,所以在這方面有很好的協(xié)同效應(yīng)。如果我今天才開始,我實際上不會太注重公共云正在構(gòu)建的東西,也許這有點不同尋常,但是我會專注于找到客戶并讓他們滿意,不要太關(guān)注 Twitter 上的噪音、炒作和恐慌,因為這可能會令人不知所措,而你必須繼續(xù)構(gòu)建,所以我會更專注于那個方面,那里有很多機會,即使在公共云和其他產(chǎn)品中,軟件創(chuàng)業(yè)公司仍然有很多機會產(chǎn)生影響。
Monica
我們已經(jīng)看到很多公司都在進行訓(xùn)練或服務(wù)成本優(yōu)化,他們都有 Infra 和 AI 的背景,當(dāng)然,提高成本效率總是有改進的空間。因此,從產(chǎn)品的角度來看,除了在 benchmark 上競爭之外,什么是一個好的 LLM 訓(xùn)練或服務(wù)平臺?
Hanlin Tang
對于我來說,成本節(jié)省或效率是一種使能因素,但它并不是價值驅(qū)動因素,因為那只是一場降低成本的游戲,這就是為什么我們實際上更注重訓(xùn)練方面的效率,因為這決定了市場推出的時間。如果您是一家企業(yè),正在構(gòu)建某種用于打擊垃圾郵件的語言模型,每天如果您的模型沒有部署,您就會受到影響,從底線的角度來看。
而且,這就是為什么我們更注重在訓(xùn)練方面的成本效益。而在服務(wù)方面,效率只是達到的最低標(biāo)準(zhǔn),但可靠性、隱私、企業(yè)安全性、跨多個地區(qū)擴展,實際上才是真正有所不同的地方。我認(rèn)為這正是與 Databricks 合作的優(yōu)勢所在,因為他們已經(jīng)擁有了在此基礎(chǔ)上構(gòu)建很多東西的出色 Infra 。
Monica
你們一開始就有訓(xùn)練和服務(wù)平臺嗎?
Hanlin Tang
我們是從訓(xùn)練開始的,我們進行了訓(xùn)練、預(yù)訓(xùn)練、微調(diào),然后在今年五月推出了服務(wù)(serving)。現(xiàn)在我們?yōu)榭蛻籼峁┝藘商桩a(chǎn)品,用于構(gòu)建和部署他們的 LLM 。
Casber Wang
但我認(rèn)為 Hanlin 剛才提到的事情也很重要,從平臺開始提供訓(xùn)練和服務(wù)與僅僅專注于訓(xùn)練效率有很大不同,就像今天,我所做的就是訓(xùn)練的效率,因為我相信你們讀了 SemiAnalysis 的那篇文章, GPU 供不應(yīng)求。那真的很有趣,那是一篇非常棒的文章。但是這個領(lǐng)域發(fā)展得如此之快,以至于對企業(yè)家的最佳建議是找到一種方法,可以始終保持相關(guān)性,考慮到這個領(lǐng)域的發(fā)展如此之快,明年會有很多 GPU 上線,你今天正在研究的算法可能在 GPU 充裕的情況下就不再相關(guān)了,但如果你有一個平臺的價值主張,實際上與企業(yè)的底線聯(lián)系在一起,也就是讓我快速部署某些東西,讓我通過推理來改進它。我始終是一個平臺,使它們能夠同時做這兩者,而不僅僅是提供一個工具,我可以下載并在當(dāng)前堆棧上進行優(yōu)化。與企業(yè)合作伙伴相比,這是一個更好的位置,而不是像我是一個點解決方案,幫助你加速某種類型的 GPU。
Hanlin Tang
完全同意。我認(rèn)為對于許多語言模型企業(yè)或打算構(gòu)建語言模型的企業(yè)來說,成本當(dāng)然是其中的一部分,但“只需正常工作 (It just works) ”的部分在初創(chuàng)公司這一邊是非常被低估的,但當(dāng)你與企業(yè)交談時,他們不想浪費時間來解決錯誤和無限的拓?fù)鋯栴}以及 GPU 故障等問題,所以我認(rèn)為“只需正常工作”的理念對于任何想要在這個領(lǐng)域構(gòu)建工具的人來說都非常重要。
Casber Wang
如果我可以再補充一點,這是作為投資者看到的一種非常有趣的分化現(xiàn)象,就像在企業(yè)的成熟部分,比如 DevOps ,人們討厭支付比他們認(rèn)為應(yīng)該支付的更多的費用,比如,我每月給 Github 付8美元,所以我不想支付任何工具,甚至是 20 美元,但在一個發(fā)展迅速的時代,今天我會說企業(yè)正在嘗試更快地構(gòu)建應(yīng)用程序并更早地找到價值,就像他們想出去,如果你是蘋果,就像我用 iPhone 作為一個很好的例子,它只是工作。我們都使用 iPhone ,因為它只是工作。我不知道,也許它的硬件不是最好的,但它只是工作。然后人們愿意為它支付高額費用,因為它與業(yè)務(wù)結(jié)果如此密切相關(guān)。
我認(rèn)為這是一個非常被低估的部分,因為許多企業(yè)家都來自專家背景,他們的頭腦中有很多優(yōu)化思維,而對于首席信息官(CIO)這樣的關(guān)鍵買家來說,他們的第一價值命題是,如果我今年為這個項目分配了這么多資金,后來我可以展示什么,我們說節(jié)省了10萬美元,在這方面多花點錢不會真正產(chǎn)生影響,如果他們能真正制造出一個能產(chǎn)生收入的產(chǎn)品。
Monica
還有一個有趣的決策我想談?wù)?。我認(rèn)為你們在介紹 MosaicML 旅程時也提到過,那就是你們?yōu)槭裁匆约簭念^開始訓(xùn)練一個開源語言模型。起初是 MPT 7B,然后是 30B。作為 MLOps 公司這樣的服務(wù)提供商,為什么你們決定從頭開始訓(xùn)練自己的模型?背后的決策是什么思考?
Hanlin Tang
正如我所提到的,我們的業(yè)務(wù)是構(gòu)建工具,幫助公司自己訓(xùn)練模型。通過發(fā)布一個真正高質(zhì)量的模型,社區(qū)可以在此基礎(chǔ)上構(gòu)建,我們可以展示我們的工具真的很有效,有什么比這更好的方式呢?對我來說,為社區(qū)做出貢獻,讓他們能夠啟動并構(gòu)建,是一個很棒的時刻。另外,接受度方面也很好。有一些公司來找我們說,嘿,我想訓(xùn)練一個非常相似類型的模型,但對我來說,你選擇了 100% 的英文,而我需要 50% 的英文和 50% 的韓文,因為我是一家韓國公司,我想為那個市場提供服務(wù)?;蛘呤且话胗⑽?,一半阿拉伯文,或者這很不錯,但我真的想重新調(diào)整我的數(shù)據(jù)管道,使數(shù)據(jù)集的構(gòu)成更專注于金融,所以將它發(fā)布出去并開放它對我們來說很有好處。顯示成本對很多公司來說也非常有啟發(fā)性,因為那是一個 POC 級別的成本?,F(xiàn)在這是一個 POC 級別的事情,你可以做,對企業(yè)、數(shù)據(jù)科學(xué)家或 ML 領(lǐng)袖來說更容易向他們的管理層證明這是值得的,因為它的好處。而且,順便說一下,這只是一個不到 20 萬美元的項目,這為我們帶來了很多機會。
Monica
自己建LLM的過程,如何有助于你們?nèi)绾卧O(shè)計或重新思考你們的平臺?
Hanlin Tang
有很多。通過大規(guī)模訓(xùn)練這些模型,你可以學(xué)到很多東西。隨著規(guī)模的增長,一切都會崩潰,當(dāng)我們從 7B 變成 30B 時,模型的大小崩潰了。即使在訓(xùn)練 7B 參數(shù)模型時,我們知道 GPU 經(jīng)常出現(xiàn)故障。我認(rèn)為在訓(xùn)練那個模型的 10 天內(nèi),我們有四次 GPU 節(jié)點的故障,所以我們建立了一個構(gòu)建系統(tǒng)來檢測并從中恢復(fù)。我認(rèn)為說我們用一些領(lǐng)域范圍的參數(shù)訓(xùn)練了一個模型并通過一些方法解決了它,我們付出了很多努力,這是一回事,而說我們用我們的工具來做的,我們的客戶也可以使用,從可用性的角度來看,這是非常有啟發(fā)性的。然后建立正確的工具,使其對其他人來說也可以重復(fù)使用,這是非常有啟發(fā)性的。
Casber Wang
我很好奇,關(guān)于參數(shù)數(shù)量等方面的討論,以及排行榜上的表現(xiàn),社區(qū)或?qū)嶋H買家在多大程度上關(guān)心?他們是否將模型發(fā)布與排行榜聯(lián)系起來,還是更多的實際上是,我考慮因為你今天支持 3B,所以我可以啟用這些用例。我們現(xiàn)在看到更多是從可能的收入空間開始,然后找到用例,還是從實際需求出發(fā),認(rèn)為 MosaicML 是我可以真正擁有的東西,然后再看看別的場景?
Hanlin Tang
我明白你的意思。這是一個很好的問題。我認(rèn)為有一個最低的門檻,它必須是排行榜上的佼佼者之一。之后,對于企業(yè)來說,它們的關(guān)心程度就不大了,但他們希望在支付款項時能夠確信,你已經(jīng)達到了這個門檻。這是因為企業(yè)不希望浪費計算預(yù)算來進行大規(guī)模的超參數(shù)搜索,我們應(yīng)該已經(jīng)做過了。我們已經(jīng)有了一套工作超參數(shù)設(shè)置,不管數(shù)據(jù)源如何,都可以訓(xùn)練這些模型,所以排行榜達到最低標(biāo)準(zhǔn)的門檻給了他們信心,我們的配置都很好,實際上不需要進行一堆不同的探索和超參數(shù)搜索。
Monica
你們?nèi)绾螏椭蛻糇龀鰶Q策?比如,使用開源還是閉源?如果使用開源,我應(yīng)該使用多少數(shù)據(jù)微調(diào)?所有這些問題中最常見的是什么?你們有沒有從中總結(jié)出最佳實踐?
Hanlin Tang
有很多問題,現(xiàn)在這個領(lǐng)域非常開放,我需要 Prompt 嗎?還是 Prompt 足夠了?我必須微調(diào)嗎?這取決于我是否使用 RAG 等。在什么情況下我需要修剪我的模型?在什么情況下我需要使用現(xiàn)有的開源模型并繼續(xù)訓(xùn)練它,以融入領(lǐng)域知識?
我們給客戶提供了一系列指導(dǎo)方針,但同時也非常透明地告訴他們,嘿,看,這是一個新領(lǐng)域,你將不得不探索。我們的承諾是, Databricks 和 Mosaic 將為您提供一切工具,使您能夠高效快速地探索這個領(lǐng)域,找到最適合您特定應(yīng)用的方法,所以我們不希望客戶在 XYZ 方面掙扎,而是讓他們通過微調(diào)來迅速進行實驗,看看是否適用于他們的用例。我希望我能有一些智慧之言,比如,如果是 X,那么只需 Prompt ,你就會沒問題,或者只需微調(diào),就沒問題了。
Monica
有什么在部署企業(yè)自己的 LLM 方面你看到的典型錯誤或誤解嗎?
Hanlin Tang
我認(rèn)為也許現(xiàn)在不太會出現(xiàn)這種情況,但早期,人們確實低估了 RAG 的重要性。他們會遇到很多幻覺問題,因為模型是在舊版本的維基百科上訓(xùn)練的,即使你使用開源模型,無論是 OpenAI 的還是自己的模型,它們都會始終訓(xùn)練在一個舊版本的維基百科上,對于你提供的 Prompt 中的數(shù)據(jù)與其內(nèi)部權(quán)重之間總會存在沖突。解決這種沖突非常困難,所以早期,我們看到很多應(yīng)用都是基于 Prompt 和類似的東西,即使稍微微調(diào)整一下,它們?nèi)匀粺o法擺脫這種模式。因此,對于許多用例,我們在 Databricks 上也專注于 RAG ,這是一個更加受控的環(huán)境,以更好地進入這個領(lǐng)域。
我們經(jīng)常看到的另一個錯誤是沒有為任務(wù)選擇合適的模型,如果你使用開源工具的話。不同的模型具有不同的延遲,并且它們還訓(xùn)練在不同類型的數(shù)據(jù)上。一些模型不擅長處理代碼,一些模型對你的特定語言不擅長。而且,不是簡單地將一個模型替換為另一個模型這么簡單。哦,我升級到一個更大的模型,它一定更好。情況并不總是如此,這取決于模型的數(shù)據(jù)來源。
Monica
這是一個開源模型特有的問題,還是一個 LLM 問題?我們是否會看到一個足夠強大的開源 LLM ,就像應(yīng)該是 GPT5、6 一樣,然后問題就解決了。
Hanlin Tang
我不這么認(rèn)為。即使對于 GPT-4 和 GPT-3.5,仍然存在許多情況下,它們無法提供正確的上下文來解決你的特定用例,無論是特定的行業(yè)術(shù)語還是縮寫詞。因此,仍然會遇到這些問題,例如沖突,或者數(shù)據(jù)的新舊問題始終是一個大問題。你希望你的客戶聊天機器人能夠提供有關(guān)你公司的最新信息,但顯然,GPT-4 的數(shù)據(jù)是有一個特定的截止日期的。
另外,一方面, OpenAI 正在投資越來越多的產(chǎn)品和工具,不會讓人感到意外,如果未來他們將提供更多的信息檢索工具,以幫助他們的企業(yè)客戶。另一方面,在開源領(lǐng)域,我們也看到越來越強大的開源工具,可能會有更多的 LLM 和更多的公司將在未來構(gòu)建這方面的東西。關(guān)于這個開源和商業(yè)之間的競爭,以及企業(yè)客戶可能會發(fā)生哪些變化,你有什么看法?
隨著時間的推移,我認(rèn)為對于企業(yè)來說,有些應(yīng)用情況下使用像 OpenAI 這樣的封閉 API 是很有意義的。但也會有其他情況,你確實希望構(gòu)建和訓(xùn)練自己的模型,無論是出于數(shù)據(jù)隱私原因、數(shù)據(jù)來源原因、法律原因、領(lǐng)域特定性,還是成本原因。
如果你的任務(wù)不太復(fù)雜,不需要一個能夠智能推理的 GPT-4 來解決它,你可以輕松部署一個 MPT-7B 或 Llama7B 模型來滿足任務(wù),而且在企業(yè)規(guī)模的操作中更具可擴展性。我們的承諾至少是為構(gòu)建組件提供非常簡單的工具。然后,對于購買組件,我們只是使用 API 來輕松將其連接到 LLM 應(yīng)用空間的其他部分,比如數(shù)據(jù)來源來精細(xì)調(diào)整模型,或者矢量,當(dāng)然,你想要附加到的矢量,我們希望能夠在兩方面都幫助企業(yè)。
Casber Wang
如果我可以把這個問題擴展到更大的層面,我認(rèn)為,當(dāng) OpenAI 最近宣布在其產(chǎn)品和工具上添加了某些數(shù)據(jù)層或支持某些功能時,人們在 Twitter 上開玩笑說一堆 Y Combinator 公司都完蛋了,但類比告訴大家,如果人們對軟件投資不是很了解,為什么我們有那么多不同種類的數(shù)據(jù)庫用于不同的用例?為什么我不能把所有東西都倒進一個東西里?這支持事務(wù)性、分析性、AI/ML 等等,但這不是事實,尤其是在規(guī)模和成熟度方面,成本效益變得真正重要的地方,例如,一個非常基礎(chǔ)的用例,如果我真的只是在構(gòu)建一個從 OpenAI 檢索結(jié)果并提供服務(wù)的公司,那么當(dāng)然,無論他們在市場上提供什么樣的 Copilot 在 OpenAI 上,都會徹底毀掉我的業(yè)務(wù)。
如果我在更大規(guī)模上做更復(fù)雜的事情,當(dāng)成本成為一個問題,性能成為一個問題,準(zhǔn)確性成為一個問題,數(shù)據(jù)來源成為一個問題時,情況就不同了,你的數(shù)據(jù)在哪里?我的數(shù)據(jù)在 S3 和數(shù)據(jù)湖中,我是否需要將其傳送回來并進行一些操作?這會花費多少錢?我如何保持它的新鮮度?我是否需要重新構(gòu)建整個流程?所有這些都變成了一個巨大的問題。
我認(rèn)為,總體而言,我個人的猜測,我非常有信心,就是我們將會看到一個更加分散的景觀,包括開源、閉源和數(shù)據(jù)供應(yīng)商,每個人在這個生態(tài)系統(tǒng)中都扮演著角色,因為如果我們看到一個規(guī)?;奈磥?, AI/ML 將成為每個企業(yè)應(yīng)用的一部分,我認(rèn)為這將會發(fā)生。你將會有與用戶的許多不同的互動點,在后臺,你還將會有與用戶的許多不同的互動點,這將會創(chuàng)造自然的分散,而不是說,嘿,這里有一個叫 API 的黑匣子,你可以得到任何你想要的。
Monica
是說在 LLM 模型還是工具方面的更多碎片化?
Casber Wang
我指的是人們?nèi)绾问褂盟脑O(shè)計模式(會越來越碎片化),這是我的觀點。
Hanlin Tang
我完全同意。我認(rèn)為這可能更好,因為不同的選擇會為更健康的生態(tài)系統(tǒng)帶來更多的競爭。而且,我們?nèi)匀惶幱?LLM 浪潮的早期階段,因此,現(xiàn)在宣布會有一個基礎(chǔ)模型,可以統(tǒng)治所有用例,并只需調(diào)用它,就結(jié)束了,然后繼續(xù)前進,這還為時過早。
Monica
確實。這聽起來像云計算領(lǐng)域,盡管你看到建設(shè)數(shù)據(jù)中心、構(gòu)建云 Infra 非常昂貴,我們只看到了三家公共云公司,但即使它們也提供了數(shù)百種用于管理回收 Infra 的工具,你仍然看到大量的公司在構(gòu)建數(shù)據(jù)倉庫和應(yīng)用程序。
Casber Wang
但是,我很想聽聽你們的看法。作為投資人看到這么多 LLM 的參與者很興奮,然后老牌公司正在構(gòu)建這個寶石,而谷歌也即將推出。當(dāng)然還有 OpenAI ,顯然還有許多第三方公司,Anthropic 也在其中。作為投資模式的一部分,我認(rèn)為,我正在投入十億美元來先建造道路,希望汽車會出現(xiàn),但是如果汽車不出現(xiàn),那就無效了,這就是問題所在。因為 OpenAI ,你看到了ChatGPT 有超過10億美金ARR,你試圖不斷擴大規(guī)模是有道理的,但是對于一些其他人來說,如果我正在建造所有這些道路,然后后來沒有人在我的道路上建設(shè),那對我來說是一個真正的問題。
Hanlin Tang
我同意。我認(rèn)為企業(yè)仍然在尋找這些基于應(yīng)用程序和 LLM 的應(yīng)用程序的產(chǎn)品市場適應(yīng)性。我確實認(rèn)為那里有一些東西。我們已經(jīng)看到了許多部署實際帶來業(yè)務(wù)價值的情況。但我不確定是否有足夠的汽車可以行駛在目前鋪設(shè)的所有道路上。因此,看到這在未來幾年如何發(fā)展將非常有趣。另一個我們看到的挑戰(zhàn)是,如果它確實是一個封閉的 API ,不同的 LLM 模型提供商如何區(qū)分彼此。它們之間可能存在非常容易的切換成本。這也是對那些試圖在 API 后面構(gòu)建和提供 LLM 的人的另一個挑戰(zhàn)。
Monica
如果很難評估 LLM 模型的性能,那么無論使用哪個模型,都不重要,這取決于你提供的服務(wù),你向客戶提供什么?他們是否希望我只提供一個模型,還是我提供我的模型和一個平臺,或者他們還希望你展示在某個特定用例中的性能。
Hanlin Tang
我知道在這里進行評估是一個很好的問題,所以,我意思是,我們通常與企業(yè)合作。他們可能已經(jīng)有一個ML團隊,我會說有五到七個人,甚至可能更少。他們使用我們的平臺來構(gòu)建和訓(xùn)練 LLM ?,F(xiàn)在,評估方面,有點像是“無政府狀態(tài)”。在內(nèi)部,我們有一個我們稱之為“vibe check”的東西,我們只是部署一點并嘗試一下,看看會發(fā)生什么。
目前,這顯然對許多企業(yè)來說是不可持續(xù)的,他們會為我們提供一些關(guān)于如何構(gòu)建正確的評估指標(biāo)以滿足他們下游用例的指導(dǎo)。我認(rèn)為很多注意力都集中在評估基于聊天的應(yīng)用程序上,但許多企業(yè)應(yīng)用程序并不是基于聊天的。它們是純粹的檢索、分類,以及各種這些場景,你實際上不能為模型在業(yè)務(wù)上的表現(xiàn)和影響提供硬性數(shù)字。而這些是我們經(jīng)常尋求的用例,因為它們是真正的用例。它們更復(fù)雜,更可持續(xù)。這也更可持續(xù),一旦你解決了問題,你就可以證明訓(xùn)練一個更大的模型是合理的,因為精度提高可以轉(zhuǎn)化為業(yè)務(wù)上的真金白銀,所以這就是我們?nèi)绾卧谠u估領(lǐng)域進行評估的方法。
但現(xiàn)在還處于早期階段。我們有一些客戶與我們一起訓(xùn)練特定語言的聊天機器人。然后他們說,Hanlin,我在許多不同的數(shù)據(jù)混合上訓(xùn)練了五個不同的模型。我分辨不出它們之間的區(qū)別,我應(yīng)該使用哪一個?我說,好吧,我們在這方面沒有好的建議,但好消息是你分辨不出區(qū)別,只需選擇一個并投入生產(chǎn),看看會發(fā)生什么。
Casber Wang
這是一個非常有趣的觀點,因為我覺得你有兩種思考方式。一種是這些投資的折舊速度。發(fā)生得太快了,如果我是一個LLM,我的模型停留在 GPT-3.5 的水平,而其他人已經(jīng)用上了 GPT-6,每個人都有 GPT-6 或 S3 玩家有 GPT-6,為什么客戶要選擇我呢?
但另一方面,我希望LLM肯定會隨著時間的推移變得更好,語言是一個很好的交互,但現(xiàn)在我們不會百分之百準(zhǔn)確,比如,你去麥當(dāng)勞想要飲料,你想要大杯的,你想要冷的,你想要不冷的,你想要怎么樣,語言本身存在很多混淆,所以期望語言應(yīng)該百分之百準(zhǔn)確是不現(xiàn)實的,改進速度可能會隨著時間的推移而變得越來越小。
但對于你的觀點,正如你所說,隨著我們構(gòu)建更復(fù)雜的應(yīng)用程序,你知道,不僅僅是傳統(tǒng)的聊天機器人,當(dāng)你涉足一些更多的數(shù)字內(nèi)容,數(shù)據(jù)檢索,實時數(shù)據(jù)推斷和結(jié)果服務(wù)時,那就是我認(rèn)為一些真正的魔力發(fā)生的地方,更多的確切信息實際上進來了,不僅僅是語言本身。
Monica
另一個我好奇的問題,是誰來開發(fā)基于企業(yè)內(nèi)部 LLM 的應(yīng)用?是企業(yè)自己構(gòu)建的,還是他們找到了第三方供應(yīng)商來做?
Hanlin Tang
都有。一些數(shù)字原生企業(yè)尤其是前瞻性和復(fù)雜的,所以他們會自己構(gòu)建。其他一些可能會引入第三方來協(xié)助集成和實際部署模型本身。
Monica
我問這個問題的原因是,因為我想知道這個原生 LLM 應(yīng)用的景觀將如何影響SaaS 生態(tài)。現(xiàn)有的 SaaS 公司都在嘗試將一些基于 LLM 的功能融入他們的產(chǎn)品中,但實際上當(dāng)涉及到他們的客戶需要時,所有客戶都會說,我希望 LLM 能夠理解我,如果他們已經(jīng)與 MosaicML 合作,用你們的 LLM 來構(gòu)建并改進,他們已經(jīng)使用了他們的所有數(shù)據(jù),那么為什么所有這些其他 SaaS 公司還要自定義或個性化他們的 LLM 以適應(yīng)這些客戶呢?也許在將來,所有這些 SaaS 公司都將構(gòu)建在你們已經(jīng)管理的 LLM 之上。
Hanlin Tang
這是個好問題。我認(rèn)為 Database,我們最近發(fā)布了Database Assistant,它幾乎就像是數(shù)據(jù)庫內(nèi)的聯(lián)合駕駛員,而數(shù)據(jù)庫平臺內(nèi)部可能已經(jīng)構(gòu)建了自己的元素并了解它們,但這些元素可能不了解客戶試圖使用的工具,所以像數(shù)據(jù)庫了解數(shù)據(jù)庫平臺的一切,具有內(nèi)部數(shù)據(jù)和知識,比如如何配置它,如何進行正確的查詢等等。無論你為自己的數(shù)據(jù)集專門制定了多少模型,你永遠(yuǎn)不會知道那些工具具有什么,因此,仍然會有這種組合,你將看到兩者都在使用。
Casber Wang
我還認(rèn)為在應(yīng)用 Saas 應(yīng)用程序方面,我認(rèn)為它將成為一種預(yù)期的規(guī)范,我們期望,就像如果你打開 Outlook,有一個 ChatGPT 插件,我可以很容易地起草一個email: 非常感謝你們的采訪,Monica,結(jié)束后我打開 Gmail,發(fā)現(xiàn)沒有這個插件,我會非常失望的。我可能以后某個時間就不再使用 Gmail 了,我認(rèn)為你和用戶將在應(yīng)用程序?qū)用婵吹竭@些界面變化。
但正如 Hanlin 所說,假設(shè)你是 Salesforce ,你正在推出銷售 GPT 泡泡或其他什么,但你實際上無法查看或處理 Salesforce 之外的數(shù)據(jù),在銷售方面有很多事情,比如顯然他們擁有很多 CRM 數(shù)據(jù)??蛻粜畔ⅲ窃诤芏喾矫?,例如,顯然有很多與 CRM 之外的數(shù)據(jù)相關(guān)的事情,比如有人與此電子郵件地址相關(guān)聯(lián)嗎?他們在網(wǎng)站上點擊了多少次?他們花了多少時間?參與程度如何?這些都不是 Salesforce 中的數(shù)據(jù),而可能在 Databricks 或 Snowflake 中,因此希望 Salesforce 訓(xùn)練和擁有這些數(shù)據(jù)是不現(xiàn)實的。
我個人的感覺是, AI/ML 不會改變數(shù)據(jù)存儲的位置,就像你不會因為這個新的很酷的AI CRM ,現(xiàn)在不再將數(shù)據(jù)存儲在數(shù)據(jù)區(qū)域,而是將數(shù)據(jù)存儲在這個 CRM 中。這并不是事實,我認(rèn)為 CRM 數(shù)據(jù)仍然會存儲在 CRM 中,但從應(yīng)用程序用戶體驗的角度進行增強。然后,你有這個大量的數(shù)據(jù)在 AWS S3 或者數(shù)據(jù)倉庫中,如何將其與 CRM 數(shù)據(jù)融合以創(chuàng)建一些見解?這是一個不同的話題,我認(rèn)為。
Monica
我在想,將來每家企業(yè)都可能擁有自己的 LLM 嗎?因為我可以嘗試成為插件系統(tǒng),所有其他 SaaS 公司的工具可能都會成為插入到那個LLM的插件——如果可能的話。
Casber Wang
這很有趣,因為我覺得如果你看看軟件發(fā)展的歷史,就會發(fā)現(xiàn),你看看 Oracle , Oracle 付出了巨大的努力,拉里·艾利森實際上有很深刻的見解。那么為什么人們要集成 25 個 SaaS 應(yīng)用程序,當(dāng)你可以來 Oracle ,我會為你構(gòu)建BTP,就像無論業(yè)務(wù)如何, CRM ,客戶成功等多個應(yīng)用程序。
我認(rèn)為真正的答案之一是,在幕后使每次交互都使用相同的數(shù)據(jù)模型,這需要大量的工程工作,會出現(xiàn)各種各樣的 bug,不同的業(yè)務(wù)部門對如何與某些數(shù)據(jù)進行交互有不同的要求,比如,他們想看到不同的成本數(shù)據(jù),所以我認(rèn)為這種整合模型,在我看來,可能不會起作用,所以我認(rèn)為最終結(jié)果仍然會是今天的樣子,你有不同的數(shù)據(jù)孤島,希望你有更好的元數(shù)據(jù)(meta data)層,有AI和ML幫助人們在這些數(shù)據(jù)上獲得更多的見解。但我認(rèn)為期望多年前的數(shù)據(jù)被清理到一個非常干凈的地方,你可以問任何問題,結(jié)果就會彈出,這可能有點太高了。
Monica
這很有趣,因為現(xiàn)在MosaicML 已經(jīng)是 Databricks 的一部分,假設(shè) Databricks 上已經(jīng)擁有了一個企業(yè)大部分?jǐn)?shù)據(jù),現(xiàn)在有了MosaicML 的能力,你對這個問題怎么看呢?
Hanlin Tang
我的意思是,我認(rèn)為數(shù)據(jù)庫的主要作用之一是,在某種程度上,作為鑲嵌,我們可以構(gòu)建所有令人驚嘆的工具來訓(xùn)練 LLM 和提高效率等等。但是如果我們可以訪問客戶的數(shù)據(jù),我們可以進行 ETL,格式化和進程它并進行適當(dāng)?shù)那謇?,然后就會垃圾進去垃圾出來。Databricks 有很多客戶,是一個很棒的平臺,有很多數(shù)據(jù)處理,ETL等企業(yè)關(guān)系。因此,將數(shù)據(jù)與我們用于訓(xùn)練和構(gòu)建 LLM 的產(chǎn)品相結(jié)合,對我們來說非常令人興奮,以繼續(xù)幫助企業(yè)構(gòu)建他們自己的 AI 和ML系統(tǒng)。對吧,所以我認(rèn)為作為數(shù)據(jù)破裂,現(xiàn)在我們有這個機會將底層數(shù)據(jù)與 AI/ML 工具連接起來,為客戶提供統(tǒng)一的體驗。當(dāng)這個提議出現(xiàn)時,我們感到非常興奮。
Casber Wang
我只是想補充一下,我認(rèn)為人們沒有意識到企業(yè)數(shù)據(jù)的移動有多有趣,有時也很荒謬,你想想,我敢保證大多數(shù)數(shù)據(jù)豐富的客戶正在做的就是他們將 Salesforce 數(shù)據(jù)傳輸出去,然后將它們 5 個或更多 SaaS 聚合工具的數(shù)據(jù)匯總到他們的 reverse ETL 中,然后將其傳輸回銷售部門,或者只是向客戶發(fā)送電子郵件。這就是你所擁有的互動。因為你仍然需要 360 度的視圖,如果你是一家特定客戶的 B2B 公司,那么你需要對該特定客戶進行詳細(xì)分析。你想要運行不同的成本分析。而執(zhí)行此操作的地方不是應(yīng)用程序,而是數(shù)據(jù)倉庫和數(shù)據(jù)湖上下文,我認(rèn)為這沒問題。那是你可以1生成大量見解的地方,訓(xùn)練一些適當(dāng)?shù)哪P秃蛯S袛?shù)據(jù),但也可以采取行動,幫助人們封閉循環(huán)。
Hanlin Tang
絕對是。我們經(jīng)常開玩笑說,至少對于我們的工具來說,大多數(shù) ML 工作最終都是數(shù)據(jù)清理工作,盡管這并不太光彩,但它卻非常重要,我聽說有人為了從古老的數(shù)據(jù)庫中提取信息以構(gòu)建這些模型,不得不寫代碼,那就是在看到這些外觀應(yīng)用程序時幕后正在發(fā)生的英雄式工作。
Monica
確實,所以我們談了很多關(guān)于業(yè)務(wù)模式和商業(yè)化的東西,但肯定在這個領(lǐng)域還有很多非常技術(shù)性的東西,因為我們看到所有這些 LLM 公司購買了成千上萬的 GPU ,突然之間, MosaicML 出現(xiàn)了,說你只需要不到 1000 萬美元來訓(xùn)練一個 70B 參數(shù)的模型,可否介紹一下,你們究竟做了什么以實現(xiàn)這種高效率?既然你們已經(jīng)與不同類型的 LLM 合作,那么在未來,你們看到有哪些其他方法可以繼續(xù)提高效率?
Hanlin Tang
我希望有一種可以自動提速一切的法寶。但不幸的是,它就像是這里 5%,那里 10%,每個小翻轉(zhuǎn)的使用,它是一種組合,我認(rèn)為我們已經(jīng)做的系統(tǒng)級優(yōu)化,這些東西不會改變訓(xùn)練本身的數(shù)學(xué)。但對于我們來說非常重要的是,實際上改變了訓(xùn)練本身的方法,因為反向傳播不是一件神圣的事情,它只是碰巧有效,所以我們不能把我們今天訓(xùn)練模型的方式看作是神圣的。它們之所以存在,只是因為有人嘗試過,他們得到了一個好的結(jié)果。
所以我們非常注重第一原則的方法,比如當(dāng)你在訓(xùn)練這些模型時,你想設(shè)置什么樣的課程?是否有特定的算法要應(yīng)用?這些都是可以結(jié)合在一起提高效率的類型。而且甚至不僅僅是在 LLM 領(lǐng)域。我們還從頭開始培訓(xùn)了穩(wěn)定的Stable Diffusion 2,總共花費了50000 美元,這是公開引用的數(shù)字之前的 10 倍。如果你看看我們做了什么,我們實際上發(fā)布了一個博客,展示了我們所做的一切,以及降低培訓(xùn)成本的幅度。這只是一個混合體,涉及到系統(tǒng)優(yōu)化算法,使一切都能正常運作的事情。
Monica
在每一次技術(shù)浪潮中,我們都看到很多初創(chuàng)公司都在優(yōu)化方面的嘗試。但是作為初創(chuàng)公司,如何構(gòu)建一個基于優(yōu)化技術(shù)的業(yè)務(wù)和產(chǎn)品,而不是變成咨詢項目或研究項目?
Casber Wang
我認(rèn)為這個問題,只是考慮到 AI/ML 的發(fā)展速度有多快,AI/ML 中可以優(yōu)化的問題有太多了。如果你現(xiàn)在回到最底層比如網(wǎng)絡(luò)通信,Nvidia 收購了 Mellanox,現(xiàn)在就有了 InfiniBand。現(xiàn)在他們建議更老的數(shù)據(jù)中心用 InfiniBand,這樣就可以提高計算的 Flops,因為網(wǎng)絡(luò)才是最大的約束,你可以說這是優(yōu)化。你可以說找到不同類型的算法是優(yōu)化,運行不同矩陣的東西,運行更多的dense 模型,都是不同的優(yōu)化。因此,有很多優(yōu)化的可能。但是,云成本或其他成熟領(lǐng)域的東西,更多的是,AWS 運行了這個工作場所,建了一堆日志,讓我為你繪制出來。而在這種新的領(lǐng)域,有時候你會看到成本節(jié)約非常大,只是因為運行某種算法的方式不一樣了。我想這是因為一切都還處于早期階段的原因,我認(rèn)為它會持續(xù)一段時間。
其次,我認(rèn)為有很多 AI/ML,無論是業(yè)務(wù)模式還是技術(shù)進步,都與生物研究非常相似,就像這個迭代過程,你有數(shù)據(jù),你有模型,你有代碼,而不像軟件開發(fā)可以通過捷開發(fā)的方式,明確地說這是我編寫電子郵件應(yīng)用程序的方式。所以你有這個迭代的過程,所以有更多的系統(tǒng)性的機構(gòu)知識,我敢肯定隨著時間的推移,你會建立一定的原則以更快地運行和部署這些 ML 應(yīng)用,更快地跟蹤一切,這樣你就可以更快地得到結(jié)果,更快地知道出了什么問題,更快地進行迭代。但是,我認(rèn)為沒有一種方法可以有明確的對錯。
Hanlin Tang
是的,回顧一些訓(xùn)練運行出了什么問題是很難的。我認(rèn)為另一個被低估的因素是,GPU ,算法等等有很多復(fù)雜性。如何隱藏這些復(fù)雜性,讓用戶感覺好像它可以正常工作;以及如何與用戶建立信任,讓他們可以接受你隱藏這種復(fù)雜性?
我認(rèn)為我們帶來的很多價值就在于我們與社區(qū)和客戶建立了這種信任。當(dāng)客戶來與我們一起訓(xùn)練 LLM 時,我們會交給他們一個看起來非常復(fù)雜的配置,但我們告訴他們,實際上,我們正在向你們展示所有這些,但你們實際上不必調(diào)整 99% 的配置,不可避免地,很多客戶都相信我們。有些人會說,好吧,但我確實想嘗試一些不同的做法,他們這樣做了,然后跟我說,Hanlin,你是對的,你們設(shè)置的默認(rèn)值是有效的,讓我們開始吧。
這種信任很難建立,我必須小心翼翼地與每一位客戶一起,確保我們的產(chǎn)品仍然可以正常工作,配置仍然是正確的。
Casber Wang
這一點很有意思。現(xiàn)在有很多 serverless (無服務(wù)器) ML Infra ,因為它們非常容易啟動。我總是擔(dān)心監(jiān)管風(fēng)險。就像我們在云中看到的那樣,我個人認(rèn)為,客戶只想知道你到底在做什么,你會從 Infra 的角度采取什么意見,以便我可以回去以更便宜的價格運行它。你說的很對,起初,你可以提供一個全手動的東西,但是你只需在這個平臺上基于你(服務(wù)提供商)的建議搭建應(yīng)用,這對人們可以更快地獲得價值非常有幫助。但是隨著時間的推移,我認(rèn)為,隨著這些應(yīng)用變得實際上變得成功和有用,你實際上想向人們展示更多的黑盒子。
Hanlin Tang
對的。我認(rèn)為其中的一部分是向人們展示更多的黑盒子,或者在無服務(wù)器情景下,需要創(chuàng)新,帶來更多的東西,因為仍然有很多可以從系統(tǒng)中擠出來的東西,即使在客戶投入生產(chǎn)之后。我認(rèn)為這對于許多無服務(wù)器公司和 API 來說都是一個挑戰(zhàn)。我們也有一個無服務(wù)器推理 API ,它是我們的入門套件。但是我們需要不斷創(chuàng)新,保持突出,保證我們在前沿。
Monica
在構(gòu)建您的平臺時,您已經(jīng)能夠標(biāo)準(zhǔn)化了哪些內(nèi)容,而您仍然發(fā)現(xiàn)哪些內(nèi)容很難標(biāo)準(zhǔn)化?
Hanlin Tang
我們已經(jīng)達到了一個階段,我們在內(nèi)部開玩笑說它有點像一個 LLM 自動售貨機。就像投入token,然后輸出 LLM 。我們有一些客戶已經(jīng)在我們的平臺上進行了 30 天的訓(xùn)練,他們只是自助服務(wù),自動管理,有時我甚至忘記了有一個訓(xùn)練在跑,因為平臺一直跑得很順利。所以我認(rèn)為我們在這方面付出了很多努力,使其非常流暢和標(biāo)準(zhǔn)化。
我認(rèn)為在整個過程的開始階段,仍然存在一些比較手工的數(shù)據(jù)篩選部分,這是一個更加工匠化的過程。比如說,我應(yīng)該在我的模型中放入多少 Wikipedia 的數(shù)據(jù)?應(yīng)該是 30% 的 Wikipedia 嗎?我應(yīng)該放入這種語言還是那種語言,或者放入更多的語言會對我的主要語言有害嗎?這更多是一種工匠化的、未知的科學(xué)和工程學(xué)。但這也是我們非常興奮要解決和標(biāo)準(zhǔn)化的問題。但一旦客戶在我們的指導(dǎo)下獲得了他們的數(shù)據(jù)集的正確設(shè)置,整個培訓(xùn)過程基本上就是標(biāo)準(zhǔn)化的。
Monica
Casber,你有沒有看到任何初創(chuàng)公司在構(gòu)建標(biāo)準(zhǔn)化產(chǎn)品中取得了階段性成果?
Casber Wang
你可以看看一些更成功的 ML 平臺公司,我認(rèn)為 HuggingFace 在某種程度上可以說是一個成功的模型注冊業(yè)務(wù),其他部分我們還要看看它是如何運作的。
但從發(fā)現(xiàn)的漏斗角度來看,這是相當(dāng)標(biāo)準(zhǔn)化的:你想要找到一個新模型,你想要嘗試一些新的想法,那在很大程度上就是我們將在 HuggingFace 上嘗試的方式,然后他們轉(zhuǎn)向 AWS,那是一個不同的問題。Huggingface 如何阻止這種情況發(fā)生?但這個過程帶來了很多價值。這就是為什么我認(rèn)為一些投資者從這個角度看到了很多價值。Weights & Bias, MLFlow 等等,某種程度上解決了開發(fā)環(huán)節(jié)中的追蹤問題,你可以看到非常好的可視化體驗,并看到你要解決的問題類型。那是一個非常標(biāo)準(zhǔn)化的過程,因為對于 ML 人員自己來說,當(dāng)他們考慮進行迭代時,如果我的儀表板不好看,或者如果我的儀表板速度較慢,等等,那實際上會影響我的開發(fā)速度,所以這是開發(fā)體驗非常重要的一部分。
這是相當(dāng)標(biāo)準(zhǔn)化的。但是我認(rèn)為會發(fā)生的事情是,隨著人們在生產(chǎn)中部署更多的模型,我們將看到生產(chǎn)邊緣需求和需求的上升,對于使用生產(chǎn)邊緣工具的需求可能不會同時出現(xiàn),它是非線性的。
你會看到不同的人思考用 Build 還是 Buy 的模式,就像我告訴你的,我已經(jīng)與一些非常大型的公司交流,這些數(shù)百億美元的上市公司想要建立自己的 LLM ,因為這在董事會會議上聽起來很不錯:我有我的比較優(yōu)勢,而不是依賴于 Microsoft OpenAI 或 Anthropic 等第三方供應(yīng)商。但然后你開始思考權(quán)衡的問題,如果你構(gòu)建了這個模型,你需要投入多少資金?維護這個模型要多少資金?將模型賣給客戶是否不同于銷售應(yīng)用程序?所以你必須雇傭不同的銷售團隊……所以我覺得這部分仍然相當(dāng)早期。
我覺得 MosaicML Hanlin 正在正確的方式上做這件事:就像保持靈活性一樣,但分層,你可以從標(biāo)準(zhǔn)化的角度剝離一個薄薄的層次,并捕獲該平臺的價值,不斷這樣做。如果客戶想使用某種類型的工具,你應(yīng)該給人們使用的靈活性,而不是說你必須在 MosaicML 上使用一切。
Hanlin Tang
當(dāng)然。
Monica
你是說,那些大公司正在考慮從頭開始構(gòu)建他們的模型,甚至是預(yù)訓(xùn)練模型等。
Casber Wang
這是我認(rèn)為人們尚未完全理解的問題,他們可能希望從零開始構(gòu)建,也可能希望從預(yù)訓(xùn)練模型開始,也可能希望嘗試其他方法。但我可以告訴你,主要的觀念,這是完全有道理的,對吧,就在會議室里,人們會說,我們有所有這些數(shù)據(jù),我們是 HR IT 的系統(tǒng)記錄,這是真的,順便說一下,Workday、ServiceNow 等大型企業(yè)都在運行它們,所以他們擁有所有這些數(shù)據(jù)。對于董事會成員來說,為什么我們不使用這些數(shù)據(jù),為什么我們要將其返回到 Databricks 或 Snowflake ,然后要求他們使用其他工具來使用,目前正在進行這樣的討論。你說的對,他們正在考慮這個問題,百分之百,他們?nèi)绾卧谶@種新模式下捕獲更多的價值,但是這還處于早期階段。
Hanlin Tang
隨著時間的推移,看到這一切是如何發(fā)展的真的很令人興奮,我們看到許多企業(yè)也在進行這些討論。最終歸結(jié)為你的競爭模式是什么?如果真的是你的數(shù)據(jù),那么你訓(xùn)練自己的模型或者采用開源模型、并繼續(xù)訓(xùn)練它或者將模型或數(shù)據(jù)融入到你的系統(tǒng)中可能是有意義的。它是活躍的。真的很高興看到這個領(lǐng)域如何發(fā)展。
Casber Wang
而且它是如此復(fù)雜。
Hanlin Tang
有太多要考慮的方面。我認(rèn)為幸運的是,不管你選擇哪條道路,投資成本都開始下降了,無論你選擇哪種方式,我們都看到大多數(shù)企業(yè)實際上在購買和構(gòu)建方面都有試點,因為他們希望分散風(fēng)險,因為可能會出現(xiàn)特定的應(yīng)用場景,或者可能會更合理。然后由供應(yīng)商來證明,那個特定的產(chǎn)品實際上是成功的,是有意義的,是的。
Monica
尤其是如果我們可以真正利用更多的資源,以降低從頭開始訓(xùn)練模型的成本,將訓(xùn)練成本降至不到 1000 萬美元。對于所有那些財富 500 強或財富 100 強公司來說,這并不是一個大筆錢。當(dāng)然,他們擁有所有這些專有數(shù)據(jù),但是,你更愿意教一個有博士學(xué)位的人,也就是 GPT-4 這樣強大的 LLM,還是更愿教一個孩子,就是企業(yè)自己訓(xùn)練的較小的專用模型,來做人力資源管理呢?
Hanlin Tang
這真的取決于最終的用例。我們已經(jīng)看到許多用例,客戶將通過使用閉源 API 來開始試點,發(fā)現(xiàn)表現(xiàn)還不錯。然后他們試圖將其推向生產(chǎn),然后他們突然發(fā)現(xiàn),這花費了這么多錢。哦,我的首席安全官正在向我施加壓力,我不能導(dǎo)出我的數(shù)據(jù)。因此,這不僅僅是模型的能力,有時更多是考慮部署場景,以及最終用例的復(fù)雜程度。
Casber Wang
我也認(rèn)為這在一定程度上取決于我們?nèi)绾螐慕裉斓慕嵌葋砜醋罱K的用例,就像你在這里看到的,我想說,最積極的在這個領(lǐng)域投資的第三方非 LLM 供應(yīng)商,Microsoft 肯定是其中之一。因為他們有很多 Copilot 的應(yīng)用案例,比如,你用 Outlook 寫電子郵件,同一個組織中別人也有,很容易就可以把這個增值功能賣出去,現(xiàn)在 Office Copilot 定價是每月30美元。我不知道這些需求有多真實,這個 upsell 路徑很直接。
另一個例子是 Adobe Firefly ,如果我要使用 Adobe Photoshop,如果我可以點擊幾下按鈕并添加一些圖像,那就是一個非常容易實現(xiàn)的事情。而某些其他公司的情況下,投資回報率 (ROI) 不是非常直接。再回到我們的生物研究類比,如果你是一家大公司,而且你是 AI/ML 的SVP,你是希望使用開源模型與 MosaicML 數(shù)據(jù)庫合作并獲得一些快速的投資回報呢?還是希望自己構(gòu)建模型,祈禱產(chǎn)品未來能夠賺錢?
就像我說的,這不僅僅是技術(shù)決策,我認(rèn)為它也是一種組織性的人性決策。因為如果我要立一個flag 說,我要投資數(shù)十億美元在ADML上,第二年、第三年,我的模型準(zhǔn)備好了,但沒有客戶需求,那就是一件大事。我可能會失去工作,所以,我認(rèn)為大部分企業(yè)不會那么輕而易舉地支持這樣的決定。
Hanlin Tang
而且很多客戶都在探索這些問題。他們通常會從訓(xùn)練一個較小的模型開始,因為他們不想花費百萬美元來訓(xùn)練大模型,然后突然發(fā)現(xiàn)沒有使用場景。小步快跑的方式,隨著時間的推移,你會看到投資回報率增加,這將使你更有信心邁出下一步。
Monica
我們的確看到很多大型的 SaaS 公司,使用GPT API 構(gòu)建他們AI功能的第一個版本,同時另一個團隊構(gòu)建自己的模型,開源模型的發(fā)展會為公司提供更多選擇。
最后,我們要更具前瞻性地看待這個領(lǐng)域。Hanlin 你隨著收購加入了 Databricks ,所以你的新角色會關(guān)注什么?我們可以期待從 MosaicML 和 Databricks 合作中看到什么變化?
Hanlin Tang
我的角色保持不變,我們的使命保持不變。我們的使命是賦予企業(yè)構(gòu)建模型的能力,不管他們是選擇采購還是自建路線。我認(rèn)為即將發(fā)生的令人興奮的事情是,能夠與現(xiàn)有的 Databricks 客戶和他們的數(shù)據(jù)源無縫集成,將使這條路線變得更加容易。你提到了 Adobe Firefly,我們要做的就像如果你在數(shù)據(jù)庫平臺上,有一個訓(xùn)練按鈕,有一個微調(diào)按鈕,非常容易使用,提供良好的結(jié)果,使客戶能夠輕松基于這些數(shù)據(jù)進行實驗。
另一部分是,我加入 Databricks 了之后意識到,原來在 MosaicML,我們專注于模型本身,而把應(yīng)用和部署交給了客戶端,但加入 Databricks 后,我認(rèn)識到了除了模型權(quán)重之外還有多少其他組件我們需要關(guān)注。比如,我們需要構(gòu)建ML 在生產(chǎn)環(huán)境的管道,同時,你還有矢量數(shù)據(jù)庫。還有監(jiān)控系統(tǒng)、成本監(jiān)控系統(tǒng),還有數(shù)據(jù)治理和數(shù)據(jù)壓縮等等。
因此,對我來說,看到這些組件真是大開眼界,所以非常興奮能夠整合并提供整個堆棧的統(tǒng)一體驗。因為客戶不希望從五個不同的來源購買所有這些不同的組件,并進行集成工作以將它們連接在一起,你希望的是一個統(tǒng)一的東西。我猜我們在這個播客中經(jīng)常使用這個詞,所以可能有點濫用,但在端到端連接的確是一個好的方式。
Monica
作為一名投資者,看到這一起13億美元的收購,當(dāng)然是好事。再次恭喜 Hanlin。Casber 看到這個消息是什么反應(yīng)?這對初創(chuàng)公司意味著什么?你從中得到了什么啟示?
Casber Wang
除了非常遺憾沒有投資 MosaicML 之外?哈哈。首先,我想說,當(dāng)之無愧的祝賀,我認(rèn)為,對于創(chuàng)立 Mosaic 的時候,你肯定沒有坐下來說,第2.5年,我要花這么多錢,這可能還沒有發(fā)生,我認(rèn)為你當(dāng)初是為了解決一個真正的客戶痛點,一路上看看這個平臺會發(fā)展成什么樣。所以對我來說,作為一名創(chuàng)業(yè)者,這是我想要合作的時機。不是在某個時間點,AI 現(xiàn)在非?;馃?,所以讓我們快速開發(fā)一些東西。事實上,我認(rèn)為這種策略在更多的情況下,適合做一個 lifestyle 的小而美的公司。我認(rèn)為整個 LLM 使得創(chuàng)業(yè)的門檻降低了很多。以前我們添加應(yīng)用程序的東西,你只需將其放在應(yīng)用商店上,然后每月收費2美元之類的費用,門檻已經(jīng)大大降低。但在另一方面,我認(rèn)為傳統(tǒng)企業(yè)軟件的創(chuàng)業(yè)門檻實際上在我看來已經(jīng)上升了。
你想想所有的現(xiàn)有廠商,比如 Microsoft 等等,但也包括更大的初創(chuàng)企業(yè),每個人的注意力都集中在這里,所以他們會思考如何整合所有這些東西。如果你的提案是,我要啟動下一個 Salesforce ,然后自然的壓力就是,那么 Salesforce 做的 GPT 是怎樣的?他們正在做什么,你做的會有什么不同呢?所以在某種程度上,我認(rèn)為在AI應(yīng)用上,要做一個持久性項目的門檻實際上上升了,而不是下降了。但是啟動小項目的門檻降低了。所以你有這種非常有趣的分化正在發(fā)生,這是我的第一個思考。
我得出的另一個結(jié)論是,非常重要的是要知道你是作為一名創(chuàng)業(yè)者在玩什么游戲,我不是用消極的意義來說“玩游戲”,而是用積極的意義來說,比如你正在玩什么市場,你的策略是什么。對于 Mosaic 和 Helen 團隊來說。
我認(rèn)為,正如你早早地說的,你是有明確的商業(yè)化目標(biāo)的,但是很多時候,尤其是Seed Sage,很多公司只是在想,我有這個酷炫的項目,讓我試試吧?但重要的是,不一定是后期的商業(yè)模式,而是要想清楚,你可能在技術(shù)堆棧的哪個位置。我認(rèn)為這第二次和第三次的創(chuàng)業(yè)者的經(jīng)驗,你知道比如要使用基于用量的定價,要想辦法跟計算結(jié)合起來。有這種感覺非常重要。
其次,就是要知道隨著時間的推移,這個業(yè)務(wù)是否還可行。我會花很多時間與一些 GPU 公司交流,我感到困擾的一件事是,我肯定除了 Google 和Microsoft 之外,還有一堆云供應(yīng)商,比如還有 Digital Ocean,還可能有一兩個其他的云供應(yīng)商。但是,你是否知道 GPU 供應(yīng)商會發(fā)生什么情況?你的長遠(yuǎn)規(guī)劃是什么呢?所以我會看創(chuàng)業(yè)者是否考慮不僅僅是在未來六個月內(nèi)內(nèi)的業(yè)務(wù),而是想到未來兩三四年,考慮到生成式 AI 將如何改變我們的工作流程和生產(chǎn)力,未來會發(fā)生什么變化,而不僅僅是,嘿, GPU 短缺,所以我現(xiàn)在可以通過倒賣這些資源賺錢。
Monica
當(dāng)然,我們希望創(chuàng)業(yè)者一開始就把一切都弄清楚,這是一個完美的 pitch, 簡單的投資決策。但回顧一下,Hanlin 你在創(chuàng)業(yè)初期與現(xiàn)在相比,對創(chuàng)業(yè)和這個行業(yè)有哪些看法發(fā)生了變化?
Hanlin Tang
我認(rèn)為回顧過去,我想在 MosaicML 的兩年半的旅程中,我們始終關(guān)注的一件事是解決一個艱難的工程問題,然后考慮商業(yè)化企業(yè)的建設(shè)。比如,我們在安全性和在客戶自己的環(huán)境中部署方面投入了很多資源,因為我們知道,至少作為一個不受信任的初創(chuàng)公司,這將是一個問題。而且我們實際上在這個決策上掙扎了一段時間,因為這延遲了我們的推出產(chǎn)品的時間。構(gòu)建 Infra 并不容易,所以這是我們采取的一種策略,我認(rèn)為對我們來說效果很好。
我認(rèn)為回顧時的另一個挑戰(zhàn)就是所有的 FOMO 和炒作。你看到了這種風(fēng)格,你需要一些心理素質(zhì)來忽略它,只專注于客戶和客戶的問題。至少對我來說,一開始有點困難,因為你聽到了所有這些事情,比如,又一個模型,又一個系統(tǒng)出來了,但學(xué)會忽略這些對公司的關(guān)注非常重要,同時也對我的精神健康非常重要,否則你就會完全失控,你可能會開始頻繁地改變方向,這是我在 MosaicML 的經(jīng)歷中學(xué)到的兩個原則。
Monica
非常感同身受。最后一個問題,在過去不到一年的時間里,有哪些你認(rèn)為對你對 LLM 這個領(lǐng)域的理解產(chǎn)生了重大影響的關(guān)鍵事件?展望未來,有哪些關(guān)鍵事件可能會改變你對整個 LLM 領(lǐng)域的看法?
Hanlin Tang
這是個好問題。我認(rèn)為,展望未來,我會說,正如我所說,每個人都處于創(chuàng)造性的探索階段。不清楚哪些實際上會進入生產(chǎn)階段。不清楚哪些實際上可以滿足用例、幻覺和法律擔(dān)心的標(biāo)準(zhǔn)。因此,我期待在接下來的六到九個月內(nèi)解決這些問題的技術(shù)。因為每家公司都處于這個階段,他們在公司內(nèi)部正在進行一些 LLM 應(yīng)用原型的開發(fā),他們的 CEO 可能正在使用它,并希望弄清楚,這是否是一項真正可以交付的東西?我什么時候可以刪除這項服務(wù)中不符合事實的幻覺?
這在如今的每個 Gen AI 應(yīng)用程序中都存在。一旦出現(xiàn)能夠開始解決這些類型問題的技術(shù),這將是我認(rèn)為這項技術(shù)性質(zhì)的轉(zhuǎn)折點。如果這些研究無法減少幻覺、法律或倫理問題,那么實際上將極大地限制了這個領(lǐng)域的可能性。突然之間,每家公司都只剩下了三個左右的潛在應(yīng)用。
所以我們實際上正處于一個非常重要的轉(zhuǎn)折點??纯次磥砣绾伟l(fā)展將會是一項具有挑戰(zhàn)性的任務(wù)。
Monica
有趣的是,你沒有提到任何具體的技術(shù)。
Hanlin Tang
具體的技術(shù)會來來去去。我不知道,長期來看,比如,有很多有趣的研究是如何培訓(xùn)專門用于檢索的模型,而不是采用現(xiàn)有的模型,只是將從矢量數(shù)據(jù)庫中檢索的某些內(nèi)容放到 prompt 里面。我認(rèn)為這是下一個階段,這種技術(shù)可以顯著提高 LLM 應(yīng)用的可用性。
Casber Wang
我會說,一方面我會關(guān)注的點與 Han 提到的,但再深入一層,那就是 Microsoft Copilot 和 Adobe Firefly 的商業(yè)反應(yīng)究竟是什么?因為它們以很大的風(fēng)頭推出,所有這些第二波參與者和絕大多數(shù)在投資于AI/ML的人,將會比僅僅進行實驗更加積極地投入。因為如果有真正的收入,也就是說,你、我、Han愿意每月支付 30 美元那么就會創(chuàng)造真正的收入,那就是非常真實的一大筆收入?,F(xiàn)在發(fā)生的事情是,人們在押注AI將會創(chuàng)造真正的需求,因此開始大量購買芯片,Nvidia立竿見影地受益了。有一些公司只是為了AI 而去推銷 AI,因為不想錯過。如果 Microsoft Copilot 產(chǎn)品的推出后的收入不像預(yù)期的那么好,然后人們對收入預(yù)期下降,你會很快看到這個領(lǐng)域的的價格糾正。
當(dāng)然我認(rèn)為長期來看,技術(shù)創(chuàng)新并不總是有一個直接的路線。從線性的角度來看,AI將極大提高生產(chǎn)率,問題只是如何將它轉(zhuǎn)化為真正的美元。時間線也非常重要。它是短期的,還是長期的。我認(rèn)為我們已經(jīng)看到了 2021 年的軟件繁榮,開源,區(qū)塊鏈的繁榮來了又去了。我不知道上一次是什么時候,所以我們談?wù)?Web3 的時候感覺已經(jīng)有一段時間了。但是我認(rèn)為 AI 更持久,如果你有一個更長遠(yuǎn)的時間視野。只是沒有人知道短期內(nèi)殺手產(chǎn)品看起來像什么。我的意思是,大多數(shù)媒體和風(fēng)險投資公司在 ChatGPT 推出之前并沒有那么關(guān)心 LLM ,所以我期待的是,有哪些商業(yè)里程碑可以從這里推動整個生態(tài)系統(tǒng)?
Hanlin Tang
還有一個非常長期的代際效應(yīng),那就是年輕人實際上是在這種技術(shù)和這種界面上長大的,這會使它自己鞏固下來,如果你想象一下 10 年后,學(xué)生正在使用 ChatGPT 或者大學(xué)的電視使用 ChatGPT ,他們可能永遠(yuǎn)不會放棄這種類型的界面,因為他們已經(jīng)習(xí)慣了這種信息檢索和查詢方式,無論在短期內(nèi)商業(yè)化如何發(fā)展,這都將在長期內(nèi)保持下去。
Casber Wang
我會說這可能是長期的機會,如果我再把它拉得更接近現(xiàn)實生活,我記得當(dāng)我們看著 Figma 時,其中一個最大的擔(dān)憂和反對意見是,嗯,設(shè)計師并不多,這是真的,但 Figma 的做法是將一些傳統(tǒng)上不是設(shè)計師的人引入到設(shè)計工作流中,因為它非常容易使用。最后,它的用戶遠(yuǎn)遠(yuǎn)超出了那些傳統(tǒng)設(shè)計師,因為它的用戶可以輕松地加入到設(shè)計工作流中。猜猜看我花了多少時間在 Midjourney上,偶爾會有一些 10~15 分鐘的時間,我肯定有更加好奇的人在使用這些工具。
再次強調(diào)一下,也許 Midjourney 和企業(yè)工作流之間沒有一一對應(yīng)的關(guān)系,但是可以押注的是,這樣的工具使得那些傳統(tǒng)上不在該領(lǐng)域的人進入這個領(lǐng)域,原來不做設(shè)計的人開始做設(shè)計,原來不會編程的人開始編程,原來不會 AI/ML 的人開始進入AI ML。他們可能不總是最核心的使用者,比如那些能流暢使用 Adobe Photoshop 的人,但這些人的出現(xiàn)帶來了真正的生產(chǎn)力。
至少從更長遠(yuǎn)的角度來看,我認(rèn)為讓那些傳統(tǒng)上不在該領(lǐng)域的人進入一個新的領(lǐng)域,是一個巨大的助推力。只是不太容易立即衡量它的影響。
Monica
這讓我想起了我總是和 FlowGPT 的 CEO 聊天,他們正在構(gòu)建一個使用 Prompt 的平臺,他說,這個平臺上的大多數(shù)用戶都是 16~20 歲的人,但他們幾乎不會編程,或者只有很基本的編程技能。但他們已經(jīng)能夠在上面構(gòu)建很多端到端的軟件,當(dāng)然,不是非常復(fù)雜的,但你可以看到,自從他們今年年初剛開始以來, Prompt 的平均長度已經(jīng)翻了一番還是翻了兩番。所以我在想,對于 12~15 歲的孩子們,如果他們剛剛開始學(xué)習(xí)如何編程,他們可能第一個使用的編程工具就是 ChatGPT ,學(xué)習(xí)如何使用 Prompt ,這可能會改變很多事情。我不知道你們是否有孩子,我們已經(jīng)生活在這個傳統(tǒng)的世界里幾十年了,但對于他們來說,與 ChatGPT 或機器界面聊天可能會很自然,他們可能會更有耐心。
Casber Wang
即使是智能手機的使用,你想想,觸摸屏。
Monica
對于孩子來說,每個平面似乎都應(yīng)該是觸摸屏。我在想,也許在這一周之后的一兩年內(nèi),我們可以坐下來回顧一下,看看我們的預(yù)測是如何被驗證的。這對于投資者來說是一個挑戰(zhàn),但也是令人興奮的。
Casber Wang
我總是和我做二級市場投資朋友們談?wù)?,他們整個投資都是基于 AI 的主題,每個季度根據(jù)公司是否推出了 AI 產(chǎn)品來做買賣的決策。他們認(rèn)為,天啊,你的工作肯定很難,因為你沒有流動性,因為作為一級市場投資人,我只能買入并持有。但我認(rèn)為持有的美麗之處在于,如果你的思維太過關(guān)注下個季度甚至明年會發(fā)生什么,你就無法獲得更長期的復(fù)利效應(yīng)??赡茉谥型緯l(fā)生一些神奇的事情,我并不是說每次投資都必須這樣,都會發(fā)生完全不同的事情,有些也會更直接的產(chǎn)出——但我認(rèn)為在機器學(xué)習(xí)領(lǐng)域,我說的這種累積效應(yīng),一些神奇的事情正在醞釀中。也許沒有短期結(jié)果,沒有實時反饋,但有一天你會發(fā)現(xiàn)這種神奇的事情發(fā)生了,擁有時長和耐心也會產(chǎn)生非常好的結(jié)果。
Monica
談到耐心,我想到一個問題。如果你們有一臺時光機,你們可以前往不久的將來,比如五年,那么你們會想要問周圍的 AI 領(lǐng)域的人的第一個問題是什么?
Hanlin Tang
Transformer 架構(gòu)何時被淘汰成為過去的事情?
Casber Wang
我可能會說同樣的話。這很有趣,因為我認(rèn)為人們認(rèn)為 Transformer 架構(gòu)是理所當(dāng)然的,但事實上,如果你看看歷史上的發(fā)現(xiàn)和一切,它就像是突然出現(xiàn)的,當(dāng)然之前有一些研究和嘗試,但 Transformer 并不是一條線性的道路,所以我認(rèn)為這是一個很好的問題。我唯一的問題就是,除此之外,你們使用的是什么硬件,是 GPU 還是 TPU?
Monica
很棒的問題!我真的很享受這次談話。非常感謝你們的時間。
Hanlin Tang
不客氣,謝謝你的邀請。這是一次很棒的討論。
Casber Wang
謝謝,Monica,非常感謝。