編者按:本文來自微信公眾號(hào) 有新Newin(ID:NewinData),作者: 有新,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
2023 年即將結(jié)束,回顧今年生成式 AI 爆發(fā)式的增長(zhǎng),AI 領(lǐng)域最受矚目的一筆10億美金的并購(gòu) —— Databricks 在今年 6 月以 13 億美金的“天價(jià)”,收購(gòu)了當(dāng)時(shí)成立 2 年的大語(yǔ)言模型(LMM)基礎(chǔ)設(shè)施創(chuàng)業(yè)公司 MosaicML。
受這起收購(gòu)的推動(dòng),AI Infra 初創(chuàng)公司以及科技巨頭們紛紛開始了融資和產(chǎn)品迭代的熱潮?;乜?MosaicML 這筆收購(gòu),當(dāng)時(shí)僅有 60 多人,但是已經(jīng)推出了 MPT 7B、30B 兩個(gè)開源大語(yǔ)言模型,總下載量超過 330 萬(wàn),也是最早一批推出開源 LLM 的公司之一。
本期為大家分享的是創(chuàng)投圈知名播客節(jié)目 OnBoard! 不久前與 MosaicML 聯(lián)合創(chuàng)始人& CTO Hanlin Tang 深度英文對(duì)談。
此外,OnBoard! 還邀請(qǐng)到了老嘉賓&硅谷成長(zhǎng)期投資人 Sapphire Ventures 合伙人 Casber Wang,帶領(lǐng)大家從創(chuàng)始人和投資人的視角,一起解讀這個(gè)有里程碑意義的收購(gòu),以及對(duì)于生成式 AI、Al infra 核心競(jìng)爭(zhēng)力和未來格局等等話題進(jìn)行非常有意思的探討。
這次深度對(duì)話的中文完整內(nèi)容由 有新Newin出品,enjoy~
Monica
首先,我們應(yīng)該向觀眾簡(jiǎn)單介紹一下你自己,以及你是如何進(jìn)入 AI 領(lǐng)域的。像往常一樣,我們也希望你們兩位分享一個(gè)有趣的事實(shí)。你最近發(fā)現(xiàn)有什么有趣的 AI 項(xiàng)目或產(chǎn)品嗎?對(duì)于 Casber 來說,我還有另一個(gè)問題。你最近在 AI 方面的投資是什么?
Hanlin Tang
很高興來到這里,感謝邀請(qǐng),我是 Hanlin Tang,曾是 MosaicML 的 Co-founder。我在 AI/ML 領(lǐng)域工作了相當(dāng)長(zhǎng)的時(shí)間。我想我最初是在研究生院讀書時(shí),當(dāng)時(shí)我在計(jì)算神經(jīng)科學(xué)領(lǐng)域工作。那時(shí)我們沒有大量的數(shù)據(jù)集來訓(xùn)練這些模型,但我們?nèi)栽趪L試構(gòu)建可以執(zhí)行視覺識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)層。
因此,當(dāng)整個(gè) ImageNet 和深度學(xué)習(xí)的浪潮來臨時(shí),對(duì)我來說,自然而然地也轉(zhuǎn)向了這個(gè)領(lǐng)域,所以之前在 Intel 負(fù)責(zé) AI 層面的工作,再之前則是在另一家名為 Nirvana Systems 的深度學(xué)習(xí)初創(chuàng)公司。哦,有趣的近期項(xiàng)目或 AI 領(lǐng)域的事情,我實(shí)際上可能會(huì)提到我最近偶然發(fā)現(xiàn)的一篇舊論文。在沒有 ImageNet 來訓(xùn)練這些模型的時(shí)代,人們所做的是組裝這些卷積神經(jīng)網(wǎng)絡(luò),包括卷積層和池化層,而這些權(quán)重并不是通過反向傳播學(xué)習(xí)得來的,而是實(shí)際上在猴子的視覺皮層中測(cè)量得來的,他們測(cè)量了濾波器的結(jié)果,并將其實(shí)例化到硅基神經(jīng)網(wǎng)絡(luò)中。
事實(shí)證明,這種方法的性能相當(dāng)好。這就是舊式訓(xùn)練這些模型的方法,你只是嘗試弄清楚大腦是如何做到的,然后將這些濾波器倒入神經(jīng)網(wǎng)絡(luò)中。我希望這種方式能奏效,并且很興奮地看到,即使在今天,這種類型的架構(gòu)仍然與它起源的神經(jīng)科學(xué)有著密切的聯(lián)系。
Monica
當(dāng)然,我非常期待看到更多神經(jīng)科學(xué)研究與深度學(xué)習(xí)之間的聯(lián)系。
Casber Wang
謝謝再次邀請(qǐng),Monica。我是 Casber Wang,Sapphire Adventures 的合伙人。我們是一個(gè)主要投資企業(yè)級(jí) B2B 的成長(zhǎng)階段風(fēng)險(xiǎn)資本公司,管理著大約 100 億美元的資金。目前,我主要關(guān)注 Infra 方面,包括數(shù)據(jù)、 DevOps 和 AI/ML 領(lǐng)域。顯然,我會(huì)說從投資者的角度來看, AI/ML 已經(jīng)發(fā)生了很大變化。即使回想到 2017 年和 2018 年,當(dāng)時(shí)人們對(duì) AI/ML 的推廣還不夠真實(shí),大家對(duì) AI/ML 非常懷疑。
ChatGPT 的推出我認(rèn)為已經(jīng)在很大程度上改變了這種情況,但即使在那之前,我認(rèn)為你看看我們所談?wù)摰哪切└鼈鹘y(tǒng)的 AI ML,那些被像 Alteryx 或者 DataRobot 這樣的公司支持,在企業(yè)中廣泛使用的技術(shù),它們?nèi)匀槐粡V泛使用。我傾向于認(rèn)為 ChatGPT 是一個(gè)分水嶺時(shí)刻,它吸引了很多關(guān)注,無(wú)論是從籌資還是從消費(fèi)者角度來看。但正如 Hanlin 剛才提到的,很多發(fā)展已經(jīng)在很久以前就發(fā)生了。我傾向于認(rèn)為 AI/ML 的發(fā)展更像是機(jī)械工程,比如建造橋梁。
現(xiàn)在的 AI/ML 幾乎像生物學(xué)研究一樣,你可能會(huì)最終達(dá)到某個(gè)地方,有可以追溯的路徑,但很難確切地知道你在逐塊建造什么,所以我只是覺得時(shí)機(jī)、一切都非常合適。當(dāng) ChatGPT 實(shí)際推出時(shí),這個(gè)領(lǐng)域發(fā)生了巨大的 Cambrian 爆發(fā)。然后我們開始看到很多興趣,無(wú)論是從企業(yè)家方面還是從投資者社區(qū)的角度進(jìn)入這個(gè)領(lǐng)域。因此,我花了很多時(shí)間關(guān)注 LLM 公司等,而且往往對(duì)這些機(jī)會(huì)非常興奮,不幸的是,我沒有投資 MosaicML ,祝賀 Ruby 和 Hanlin 取得了很好的成果。我最近在一家叫做 Weights & Biases 的公司投了一筆資。我認(rèn)識(shí) CEO Lucas 已經(jīng)很長(zhǎng)時(shí)間了,這是我會(huì)說的 MLOps 領(lǐng)域之一,它已經(jīng)存在一段時(shí)間了,現(xiàn)在又開始向傳統(tǒng) ML 領(lǐng)域,但也向新的 LLM 方面發(fā)展。
Monica
Weights & Biases 成立已經(jīng)很久了,這波新的 LLM 浪潮是否改變了你對(duì)現(xiàn)有公司的看法?
Casber Wang
我不這么認(rèn)為。我實(shí)際上覺得它是從傳統(tǒng) ML 到新的 LLM 方面的一個(gè)很自然的橋梁。我認(rèn)為你可以談?wù)摬煌娜宋锝巧?,?duì)吧,像現(xiàn)在有更多新人加入做 AIML。但當(dāng)我們看市場(chǎng)頂端時(shí),我認(rèn)為有些人已經(jīng)做了很長(zhǎng)時(shí)間,無(wú)論是欺詐檢測(cè)、自動(dòng)駕駛汽車等等。我認(rèn)為這波新浪潮,并不是說它是完全新的,會(huì)取代舊的東西。我看它更像是通往未來更大事物的延伸。
Hanlin Tang
我只是想說,我仍然記得當(dāng) Weights & Biases 剛起步時(shí),在那里有一個(gè)非常小的展位。他們建立了一個(gè)特別出色的平臺(tái),特別是在 LLM 領(lǐng)域。至少對(duì)于我們?cè)谟?xùn)練大規(guī)模模型方面所做的,監(jiān)控的能力,以及分享監(jiān)控的能力非常重要,因?yàn)槲覀兠刻於加?10 到 20 個(gè)人查看模型訓(xùn)練的結(jié)果,以確保一切正常。Weights & Biases 在構(gòu)建一個(gè)真正可用和優(yōu)秀的產(chǎn)品方面做得非常出色。
Monica
從投資者和創(chuàng)業(yè)者的視角,看看現(xiàn)在已有的 MLOps 和工具,其中哪些會(huì)在這波新的 LLM 浪潮中保留,哪些可能會(huì)被替換、顛覆或改變?
Casber Wang
我覺得很有趣,因?yàn)槲艺J(rèn)為隨著越來越多新事物的出現(xiàn),某些更老的東西也會(huì)隨之而來。我是說,顯然,有些技術(shù)是老的,但我認(rèn)為從技術(shù)棧和哲學(xué)觀點(diǎn)來看,它們?nèi)匀淮嬖冢腋嬖V人們,比如 Lucas 在創(chuàng)立 Weights & Biases 之前,他創(chuàng)立了 Cloudflare,后來賣給了 Appen,那是一家標(biāo)注公司,然后在此基礎(chǔ)上擴(kuò)大了標(biāo)注業(yè)務(wù),所以我認(rèn)為你會(huì)開始看到許多被重新激活或以不同形式重新出現(xiàn)的領(lǐng)域,
我認(rèn)為這里真正令人興奮的是,我認(rèn)為在 LLM 之前,許多模型并沒有真正部署到生產(chǎn)中。我認(rèn)為 MosaicML 在幫助人們真正部署到生產(chǎn)方面做得非常好,而我認(rèn)為,一旦你將東西部署到生產(chǎn)中,就會(huì)出現(xiàn)各種實(shí)際的問題或難題,而這些問題或難題將由一套新的工具來解決,比如監(jiān)控或流量控制。
而今天,我認(rèn)為再次從投資者和企業(yè)家的角度來看,你可能會(huì)抽象地將這些 LLM 視為一個(gè)黑盒子,作為一個(gè) API 調(diào)用,而實(shí)際上在你擴(kuò)張這些應(yīng)用時(shí),底層發(fā)生了更多事情。在管理更好的部署或推理方面,你可以做更多事情。你如何管理和優(yōu)化這些工作流程以達(dá)到最佳結(jié)果。當(dāng)然,Hanlin 可能對(duì)此有更多見解吧?
Hanlin Tang
我想,我們看到的是,企業(yè)想要部署這類模型時(shí),顯然有 MLOps 的需求,以及監(jiān)控和評(píng)估等方面的需求。但對(duì)我來說不清楚的是,現(xiàn)有解決方案目前是否足夠好,足以支持部署,還是真的存在那種阻礙他們多個(gè)月無(wú)法進(jìn)行生產(chǎn)部署的痛點(diǎn)?就像一個(gè)新的界面或新的 MLOps 工具介入時(shí)一樣。挑戰(zhàn)的一部分也是,目前對(duì)于 LLM 應(yīng)用來說,它更像是一種創(chuàng)造性的探索,就像每個(gè)企業(yè)都在做,“讓我們舉辦一個(gè) LLM 黑客馬拉松,嘗試原型這些應(yīng)用可能會(huì)是什么樣子”,在沒有確定這一點(diǎn)之前,很難預(yù)測(cè)需要哪些額外工具才能使這些事情真正實(shí)現(xiàn)。
Casber Wang
再分享一個(gè)軼事。我昨天剛在舊金山參加了 Google Next,我不打算點(diǎn)名,但那里有一個(gè)相當(dāng)著名的動(dòng)作識(shí)別供應(yīng)商。我去看了他們的演示,而這個(gè)演示在中間卡住了三次。從真實(shí)企業(yè)的角度來看,如果你啟動(dòng)了 GitHub Copilot 或者說像 GitLab Copilot 這樣的東西,而且在你第一次嘗試使用時(shí),你遇到了三個(gè)異常,那可能不是一個(gè)很好的體驗(yàn)。但早期,我想根據(jù) Hanlin 的觀點(diǎn),人們正在嘗試這些東西。我們是如此興奮,愿意在早期承擔(dān)更大的錯(cuò)誤容忍度。但隨后,在更嚴(yán)肅的企業(yè)環(huán)境中,如果你想讓人們真正將其整合到日常工作流程中,你必須期望一定程度的準(zhǔn)確性,這與實(shí)驗(yàn)和嘗試完全不同。
Hanlin Tang
我只是想回應(yīng)一下,很多艱苦的工作并不是找到一個(gè)酷炫的方法來服務(wù)于 LLM,而是像磨掉最后的 99% 的延遲那樣的艱苦工作,或者像每個(gè)愚蠢的服務(wù)失敗,或者隨機(jī)的 GPU 故障之類的。這些基礎(chǔ)工作的處理使這些產(chǎn)品達(dá)到企業(yè)對(duì)關(guān)鍵任務(wù)部署的可靠性和期望,所以我認(rèn)為目前的很多工具,包括我們所構(gòu)建的,實(shí)際上還沒有達(dá)到那種狀態(tài),因?yàn)檫€有很多艱苦的工作需要完成。
Monica
我記得在我上一期與 Casber 的節(jié)目中,我們簡(jiǎn)要談?wù)摿诉@個(gè)話題,當(dāng)時(shí) MLOps 領(lǐng)域非常碎片化,那期節(jié)目大概是半年前,比 LLM 浪潮成為主流之前。我認(rèn)為你們剛才討論的讓我想起,可能是因?yàn)槲覀兛吹絺鹘y(tǒng)的 LLMOps 領(lǐng)域并沒有看到很多大的沖突,可能正如你們所說,大多數(shù)模型沒有進(jìn)入生產(chǎn)階段,所以它們沒有機(jī)會(huì)擴(kuò)展。如果 LLM 能夠?qū)⒏嗄P驼嬲赜蠥I應(yīng)用增長(zhǎng),我們可能會(huì)看到很多現(xiàn)有的工具,無(wú)論是新的還是舊的,都會(huì)專注于生產(chǎn)環(huán)境。這聽起來像是更多的機(jī)會(huì)!
回到 Hanlin,所以我想對(duì)于那些不太了解的人來說,如果你能給我們介紹一下MosaicML 做什么,以及它的關(guān)鍵技術(shù)和業(yè)務(wù)。
Hanlin Tang
當(dāng)然。我認(rèn)為我們大約兩年半前開始,因?yàn)槲覀兛吹酱笠?guī)模模型將成為一種趨勢(shì),使這些工具高效、易用和易于獲取是這些能力真正進(jìn)入更廣泛企業(yè)的方式。在 Intel ,我們看到許多公司在這方面的掙扎,不幸的是,即使到今天,深度學(xué)習(xí)的軟件工具仍然非常不成熟。你配置錯(cuò)誤一個(gè)驅(qū)動(dòng),突然就慢了兩倍,而且你不知道為什么,所以這就是我們要解決的問題。
我們很幸運(yùn)看到我們的產(chǎn)品準(zhǔn)備好之后, LLM 波浪來臨。Mosaic 的簡(jiǎn)要介紹是,我們構(gòu)建了軟件 Infra ,使公司能夠高效、輕松地在自己的數(shù)據(jù)上訓(xùn)練自己的模型。我們相信在一個(gè)可能更好的世界中,我們賦予企業(yè)能力,使他們能夠訓(xùn)練自己的模型,自己的 LLM ,并建立自己的偏見和觀點(diǎn)。我們的工作是構(gòu)建 Infra ,解決性能問題,解決工程挑戰(zhàn),使這些公司能夠非常輕松地做到這一點(diǎn)。我們很幸運(yùn)有一些客戶,包括亞洲的,實(shí)際上相當(dāng)多,但也包括美國(guó)的,與我們一起走過這段旅程。
Monica
Mosaic 是什么時(shí)候成立的?
Hanlin Tang
成立于 2021 年 1 月。
Monica
2021 年 1 月的時(shí)候,很多人或許都看不到 LLM 或大型模型將像我們現(xiàn)在所說的那樣占據(jù)世界,所以我很好奇,那時(shí)你在做什么?你和你的團(tuán)隊(duì)看到了哪些早期跡象,讓你們相信是時(shí)候?yàn)榇笮湍P徒ㄔ?infra 了?
Hanlin Tang
我想早期,我們看到 OpenAI 在 GPT 系列模型上所做的事情。顯然,它們還沒有達(dá)到今天的能力水平,但看著已經(jīng)很有可能性。坦率地說,當(dāng)我們專注于大規(guī)模模型時(shí),我們認(rèn)為大規(guī)模模型將成為一種趨勢(shì)。但它們是 LLM 、大規(guī)模計(jì)算機(jī)視覺模型還是非transfomer 架構(gòu)的大規(guī)模訓(xùn)練,當(dāng)我們開始公司時(shí)這還不太確定,所以一塊一塊地,我們從簡(jiǎn)單的計(jì)算機(jī)視覺模型、分割模型到 BERT 風(fēng)格的模型,再到 LLM 。我會(huì)說就在去年這個(gè)時(shí)候,我們已經(jīng)構(gòu)建了這個(gè)技術(shù)棧,但大多數(shù)公司都在問,“什么是 LLM ,我為什么需要它?”哦,這些東西編造了很多東西。我為什么要使用這樣的東西?我認(rèn)為這只是一個(gè)時(shí)機(jī)問題,我們看到了大規(guī)模模型,我們不知道確切的類型,我們必須為未來做好準(zhǔn)備。
Monica
確實(shí),在過去的一年里發(fā)生了很多事情。從 Stable Diffusion,和去年年底 ChatGPT 的問世,你們看到了什么?你們是什么時(shí)候開始意識(shí)到,你們的平臺(tái)需求發(fā)生了變化?在你們的產(chǎn)品線和商業(yè)模式方面,你們過去一兩年內(nèi)做出了哪些主要的里程碑式變化?
Hanlin Tang
我認(rèn)為顯然一旦 ChatGPT 出現(xiàn)后,企業(yè)的需求顯著上升。一開始,我們真的很專注于從頭開始預(yù)訓(xùn)練我們自己的模型,完全控制數(shù)據(jù)來源,并為特定的語(yǔ)言需求進(jìn)行調(diào)優(yōu)。我認(rèn)為隨著技術(shù)環(huán)境的發(fā)展,我們?nèi)缓髷U(kuò)展到,好的,現(xiàn)在你想要接手一個(gè)現(xiàn)有的模型并對(duì)其進(jìn)行微調(diào)。你想能夠服務(wù)這種構(gòu)建出來的模型,我們想要構(gòu)建出這種端到端的訓(xùn)練和構(gòu)建 LLM 的堆棧。我們的重點(diǎn)一直在 ML 系統(tǒng)方面,所以這就是我們所看到的進(jìn)展。
Casber, 我不知道你在嘗試解決這個(gè)領(lǐng)域的初創(chuàng)公司中看到了什么。像他們的進(jìn)展是否與我們的方式類似,還是實(shí)際上與我們的方法相反?
Casber Wang
你們公司 Intel 可能在企業(yè)方面看到了這一點(diǎn),事情總是從更定制化開始,然后才會(huì)像你們 團(tuán)隊(duì)那樣,先賣給頂層人物,這些人愿意為此付出高價(jià)并想要定制這些東西,然后才能向下游推廣。
我認(rèn)為像你們這樣,以正確的方式接近市場(chǎng)。有些人,你知道,從時(shí)間角度來看,不幸的是,他們被困在了舊有的范式中。之所以這樣,是因?yàn)樵谶@里之前有很多興趣、很多關(guān)注、很多預(yù)算,而不是真正的現(xiàn)金。之所以有那么多針對(duì) MLOps 的點(diǎn)式解決方案,這是我的理論,是因?yàn)榇蠖鄶?shù)認(rèn)真做 ML 的人已經(jīng)建立了自己的管道,所以他們只需要一兩個(gè)點(diǎn)式解決方案,就能夠插入并解決他們堆棧中的某個(gè)問題。因此,有公司在圍繞如何構(gòu)建可以插入他人堆棧的東西來建立業(yè)務(wù),而不是看全局。
這并不是因?yàn)樗麄冏约旱倪^錯(cuò),而是沒有看到更大的圖景。
就像在大型企業(yè)中,你不會(huì)考慮如何訓(xùn)練我的端到端模型,而當(dāng) ChatGPT 出現(xiàn)時(shí),這是一件大事。我確信我們還會(huì)談到的另一件事是,那些從非消費(fèi)角度出發(fā)的人,從自下而上的那些更長(zhǎng)尾的應(yīng)用,那并不是企業(yè)級(jí)的。但現(xiàn)在它們正在出現(xiàn),但這是一個(gè) Prompt 市場(chǎng),或者是一些其他的東西正在出現(xiàn)。這些是在 LLM 出現(xiàn)之前通常不需要的新東西,所以這是在解決一個(gè)非常不同的領(lǐng)域。
Hanlin Tang
我我傾向于同意。我認(rèn)為我們的論點(diǎn)一直是專注于硬件工程問題,尤其是 ML 性能。在傳統(tǒng)的機(jī)器學(xué)習(xí)中,如果是 100 美元或 50 美元,可能不值得遷移到新的堆?;蝾愃频臇|西。但當(dāng)它是一百萬(wàn)美元或五十萬(wàn)美元時(shí),這種效率突然變得非常關(guān)鍵,所以我們想解決一個(gè)核心的經(jīng)濟(jì)問題,有這樣的需求,并希望我們能夠構(gòu)建出其他工具。
Monica
從一開始,你們就專注于提高大型模型訓(xùn)練的成本效率。那么你們的早期客戶是誰(shuí)?我會(huì)想象,比如早期像 OpenAI 這樣的 LLM 構(gòu)建者,他們那時(shí)可能已經(jīng)建立了他們的堆棧。
Hanlin Tang
我們?cè)缙诘囊慌蛻羰悄切┱谟?xùn)練 Bert 模型的客戶。對(duì)于他們來說,他們?cè)噲D抓住越來越大的 Bert 模型,所以那是我們的首次介紹。我們實(shí)際上也在計(jì)算機(jī)視覺和語(yǔ)義分割方面投入了很多,但在那部分起飛之前,NLP 和LLM 的階段已經(jīng)進(jìn)來了,所以我認(rèn)為那是我們獲得的第一批客戶。但我們花了整整一年的時(shí)間來構(gòu)建。顯然,我們與潛在客戶進(jìn)行了交流,了解了他們的痛點(diǎn)。但工程方面確實(shí)需要首先進(jìn)行高效的大規(guī)模訓(xùn)練。
Monica
我想深入了解一些非常有趣的 MosaicML 公司的產(chǎn)品或公司決策。首先,我注意到的是,一開始, MosaicML 實(shí)際上開源了很多工具。漢林,你能不能談一談你們開源了什么,以及為什么決定開源?
Hanlin Tang
當(dāng)然。一開始,我們開源了一個(gè)基于 PyTorch 的庫(kù),名為 Composer,它允許有效地訓(xùn)練,同時(shí)也能有效地插入新類型的算法來訓(xùn)練這些模型。我們實(shí)際上是出于對(duì)我們研究團(tuán)隊(duì)進(jìn)行實(shí)驗(yàn)的必要而構(gòu)建了這個(gè)。一旦我們想要將其推廣給客戶,就很明顯,ML 數(shù)據(jù)科學(xué)家想要看到和了解一切,他們不會(huì)接受“嘿,這里有一個(gè)加速模型訓(xùn)練的黑匣子代碼,但你不能看,不能知道它做了什么,這是專有的,一些專有的秘密配方,”這真的行不通。而我們從核心上非常支持開源。老實(shí)說,WHI(制作數(shù)據(jù)庫(kù)的公司)從核心上也非常支持開源,因?yàn)閺恼軐W(xué)角度來看,這非常契合,因?yàn)槲覀冊(cè)噲D開源它。我們從外部人員那里獲得了很多貢獻(xiàn),他們進(jìn)來使用等等。
后來,或者說更晚些時(shí)候,我們決定也開源 MPT 。MBT-7B,我認(rèn)為是首個(gè)商業(yè)許可的 Llama 風(fēng)格模型被發(fā)布。對(duì)我們來說,這個(gè)模型很棒。我們對(duì)社區(qū)的反應(yīng)感到非常榮幸。對(duì)我們來說,這是我們工具能做什么的聲明。我們開源它的原因是顯然為了幫助社區(qū)從中發(fā)展。但也是,“嘿,伙計(jì)們,這個(gè)模型從頭開始訓(xùn)練只用了10天。這不是什么神奇的八位數(shù)成本。這里是它真正的成本以及如何做到的。順便說一句,只需點(diǎn)擊按鈕,它就能工作,”這也是我們考慮的部分目標(biāo)。
Casber Wang
我想在這里問一個(gè)問題,如果你今天要開始 MosaicML ,知道已經(jīng)發(fā)生了這么多的發(fā)展,人們已經(jīng)加入了開源列車,顯然,我認(rèn)為你仍然會(huì)像你提到的模型那樣開源,向人們展示你用 15 或 20 萬(wàn)的訓(xùn)練成本,相比于多少開源培訓(xùn),以及驗(yàn)證策略。但就核心架構(gòu)而言,你今天還會(huì)開源像 Composer 這樣的工具嗎?或者說,因?yàn)槭袌?chǎng)更加成熟,我們就更傾向于封閉源代碼?
Hanlin Tang
我認(rèn)為對(duì)于像 Composer 這樣的工具,我今天大概還是會(huì)選擇開源,主要是因?yàn)閿?shù)據(jù)科學(xué)家不信任封閉源代碼,尤其是當(dāng)他們把數(shù)據(jù)和模型托付給你時(shí)。如果它保持封閉源代碼,要跨越那個(gè)說服障礙真的很難。我個(gè)人認(rèn)為,對(duì)社區(qū)來說,開源總體上更好。從商業(yè)角度來看,如果我們找不到一種方法來在開源的同時(shí)盈利,那么我們可能選錯(cuò)了行業(yè),或者我們必須重新考慮我們正在做的事情,像我們必須找到一種在開源的基礎(chǔ)上盈利的方法,無(wú)論如何,這是我們一開始的理念。
Monica
這也是我對(duì) Casber 的一個(gè)問題,因?yàn)槲覀冮L(zhǎng)期專注于 Infra 開發(fā)者工具和領(lǐng)域,我們經(jīng)歷過 2020 年和 2021 年,開源的熱潮,那時(shí)候你有一個(gè)非常好的社區(qū)(也不需要收入和商業(yè)模式),好像就能成為獨(dú)角獸。在那之后發(fā)生了什么變化?如果我是一位創(chuàng)始人,我應(yīng)該如何思考是否開源我的產(chǎn)品?如果我已經(jīng)擁有一個(gè)相對(duì)成功的開源項(xiàng)目,我應(yīng)該如何考慮商業(yè)化之路?
Casber Wang
我認(rèn)為最大的差別是,之前,大多數(shù)開源公司或更有機(jī)的開源項(xiàng)目都是這樣的,就像你想到 Confluent,Kafka 不是為了開始 Confluent 而開源的,它基本上是一個(gè)有機(jī)過程,在 LinkedIn 發(fā)展了三四年之后才開始創(chuàng)建公司。然后在 2020 年和 2021 年,LinkedIn、Uber 的高級(jí)工程師開始使用。你要?jiǎng)?chuàng)辦一家開源公司,我要看你發(fā)展過程是否是有機(jī)的。最極端的例子是有人在創(chuàng)辦公司的那一刻就開源項(xiàng)目,并宣稱那家公司是一家開源公司;我認(rèn)為這樣你就無(wú)法獲得社區(qū)吸引力的好處,但也無(wú)法讓社區(qū)共同構(gòu)建產(chǎn)品,對(duì)抗測(cè)試產(chǎn)品,但你也在商業(yè)化方面花費(fèi)了精力,你基本上是在向社區(qū)免費(fèi)提供東西,然后稍后你需要捕獲東西。
從這個(gè)角度來看,這是一個(gè)更難的循環(huán),所以我認(rèn)為最重要的一點(diǎn)是考慮開源與否,就像這個(gè)產(chǎn)品團(tuán)隊(duì)是否能夠在不管是不是開源的情況下對(duì)該產(chǎn)品進(jìn)行商業(yè)化。我認(rèn)為這是最大的一點(diǎn),然后如果開源是正確的決定,那么就變成了“這個(gè)開源項(xiàng)目已經(jīng)存在多久了",如果它是一個(gè)數(shù)據(jù)庫(kù)產(chǎn)品,就像如果它只存在了 6 個(gè)月,你可能需要更多時(shí)間來對(duì)抗測(cè)試那個(gè)東西。
如果你只是在一個(gè)非常年輕的開源項(xiàng)目數(shù)據(jù)庫(kù)方面開始一家公司,你會(huì)遇到穩(wěn)定性問題,因?yàn)槟氵€沒有經(jīng)過對(duì)抗測(cè)試,”與某人從 Progress 或 MySQL 這樣更經(jīng)過對(duì)抗測(cè)試的項(xiàng)目開始相比,你會(huì)得到更多開源驗(yàn)證的好處,不是嗎?我認(rèn)為這是一個(gè)非常重要的決策。只是要思考你所處的開源項(xiàng)目類型,以及你應(yīng)該開源還是不開源。
當(dāng)然,其次,我認(rèn)為像 Hanlin 提到的,在一些快速發(fā)展的領(lǐng)域,如 ML 和 AI,開源可能是一個(gè)非常有趣的策略,因?yàn)槟阍谀撤N程度上將自己嵌入到社區(qū)堆棧中,通常,我認(rèn)為像我這樣的投資者最天真的問題之一就是,為什么不是 Google 做這個(gè)?為什么不是 Amazon 做這個(gè)?為什么不是別人做這個(gè)?我認(rèn)為這在一開始也很大程度上是一個(gè)品牌的事情,社區(qū)會(huì)考慮堆棧應(yīng)該是什么樣的,然后他們就會(huì)跟隨這個(gè)項(xiàng)目。他們不會(huì)去想,嘿,讓我去找找亞馬遜、谷歌有什么,他們只會(huì)堅(jiān)持使用 Mosaic 和其他三個(gè)工具,因?yàn)檫@就是社區(qū)里的東西。這就是人們使用它的原因,與其他不同,所以這里有一種品牌和網(wǎng)絡(luò)效應(yīng),而沒有開源的驗(yàn)證,你真的得不到這個(gè)。
Casber Wang
所以我認(rèn)為那就是開源也可以是一個(gè)非常好的強(qiáng)有力的驗(yàn)證策略,與另一方面相比,我認(rèn)為開源通常在市場(chǎng)非常成熟,問題集非常成熟的情況下表現(xiàn)不那么好。
作為買家,我知道我需要解決什么問題。我知道這里有具體的 KPI 會(huì)拿來和你比較,然后這個(gè)工具是否開源對(duì)我的決策影響不大,所以它更像是一個(gè)錦上添花的東西,而不是早期你可以有機(jī)會(huì)進(jìn)來為社區(qū)定義標(biāo)準(zhǔn)。這就是我認(rèn)為開源變得非常有價(jià)值的地方。
Hanlin Tang
我想回應(yīng)一下,客戶來找我們并不是因?yàn)槲覀儌鹘y(tǒng)上是開源的,客戶數(shù)據(jù)科學(xué)家在某處使用開源工具,他們想購(gòu)買像一個(gè)管理版本的東西,但對(duì)我們來說,情況非常不同。我們大部分來自客戶的詢問不是因?yàn)樗麄円呀?jīng)在使用 Composer。他們想買這個(gè)未經(jīng)管理的 Composer,因?yàn)槲覀儗?shí)際上并沒有提供這個(gè)產(chǎn)品。他們找我們是因?yàn)樗麄冇幸粋€(gè)問題需要解決。他們想訓(xùn)練一個(gè)模型,開源的 Composer 是做到這一點(diǎn)的工具之一。他們喜歡在自己更了解的技術(shù)棧上進(jìn)行構(gòu)建,而不是它僅僅是我們整個(gè)需求生成路線的一部分。
Monica
但我認(rèn)為你提出了一個(gè)關(guān)于市場(chǎng)時(shí)機(jī)的非常有趣的觀點(diǎn)。我認(rèn)為這也是一個(gè)利弊并存的問題,因?yàn)槭袌?chǎng)仍在興起,所以你在早期看到的許多開源工具可能看起來不是那么理想,很容易批評(píng)他們不適合大企業(yè)使用,或者,我們不知道基礎(chǔ)模型層會(huì)如何改變,這可能會(huì)改變對(duì)那個(gè)工具的需求。所以,那么作為一個(gè)投資者或賣方創(chuàng)始人,我應(yīng)該等待事情成熟嗎?我應(yīng)該等待自己擁有一個(gè)所謂的“企業(yè)就緒”產(chǎn)品嗎?還是你認(rèn)為我們先開始獲得市場(chǎng)份額?
Casber Wang
我認(rèn)為從投資者的角度來看,對(duì)于這個(gè)問題提供更大的答案是有必要的。再次強(qiáng)調(diào),不同的開源項(xiàng)目在技術(shù)堆棧的不同位置上也有不同的技術(shù)難題,比如,我不是要低估 Langchain 和 LlamaIndex 在他們的堆棧上所做的事情,但像那種中間件訓(xùn)練部分的腳本,它并不完全像數(shù)據(jù)庫(kù)一樣的產(chǎn)品。但對(duì)于他們來說,社區(qū)的度量是如此重要。因?yàn)橛辛碎_發(fā)者和我這樣的人,以及其他人喜歡它的人,啟動(dòng)是建設(shè)的第一要?jiǎng)?wù),然后所有其他工具都插入到鏈中,然后我只會(huì)繼續(xù)使用它們,所以你有了這種網(wǎng)絡(luò)效應(yīng),而對(duì)于第三和第四名的玩家來說,在我看來,他們應(yīng)該轉(zhuǎn)向其他事情,我認(rèn)為已經(jīng)有很多人這樣做了。與那些性能更高、技術(shù)認(rèn)證要求更高、人們正在使用它們來滿足更具體需求的東西相比,這些東西位于堆棧較低的位置。我認(rèn)為在這里你可以說,也許你不必是第一個(gè)進(jìn)入市場(chǎng)的人,你可以帶來一個(gè)更成熟的產(chǎn)品,立即就能正常運(yùn)作,所以這是我的觀點(diǎn)。
Hanlin Tang
我當(dāng)然也同意這一點(diǎn)。我意思是,我們?cè)诎l(fā)布之前多次測(cè)試了 Factor Composer,以確保吸引力合適,性能達(dá)到我們想要的水平,所以我們遵循了這樣的路徑,讓它確保一切正常運(yùn)行,確保性能達(dá)到我們想要的水平之后,我們才真正全力以赴。
Monica
您什么時(shí)候開始對(duì)您的開源項(xiàng)目進(jìn)行商業(yè)化,以及隨著時(shí)間的推移,您的商業(yè)化方法如何演變?
Hanlin Tang
實(shí)際上,最初我們就一直打算這樣做,就是創(chuàng)辦公司的初衷。我們知道我們需要按消耗和使用收費(fèi)。我們知道,機(jī)器學(xué)習(xí)科學(xué)家和語(yǔ)言模型科學(xué)家,一個(gè)團(tuán)隊(duì)可以輕松消耗數(shù)百萬(wàn)美元的 GPU 小時(shí)來訓(xùn)練這些模型。我們想捕捉到這一點(diǎn),而不是每月每位數(shù)據(jù)科學(xué)家頭部收取 20 美元之類的費(fèi)用,所以就商業(yè)化部分來說,我們需要構(gòu)建整個(gè) Infra 和編排堆棧,并使其在訓(xùn)練大規(guī)模模型方面正常運(yùn)行。我們將在計(jì)算層的頂部進(jìn)行商業(yè)化,要么是我們提供算力,要么是我們帶來算力,但我們的軟件層將是附加的。您訓(xùn)練得越多,使用得越多,我們就能收費(fèi)得越多。這對(duì)我們正在構(gòu)建的事情來說效果很好,因?yàn)槲覀冏尶蛻舻墓ぷ髫?fù)載運(yùn)行得更快,并消除了模型開發(fā)過程中的痛點(diǎn)。因此,即使他們可能在計(jì)算上花費(fèi)更多,他們實(shí)際上會(huì)消耗更少的計(jì)算資源,更快地將產(chǎn)品推向市場(chǎng),所以這種協(xié)同效應(yīng)對(duì)我們來說非常有效,
Monica
從投資者的角度來看,作為一家軟件公司,您總是希望按使用量收費(fèi),這就是為什么人們喜歡它。就像您可以根據(jù)算力的使用量收費(fèi),但是對(duì)于所有的公共云公司來說,他們已經(jīng)構(gòu)建了 Infra ,知道如何管理他們的運(yùn)營(yíng)和 Infra 。那么您認(rèn)為這個(gè)領(lǐng)域?qū)⑷绾伟l(fā)展,尤其是對(duì)于像一些新創(chuàng)企業(yè)來說,他們剛剛進(jìn)入這個(gè)市場(chǎng)。
Hanlin Tang
對(duì)于我們來說,我們很幸運(yùn)地有了公有云公司的偉大合作伙伴,因?yàn)槲覀儙椭蛻舾p松地訓(xùn)練大規(guī)模模型, GPU 的使用量就會(huì)增加,所以在這方面有很好的協(xié)同效應(yīng)。如果我今天才開始,我實(shí)際上不會(huì)太注重公共云正在構(gòu)建的東西,也許這有點(diǎn)不同尋常,但是我會(huì)專注于找到客戶并讓他們滿意,不要太關(guān)注 Twitter 上的噪音、炒作和恐慌,因?yàn)檫@可能會(huì)令人不知所措,而你必須繼續(xù)構(gòu)建,所以我會(huì)更專注于那個(gè)方面,那里有很多機(jī)會(huì),即使在公共云和其他產(chǎn)品中,軟件創(chuàng)業(yè)公司仍然有很多機(jī)會(huì)產(chǎn)生影響。
Monica
我們已經(jīng)看到很多公司都在進(jìn)行訓(xùn)練或服務(wù)成本優(yōu)化,他們都有 Infra 和 AI 的背景,當(dāng)然,提高成本效率總是有改進(jìn)的空間。因此,從產(chǎn)品的角度來看,除了在 benchmark 上競(jìng)爭(zhēng)之外,什么是一個(gè)好的 LLM 訓(xùn)練或服務(wù)平臺(tái)?
Hanlin Tang
對(duì)于我來說,成本節(jié)省或效率是一種使能因素,但它并不是價(jià)值驅(qū)動(dòng)因素,因?yàn)槟侵皇且粓?chǎng)降低成本的游戲,這就是為什么我們實(shí)際上更注重訓(xùn)練方面的效率,因?yàn)檫@決定了市場(chǎng)推出的時(shí)間。如果您是一家企業(yè),正在構(gòu)建某種用于打擊垃圾郵件的語(yǔ)言模型,每天如果您的模型沒有部署,您就會(huì)受到影響,從底線的角度來看。
而且,這就是為什么我們更注重在訓(xùn)練方面的成本效益。而在服務(wù)方面,效率只是達(dá)到的最低標(biāo)準(zhǔn),但可靠性、隱私、企業(yè)安全性、跨多個(gè)地區(qū)擴(kuò)展,實(shí)際上才是真正有所不同的地方。我認(rèn)為這正是與 Databricks 合作的優(yōu)勢(shì)所在,因?yàn)樗麄円呀?jīng)擁有了在此基礎(chǔ)上構(gòu)建很多東西的出色 Infra 。
Monica
你們一開始就有訓(xùn)練和服務(wù)平臺(tái)嗎?
Hanlin Tang
我們是從訓(xùn)練開始的,我們進(jìn)行了訓(xùn)練、預(yù)訓(xùn)練、微調(diào),然后在今年五月推出了服務(wù)(serving)?,F(xiàn)在我們?yōu)榭蛻籼峁┝藘商桩a(chǎn)品,用于構(gòu)建和部署他們的 LLM 。
Casber Wang
但我認(rèn)為 Hanlin 剛才提到的事情也很重要,從平臺(tái)開始提供訓(xùn)練和服務(wù)與僅僅專注于訓(xùn)練效率有很大不同,就像今天,我所做的就是訓(xùn)練的效率,因?yàn)槲蚁嘈拍銈冏x了 SemiAnalysis 的那篇文章, GPU 供不應(yīng)求。那真的很有趣,那是一篇非常棒的文章。但是這個(gè)領(lǐng)域發(fā)展得如此之快,以至于對(duì)企業(yè)家的最佳建議是找到一種方法,可以始終保持相關(guān)性,考慮到這個(gè)領(lǐng)域的發(fā)展如此之快,明年會(huì)有很多 GPU 上線,你今天正在研究的算法可能在 GPU 充裕的情況下就不再相關(guān)了,但如果你有一個(gè)平臺(tái)的價(jià)值主張,實(shí)際上與企業(yè)的底線聯(lián)系在一起,也就是讓我快速部署某些東西,讓我通過推理來改進(jìn)它。我始終是一個(gè)平臺(tái),使它們能夠同時(shí)做這兩者,而不僅僅是提供一個(gè)工具,我可以下載并在當(dāng)前堆棧上進(jìn)行優(yōu)化。與企業(yè)合作伙伴相比,這是一個(gè)更好的位置,而不是像我是一個(gè)點(diǎn)解決方案,幫助你加速某種類型的 GPU。
Hanlin Tang
完全同意。我認(rèn)為對(duì)于許多語(yǔ)言模型企業(yè)或打算構(gòu)建語(yǔ)言模型的企業(yè)來說,成本當(dāng)然是其中的一部分,但“只需正常工作 (It just works) ”的部分在初創(chuàng)公司這一邊是非常被低估的,但當(dāng)你與企業(yè)交談時(shí),他們不想浪費(fèi)時(shí)間來解決錯(cuò)誤和無(wú)限的拓?fù)鋯栴}以及 GPU 故障等問題,所以我認(rèn)為“只需正常工作”的理念對(duì)于任何想要在這個(gè)領(lǐng)域構(gòu)建工具的人來說都非常重要。
Casber Wang
如果我可以再補(bǔ)充一點(diǎn),這是作為投資者看到的一種非常有趣的分化現(xiàn)象,就像在企業(yè)的成熟部分,比如 DevOps ,人們討厭支付比他們認(rèn)為應(yīng)該支付的更多的費(fèi)用,比如,我每月給 Github 付8美元,所以我不想支付任何工具,甚至是 20 美元,但在一個(gè)發(fā)展迅速的時(shí)代,今天我會(huì)說企業(yè)正在嘗試更快地構(gòu)建應(yīng)用程序并更早地找到價(jià)值,就像他們想出去,如果你是蘋果,就像我用 iPhone 作為一個(gè)很好的例子,它只是工作。我們都使用 iPhone ,因?yàn)樗皇枪ぷ?。我不知道,也許它的硬件不是最好的,但它只是工作。然后人們?cè)敢鉃樗Ц陡哳~費(fèi)用,因?yàn)樗c業(yè)務(wù)結(jié)果如此密切相關(guān)。
我認(rèn)為這是一個(gè)非常被低估的部分,因?yàn)樵S多企業(yè)家都來自專家背景,他們的頭腦中有很多優(yōu)化思維,而對(duì)于首席信息官(CIO)這樣的關(guān)鍵買家來說,他們的第一價(jià)值命題是,如果我今年為這個(gè)項(xiàng)目分配了這么多資金,后來我可以展示什么,我們說節(jié)省了10萬(wàn)美元,在這方面多花點(diǎn)錢不會(huì)真正產(chǎn)生影響,如果他們能真正制造出一個(gè)能產(chǎn)生收入的產(chǎn)品。
Monica
還有一個(gè)有趣的決策我想談?wù)?。我認(rèn)為你們?cè)诮榻B MosaicML 旅程時(shí)也提到過,那就是你們?yōu)槭裁匆约簭念^開始訓(xùn)練一個(gè)開源語(yǔ)言模型。起初是 MPT 7B,然后是 30B。作為 MLOps 公司這樣的服務(wù)提供商,為什么你們決定從頭開始訓(xùn)練自己的模型?背后的決策是什么思考?
Hanlin Tang
正如我所提到的,我們的業(yè)務(wù)是構(gòu)建工具,幫助公司自己訓(xùn)練模型。通過發(fā)布一個(gè)真正高質(zhì)量的模型,社區(qū)可以在此基礎(chǔ)上構(gòu)建,我們可以展示我們的工具真的很有效,有什么比這更好的方式呢?對(duì)我來說,為社區(qū)做出貢獻(xiàn),讓他們能夠啟動(dòng)并構(gòu)建,是一個(gè)很棒的時(shí)刻。另外,接受度方面也很好。有一些公司來找我們說,嘿,我想訓(xùn)練一個(gè)非常相似類型的模型,但對(duì)我來說,你選擇了 100% 的英文,而我需要 50% 的英文和 50% 的韓文,因?yàn)槲沂且患翼n國(guó)公司,我想為那個(gè)市場(chǎng)提供服務(wù)。或者是一半英文,一半阿拉伯文,或者這很不錯(cuò),但我真的想重新調(diào)整我的數(shù)據(jù)管道,使數(shù)據(jù)集的構(gòu)成更專注于金融,所以將它發(fā)布出去并開放它對(duì)我們來說很有好處。顯示成本對(duì)很多公司來說也非常有啟發(fā)性,因?yàn)槟鞘且粋€(gè) POC 級(jí)別的成本?,F(xiàn)在這是一個(gè) POC 級(jí)別的事情,你可以做,對(duì)企業(yè)、數(shù)據(jù)科學(xué)家或 ML 領(lǐng)袖來說更容易向他們的管理層證明這是值得的,因?yàn)樗暮锰?。而且,順便說一下,這只是一個(gè)不到 20 萬(wàn)美元的項(xiàng)目,這為我們帶來了很多機(jī)會(huì)。
Monica
自己建LLM的過程,如何有助于你們?nèi)绾卧O(shè)計(jì)或重新思考你們的平臺(tái)?
Hanlin Tang
有很多。通過大規(guī)模訓(xùn)練這些模型,你可以學(xué)到很多東西。隨著規(guī)模的增長(zhǎng),一切都會(huì)崩潰,當(dāng)我們從 7B 變成 30B 時(shí),模型的大小崩潰了。即使在訓(xùn)練 7B 參數(shù)模型時(shí),我們知道 GPU 經(jīng)常出現(xiàn)故障。我認(rèn)為在訓(xùn)練那個(gè)模型的 10 天內(nèi),我們有四次 GPU 節(jié)點(diǎn)的故障,所以我們建立了一個(gè)構(gòu)建系統(tǒng)來檢測(cè)并從中恢復(fù)。我認(rèn)為說我們用一些領(lǐng)域范圍的參數(shù)訓(xùn)練了一個(gè)模型并通過一些方法解決了它,我們付出了很多努力,這是一回事,而說我們用我們的工具來做的,我們的客戶也可以使用,從可用性的角度來看,這是非常有啟發(fā)性的。然后建立正確的工具,使其對(duì)其他人來說也可以重復(fù)使用,這是非常有啟發(fā)性的。
Casber Wang
我很好奇,關(guān)于參數(shù)數(shù)量等方面的討論,以及排行榜上的表現(xiàn),社區(qū)或?qū)嶋H買家在多大程度上關(guān)心?他們是否將模型發(fā)布與排行榜聯(lián)系起來,還是更多的實(shí)際上是,我考慮因?yàn)槟憬裉熘С?3B,所以我可以啟用這些用例。我們現(xiàn)在看到更多是從可能的收入空間開始,然后找到用例,還是從實(shí)際需求出發(fā),認(rèn)為 MosaicML 是我可以真正擁有的東西,然后再看看別的場(chǎng)景?
Hanlin Tang
我明白你的意思。這是一個(gè)很好的問題。我認(rèn)為有一個(gè)最低的門檻,它必須是排行榜上的佼佼者之一。之后,對(duì)于企業(yè)來說,它們的關(guān)心程度就不大了,但他們希望在支付款項(xiàng)時(shí)能夠確信,你已經(jīng)達(dá)到了這個(gè)門檻。這是因?yàn)槠髽I(yè)不希望浪費(fèi)計(jì)算預(yù)算來進(jìn)行大規(guī)模的超參數(shù)搜索,我們應(yīng)該已經(jīng)做過了。我們已經(jīng)有了一套工作超參數(shù)設(shè)置,不管數(shù)據(jù)源如何,都可以訓(xùn)練這些模型,所以排行榜達(dá)到最低標(biāo)準(zhǔn)的門檻給了他們信心,我們的配置都很好,實(shí)際上不需要進(jìn)行一堆不同的探索和超參數(shù)搜索。
Monica
你們?nèi)绾螏椭蛻糇龀鰶Q策?比如,使用開源還是閉源?如果使用開源,我應(yīng)該使用多少數(shù)據(jù)微調(diào)?所有這些問題中最常見的是什么?你們有沒有從中總結(jié)出最佳實(shí)踐?
Hanlin Tang
有很多問題,現(xiàn)在這個(gè)領(lǐng)域非常開放,我需要 Prompt 嗎?還是 Prompt 足夠了?我必須微調(diào)嗎?這取決于我是否使用 RAG 等。在什么情況下我需要修剪我的模型?在什么情況下我需要使用現(xiàn)有的開源模型并繼續(xù)訓(xùn)練它,以融入領(lǐng)域知識(shí)?
我們給客戶提供了一系列指導(dǎo)方針,但同時(shí)也非常透明地告訴他們,嘿,看,這是一個(gè)新領(lǐng)域,你將不得不探索。我們的承諾是, Databricks 和 Mosaic 將為您提供一切工具,使您能夠高效快速地探索這個(gè)領(lǐng)域,找到最適合您特定應(yīng)用的方法,所以我們不希望客戶在 XYZ 方面掙扎,而是讓他們通過微調(diào)來迅速進(jìn)行實(shí)驗(yàn),看看是否適用于他們的用例。我希望我能有一些智慧之言,比如,如果是 X,那么只需 Prompt ,你就會(huì)沒問題,或者只需微調(diào),就沒問題了。
Monica
有什么在部署企業(yè)自己的 LLM 方面你看到的典型錯(cuò)誤或誤解嗎?
Hanlin Tang
我認(rèn)為也許現(xiàn)在不太會(huì)出現(xiàn)這種情況,但早期,人們確實(shí)低估了 RAG 的重要性。他們會(huì)遇到很多幻覺問題,因?yàn)槟P褪窃谂f版本的維基百科上訓(xùn)練的,即使你使用開源模型,無(wú)論是 OpenAI 的還是自己的模型,它們都會(huì)始終訓(xùn)練在一個(gè)舊版本的維基百科上,對(duì)于你提供的 Prompt 中的數(shù)據(jù)與其內(nèi)部權(quán)重之間總會(huì)存在沖突。解決這種沖突非常困難,所以早期,我們看到很多應(yīng)用都是基于 Prompt 和類似的東西,即使稍微微調(diào)整一下,它們?nèi)匀粺o(wú)法擺脫這種模式。因此,對(duì)于許多用例,我們?cè)?Databricks 上也專注于 RAG ,這是一個(gè)更加受控的環(huán)境,以更好地進(jìn)入這個(gè)領(lǐng)域。
我們經(jīng)??吹降牧硪粋€(gè)錯(cuò)誤是沒有為任務(wù)選擇合適的模型,如果你使用開源工具的話。不同的模型具有不同的延遲,并且它們還訓(xùn)練在不同類型的數(shù)據(jù)上。一些模型不擅長(zhǎng)處理代碼,一些模型對(duì)你的特定語(yǔ)言不擅長(zhǎng)。而且,不是簡(jiǎn)單地將一個(gè)模型替換為另一個(gè)模型這么簡(jiǎn)單。哦,我升級(jí)到一個(gè)更大的模型,它一定更好。情況并不總是如此,這取決于模型的數(shù)據(jù)來源。
Monica
這是一個(gè)開源模型特有的問題,還是一個(gè) LLM 問題?我們是否會(huì)看到一個(gè)足夠強(qiáng)大的開源 LLM ,就像應(yīng)該是 GPT5、6 一樣,然后問題就解決了。
Hanlin Tang
我不這么認(rèn)為。即使對(duì)于 GPT-4 和 GPT-3.5,仍然存在許多情況下,它們無(wú)法提供正確的上下文來解決你的特定用例,無(wú)論是特定的行業(yè)術(shù)語(yǔ)還是縮寫詞。因此,仍然會(huì)遇到這些問題,例如沖突,或者數(shù)據(jù)的新舊問題始終是一個(gè)大問題。你希望你的客戶聊天機(jī)器人能夠提供有關(guān)你公司的最新信息,但顯然,GPT-4 的數(shù)據(jù)是有一個(gè)特定的截止日期的。
另外,一方面, OpenAI 正在投資越來越多的產(chǎn)品和工具,不會(huì)讓人感到意外,如果未來他們將提供更多的信息檢索工具,以幫助他們的企業(yè)客戶。另一方面,在開源領(lǐng)域,我們也看到越來越強(qiáng)大的開源工具,可能會(huì)有更多的 LLM 和更多的公司將在未來構(gòu)建這方面的東西。關(guān)于這個(gè)開源和商業(yè)之間的競(jìng)爭(zhēng),以及企業(yè)客戶可能會(huì)發(fā)生哪些變化,你有什么看法?
隨著時(shí)間的推移,我認(rèn)為對(duì)于企業(yè)來說,有些應(yīng)用情況下使用像 OpenAI 這樣的封閉 API 是很有意義的。但也會(huì)有其他情況,你確實(shí)希望構(gòu)建和訓(xùn)練自己的模型,無(wú)論是出于數(shù)據(jù)隱私原因、數(shù)據(jù)來源原因、法律原因、領(lǐng)域特定性,還是成本原因。
如果你的任務(wù)不太復(fù)雜,不需要一個(gè)能夠智能推理的 GPT-4 來解決它,你可以輕松部署一個(gè) MPT-7B 或 Llama7B 模型來滿足任務(wù),而且在企業(yè)規(guī)模的操作中更具可擴(kuò)展性。我們的承諾至少是為構(gòu)建組件提供非常簡(jiǎn)單的工具。然后,對(duì)于購(gòu)買組件,我們只是使用 API 來輕松將其連接到 LLM 應(yīng)用空間的其他部分,比如數(shù)據(jù)來源來精細(xì)調(diào)整模型,或者矢量,當(dāng)然,你想要附加到的矢量,我們希望能夠在兩方面都幫助企業(yè)。
Casber Wang
如果我可以把這個(gè)問題擴(kuò)展到更大的層面,我認(rèn)為,當(dāng) OpenAI 最近宣布在其產(chǎn)品和工具上添加了某些數(shù)據(jù)層或支持某些功能時(shí),人們?cè)?Twitter 上開玩笑說一堆 Y Combinator 公司都完蛋了,但類比告訴大家,如果人們對(duì)軟件投資不是很了解,為什么我們有那么多不同種類的數(shù)據(jù)庫(kù)用于不同的用例?為什么我不能把所有東西都倒進(jìn)一個(gè)東西里?這支持事務(wù)性、分析性、AI/ML 等等,但這不是事實(shí),尤其是在規(guī)模和成熟度方面,成本效益變得真正重要的地方,例如,一個(gè)非?;A(chǔ)的用例,如果我真的只是在構(gòu)建一個(gè)從 OpenAI 檢索結(jié)果并提供服務(wù)的公司,那么當(dāng)然,無(wú)論他們?cè)谑袌?chǎng)上提供什么樣的 Copilot 在 OpenAI 上,都會(huì)徹底毀掉我的業(yè)務(wù)。
如果我在更大規(guī)模上做更復(fù)雜的事情,當(dāng)成本成為一個(gè)問題,性能成為一個(gè)問題,準(zhǔn)確性成為一個(gè)問題,數(shù)據(jù)來源成為一個(gè)問題時(shí),情況就不同了,你的數(shù)據(jù)在哪里?我的數(shù)據(jù)在 S3 和數(shù)據(jù)湖中,我是否需要將其傳送回來并進(jìn)行一些操作?這會(huì)花費(fèi)多少錢?我如何保持它的新鮮度?我是否需要重新構(gòu)建整個(gè)流程?所有這些都變成了一個(gè)巨大的問題。
我認(rèn)為,總體而言,我個(gè)人的猜測(cè),我非常有信心,就是我們將會(huì)看到一個(gè)更加分散的景觀,包括開源、閉源和數(shù)據(jù)供應(yīng)商,每個(gè)人在這個(gè)生態(tài)系統(tǒng)中都扮演著角色,因?yàn)槿绻覀兛吹揭粋€(gè)規(guī)?;奈磥恚?AI/ML 將成為每個(gè)企業(yè)應(yīng)用的一部分,我認(rèn)為這將會(huì)發(fā)生。你將會(huì)有與用戶的許多不同的互動(dòng)點(diǎn),在后臺(tái),你還將會(huì)有與用戶的許多不同的互動(dòng)點(diǎn),這將會(huì)創(chuàng)造自然的分散,而不是說,嘿,這里有一個(gè)叫 API 的黑匣子,你可以得到任何你想要的。
Monica
是說在 LLM 模型還是工具方面的更多碎片化?
Casber Wang
我指的是人們?nèi)绾问褂盟脑O(shè)計(jì)模式(會(huì)越來越碎片化),這是我的觀點(diǎn)。
Hanlin Tang
我完全同意。我認(rèn)為這可能更好,因?yàn)椴煌倪x擇會(huì)為更健康的生態(tài)系統(tǒng)帶來更多的競(jìng)爭(zhēng)。而且,我們?nèi)匀惶幱?LLM 浪潮的早期階段,因此,現(xiàn)在宣布會(huì)有一個(gè)基礎(chǔ)模型,可以統(tǒng)治所有用例,并只需調(diào)用它,就結(jié)束了,然后繼續(xù)前進(jìn),這還為時(shí)過早。
Monica
確實(shí)。這聽起來像云計(jì)算領(lǐng)域,盡管你看到建設(shè)數(shù)據(jù)中心、構(gòu)建云 Infra 非常昂貴,我們只看到了三家公共云公司,但即使它們也提供了數(shù)百種用于管理回收 Infra 的工具,你仍然看到大量的公司在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用程序。
Casber Wang
但是,我很想聽聽你們的看法。作為投資人看到這么多 LLM 的參與者很興奮,然后老牌公司正在構(gòu)建這個(gè)寶石,而谷歌也即將推出。當(dāng)然還有 OpenAI ,顯然還有許多第三方公司,Anthropic 也在其中。作為投資模式的一部分,我認(rèn)為,我正在投入十億美元來先建造道路,希望汽車會(huì)出現(xiàn),但是如果汽車不出現(xiàn),那就無(wú)效了,這就是問題所在。因?yàn)?OpenAI ,你看到了ChatGPT 有超過10億美金ARR,你試圖不斷擴(kuò)大規(guī)模是有道理的,但是對(duì)于一些其他人來說,如果我正在建造所有這些道路,然后后來沒有人在我的道路上建設(shè),那對(duì)我來說是一個(gè)真正的問題。
Hanlin Tang
我同意。我認(rèn)為企業(yè)仍然在尋找這些基于應(yīng)用程序和 LLM 的應(yīng)用程序的產(chǎn)品市場(chǎng)適應(yīng)性。我確實(shí)認(rèn)為那里有一些東西。我們已經(jīng)看到了許多部署實(shí)際帶來業(yè)務(wù)價(jià)值的情況。但我不確定是否有足夠的汽車可以行駛在目前鋪設(shè)的所有道路上。因此,看到這在未來幾年如何發(fā)展將非常有趣。另一個(gè)我們看到的挑戰(zhàn)是,如果它確實(shí)是一個(gè)封閉的 API ,不同的 LLM 模型提供商如何區(qū)分彼此。它們之間可能存在非常容易的切換成本。這也是對(duì)那些試圖在 API 后面構(gòu)建和提供 LLM 的人的另一個(gè)挑戰(zhàn)。
Monica
如果很難評(píng)估 LLM 模型的性能,那么無(wú)論使用哪個(gè)模型,都不重要,這取決于你提供的服務(wù),你向客戶提供什么?他們是否希望我只提供一個(gè)模型,還是我提供我的模型和一個(gè)平臺(tái),或者他們還希望你展示在某個(gè)特定用例中的性能。
Hanlin Tang
我知道在這里進(jìn)行評(píng)估是一個(gè)很好的問題,所以,我意思是,我們通常與企業(yè)合作。他們可能已經(jīng)有一個(gè)ML團(tuán)隊(duì),我會(huì)說有五到七個(gè)人,甚至可能更少。他們使用我們的平臺(tái)來構(gòu)建和訓(xùn)練 LLM ?,F(xiàn)在,評(píng)估方面,有點(diǎn)像是“無(wú)政府狀態(tài)”。在內(nèi)部,我們有一個(gè)我們稱之為“vibe check”的東西,我們只是部署一點(diǎn)并嘗試一下,看看會(huì)發(fā)生什么。
目前,這顯然對(duì)許多企業(yè)來說是不可持續(xù)的,他們會(huì)為我們提供一些關(guān)于如何構(gòu)建正確的評(píng)估指標(biāo)以滿足他們下游用例的指導(dǎo)。我認(rèn)為很多注意力都集中在評(píng)估基于聊天的應(yīng)用程序上,但許多企業(yè)應(yīng)用程序并不是基于聊天的。它們是純粹的檢索、分類,以及各種這些場(chǎng)景,你實(shí)際上不能為模型在業(yè)務(wù)上的表現(xiàn)和影響提供硬性數(shù)字。而這些是我們經(jīng)常尋求的用例,因?yàn)樗鼈兪钦嬲挠美?。它們更?fù)雜,更可持續(xù)。這也更可持續(xù),一旦你解決了問題,你就可以證明訓(xùn)練一個(gè)更大的模型是合理的,因?yàn)榫忍岣呖梢赞D(zhuǎn)化為業(yè)務(wù)上的真金白銀,所以這就是我們?nèi)绾卧谠u(píng)估領(lǐng)域進(jìn)行評(píng)估的方法。
但現(xiàn)在還處于早期階段。我們有一些客戶與我們一起訓(xùn)練特定語(yǔ)言的聊天機(jī)器人。然后他們說,Hanlin,我在許多不同的數(shù)據(jù)混合上訓(xùn)練了五個(gè)不同的模型。我分辨不出它們之間的區(qū)別,我應(yīng)該使用哪一個(gè)?我說,好吧,我們?cè)谶@方面沒有好的建議,但好消息是你分辨不出區(qū)別,只需選擇一個(gè)并投入生產(chǎn),看看會(huì)發(fā)生什么。
Casber Wang
這是一個(gè)非常有趣的觀點(diǎn),因?yàn)槲矣X得你有兩種思考方式。一種是這些投資的折舊速度。發(fā)生得太快了,如果我是一個(gè)LLM,我的模型停留在 GPT-3.5 的水平,而其他人已經(jīng)用上了 GPT-6,每個(gè)人都有 GPT-6 或 S3 玩家有 GPT-6,為什么客戶要選擇我呢?
但另一方面,我希望LLM肯定會(huì)隨著時(shí)間的推移變得更好,語(yǔ)言是一個(gè)很好的交互,但現(xiàn)在我們不會(huì)百分之百準(zhǔn)確,比如,你去麥當(dāng)勞想要飲料,你想要大杯的,你想要冷的,你想要不冷的,你想要怎么樣,語(yǔ)言本身存在很多混淆,所以期望語(yǔ)言應(yīng)該百分之百準(zhǔn)確是不現(xiàn)實(shí)的,改進(jìn)速度可能會(huì)隨著時(shí)間的推移而變得越來越小。
但對(duì)于你的觀點(diǎn),正如你所說,隨著我們構(gòu)建更復(fù)雜的應(yīng)用程序,你知道,不僅僅是傳統(tǒng)的聊天機(jī)器人,當(dāng)你涉足一些更多的數(shù)字內(nèi)容,數(shù)據(jù)檢索,實(shí)時(shí)數(shù)據(jù)推斷和結(jié)果服務(wù)時(shí),那就是我認(rèn)為一些真正的魔力發(fā)生的地方,更多的確切信息實(shí)際上進(jìn)來了,不僅僅是語(yǔ)言本身。
Monica
另一個(gè)我好奇的問題,是誰(shuí)來開發(fā)基于企業(yè)內(nèi)部 LLM 的應(yīng)用?是企業(yè)自己構(gòu)建的,還是他們找到了第三方供應(yīng)商來做?
Hanlin Tang
都有。一些數(shù)字原生企業(yè)尤其是前瞻性和復(fù)雜的,所以他們會(huì)自己構(gòu)建。其他一些可能會(huì)引入第三方來協(xié)助集成和實(shí)際部署模型本身。
Monica
我問這個(gè)問題的原因是,因?yàn)槲蚁胫肋@個(gè)原生 LLM 應(yīng)用的景觀將如何影響SaaS 生態(tài)?,F(xiàn)有的 SaaS 公司都在嘗試將一些基于 LLM 的功能融入他們的產(chǎn)品中,但實(shí)際上當(dāng)涉及到他們的客戶需要時(shí),所有客戶都會(huì)說,我希望 LLM 能夠理解我,如果他們已經(jīng)與 MosaicML 合作,用你們的 LLM 來構(gòu)建并改進(jìn),他們已經(jīng)使用了他們的所有數(shù)據(jù),那么為什么所有這些其他 SaaS 公司還要自定義或個(gè)性化他們的 LLM 以適應(yīng)這些客戶呢?也許在將來,所有這些 SaaS 公司都將構(gòu)建在你們已經(jīng)管理的 LLM 之上。
Hanlin Tang
這是個(gè)好問題。我認(rèn)為 Database,我們最近發(fā)布了Database Assistant,它幾乎就像是數(shù)據(jù)庫(kù)內(nèi)的聯(lián)合駕駛員,而數(shù)據(jù)庫(kù)平臺(tái)內(nèi)部可能已經(jīng)構(gòu)建了自己的元素并了解它們,但這些元素可能不了解客戶試圖使用的工具,所以像數(shù)據(jù)庫(kù)了解數(shù)據(jù)庫(kù)平臺(tái)的一切,具有內(nèi)部數(shù)據(jù)和知識(shí),比如如何配置它,如何進(jìn)行正確的查詢等等。無(wú)論你為自己的數(shù)據(jù)集專門制定了多少模型,你永遠(yuǎn)不會(huì)知道那些工具具有什么,因此,仍然會(huì)有這種組合,你將看到兩者都在使用。
Casber Wang
我還認(rèn)為在應(yīng)用 Saas 應(yīng)用程序方面,我認(rèn)為它將成為一種預(yù)期的規(guī)范,我們期望,就像如果你打開 Outlook,有一個(gè) ChatGPT 插件,我可以很容易地起草一個(gè)email: 非常感謝你們的采訪,Monica,結(jié)束后我打開 Gmail,發(fā)現(xiàn)沒有這個(gè)插件,我會(huì)非常失望的。我可能以后某個(gè)時(shí)間就不再使用 Gmail 了,我認(rèn)為你和用戶將在應(yīng)用程序?qū)用婵吹竭@些界面變化。
但正如 Hanlin 所說,假設(shè)你是 Salesforce ,你正在推出銷售 GPT 泡泡或其他什么,但你實(shí)際上無(wú)法查看或處理 Salesforce 之外的數(shù)據(jù),在銷售方面有很多事情,比如顯然他們擁有很多 CRM 數(shù)據(jù)??蛻粜畔ⅲ窃诤芏喾矫?,例如,顯然有很多與 CRM 之外的數(shù)據(jù)相關(guān)的事情,比如有人與此電子郵件地址相關(guān)聯(lián)嗎?他們?cè)诰W(wǎng)站上點(diǎn)擊了多少次?他們花了多少時(shí)間?參與程度如何?這些都不是 Salesforce 中的數(shù)據(jù),而可能在 Databricks 或 Snowflake 中,因此希望 Salesforce 訓(xùn)練和擁有這些數(shù)據(jù)是不現(xiàn)實(shí)的。
我個(gè)人的感覺是, AI/ML 不會(huì)改變數(shù)據(jù)存儲(chǔ)的位置,就像你不會(huì)因?yàn)檫@個(gè)新的很酷的AI CRM ,現(xiàn)在不再將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)區(qū)域,而是將數(shù)據(jù)存儲(chǔ)在這個(gè) CRM 中。這并不是事實(shí),我認(rèn)為 CRM 數(shù)據(jù)仍然會(huì)存儲(chǔ)在 CRM 中,但從應(yīng)用程序用戶體驗(yàn)的角度進(jìn)行增強(qiáng)。然后,你有這個(gè)大量的數(shù)據(jù)在 AWS S3 或者數(shù)據(jù)倉(cāng)庫(kù)中,如何將其與 CRM 數(shù)據(jù)融合以創(chuàng)建一些見解?這是一個(gè)不同的話題,我認(rèn)為。
Monica
我在想,將來每家企業(yè)都可能擁有自己的 LLM 嗎?因?yàn)槲铱梢試L試成為插件系統(tǒng),所有其他 SaaS 公司的工具可能都會(huì)成為插入到那個(gè)LLM的插件——如果可能的話。
Casber Wang
這很有趣,因?yàn)槲矣X得如果你看看軟件發(fā)展的歷史,就會(huì)發(fā)現(xiàn),你看看 Oracle , Oracle 付出了巨大的努力,拉里·艾利森實(shí)際上有很深刻的見解。那么為什么人們要集成 25 個(gè) SaaS 應(yīng)用程序,當(dāng)你可以來 Oracle ,我會(huì)為你構(gòu)建BTP,就像無(wú)論業(yè)務(wù)如何, CRM ,客戶成功等多個(gè)應(yīng)用程序。
我認(rèn)為真正的答案之一是,在幕后使每次交互都使用相同的數(shù)據(jù)模型,這需要大量的工程工作,會(huì)出現(xiàn)各種各樣的 bug,不同的業(yè)務(wù)部門對(duì)如何與某些數(shù)據(jù)進(jìn)行交互有不同的要求,比如,他們想看到不同的成本數(shù)據(jù),所以我認(rèn)為這種整合模型,在我看來,可能不會(huì)起作用,所以我認(rèn)為最終結(jié)果仍然會(huì)是今天的樣子,你有不同的數(shù)據(jù)孤島,希望你有更好的元數(shù)據(jù)(meta data)層,有AI和ML幫助人們?cè)谶@些數(shù)據(jù)上獲得更多的見解。但我認(rèn)為期望多年前的數(shù)據(jù)被清理到一個(gè)非常干凈的地方,你可以問任何問題,結(jié)果就會(huì)彈出,這可能有點(diǎn)太高了。
Monica
這很有趣,因?yàn)楝F(xiàn)在MosaicML 已經(jīng)是 Databricks 的一部分,假設(shè) Databricks 上已經(jīng)擁有了一個(gè)企業(yè)大部分?jǐn)?shù)據(jù),現(xiàn)在有了MosaicML 的能力,你對(duì)這個(gè)問題怎么看呢?
Hanlin Tang
我的意思是,我認(rèn)為數(shù)據(jù)庫(kù)的主要作用之一是,在某種程度上,作為鑲嵌,我們可以構(gòu)建所有令人驚嘆的工具來訓(xùn)練 LLM 和提高效率等等。但是如果我們可以訪問客戶的數(shù)據(jù),我們可以進(jìn)行 ETL,格式化和進(jìn)程它并進(jìn)行適當(dāng)?shù)那謇?,然后就?huì)垃圾進(jìn)去垃圾出來。Databricks 有很多客戶,是一個(gè)很棒的平臺(tái),有很多數(shù)據(jù)處理,ETL等企業(yè)關(guān)系。因此,將數(shù)據(jù)與我們用于訓(xùn)練和構(gòu)建 LLM 的產(chǎn)品相結(jié)合,對(duì)我們來說非常令人興奮,以繼續(xù)幫助企業(yè)構(gòu)建他們自己的 AI 和ML系統(tǒng)。對(duì)吧,所以我認(rèn)為作為數(shù)據(jù)破裂,現(xiàn)在我們有這個(gè)機(jī)會(huì)將底層數(shù)據(jù)與 AI/ML 工具連接起來,為客戶提供統(tǒng)一的體驗(yàn)。當(dāng)這個(gè)提議出現(xiàn)時(shí),我們感到非常興奮。
Casber Wang
我只是想補(bǔ)充一下,我認(rèn)為人們沒有意識(shí)到企業(yè)數(shù)據(jù)的移動(dòng)有多有趣,有時(shí)也很荒謬,你想想,我敢保證大多數(shù)數(shù)據(jù)豐富的客戶正在做的就是他們將 Salesforce 數(shù)據(jù)傳輸出去,然后將它們 5 個(gè)或更多 SaaS 聚合工具的數(shù)據(jù)匯總到他們的 reverse ETL 中,然后將其傳輸回銷售部門,或者只是向客戶發(fā)送電子郵件。這就是你所擁有的互動(dòng)。因?yàn)槟闳匀恍枰?360 度的視圖,如果你是一家特定客戶的 B2B 公司,那么你需要對(duì)該特定客戶進(jìn)行詳細(xì)分析。你想要運(yùn)行不同的成本分析。而執(zhí)行此操作的地方不是應(yīng)用程序,而是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖上下文,我認(rèn)為這沒問題。那是你可以1生成大量見解的地方,訓(xùn)練一些適當(dāng)?shù)哪P秃蛯S袛?shù)據(jù),但也可以采取行動(dòng),幫助人們封閉循環(huán)。
Hanlin Tang
絕對(duì)是。我們經(jīng)常開玩笑說,至少對(duì)于我們的工具來說,大多數(shù) ML 工作最終都是數(shù)據(jù)清理工作,盡管這并不太光彩,但它卻非常重要,我聽說有人為了從古老的數(shù)據(jù)庫(kù)中提取信息以構(gòu)建這些模型,不得不寫代碼,那就是在看到這些外觀應(yīng)用程序時(shí)幕后正在發(fā)生的英雄式工作。
Monica
確實(shí),所以我們談了很多關(guān)于業(yè)務(wù)模式和商業(yè)化的東西,但肯定在這個(gè)領(lǐng)域還有很多非常技術(shù)性的東西,因?yàn)槲覀兛吹剿羞@些 LLM 公司購(gòu)買了成千上萬(wàn)的 GPU ,突然之間, MosaicML 出現(xiàn)了,說你只需要不到 1000 萬(wàn)美元來訓(xùn)練一個(gè) 70B 參數(shù)的模型,可否介紹一下,你們究竟做了什么以實(shí)現(xiàn)這種高效率?既然你們已經(jīng)與不同類型的 LLM 合作,那么在未來,你們看到有哪些其他方法可以繼續(xù)提高效率?
Hanlin Tang
我希望有一種可以自動(dòng)提速一切的法寶。但不幸的是,它就像是這里 5%,那里 10%,每個(gè)小翻轉(zhuǎn)的使用,它是一種組合,我認(rèn)為我們已經(jīng)做的系統(tǒng)級(jí)優(yōu)化,這些東西不會(huì)改變訓(xùn)練本身的數(shù)學(xué)。但對(duì)于我們來說非常重要的是,實(shí)際上改變了訓(xùn)練本身的方法,因?yàn)榉聪騻鞑ゲ皇且患袷サ氖虑?,它只是碰巧有效,所以我們不能把我們今天?xùn)練模型的方式看作是神圣的。它們之所以存在,只是因?yàn)橛腥藝L試過,他們得到了一個(gè)好的結(jié)果。
所以我們非常注重第一原則的方法,比如當(dāng)你在訓(xùn)練這些模型時(shí),你想設(shè)置什么樣的課程?是否有特定的算法要應(yīng)用?這些都是可以結(jié)合在一起提高效率的類型。而且甚至不僅僅是在 LLM 領(lǐng)域。我們還從頭開始培訓(xùn)了穩(wěn)定的Stable Diffusion 2,總共花費(fèi)了50000 美元,這是公開引用的數(shù)字之前的 10 倍。如果你看看我們做了什么,我們實(shí)際上發(fā)布了一個(gè)博客,展示了我們所做的一切,以及降低培訓(xùn)成本的幅度。這只是一個(gè)混合體,涉及到系統(tǒng)優(yōu)化算法,使一切都能正常運(yùn)作的事情。
Monica
在每一次技術(shù)浪潮中,我們都看到很多初創(chuàng)公司都在優(yōu)化方面的嘗試。但是作為初創(chuàng)公司,如何構(gòu)建一個(gè)基于優(yōu)化技術(shù)的業(yè)務(wù)和產(chǎn)品,而不是變成咨詢項(xiàng)目或研究項(xiàng)目?
Casber Wang
我認(rèn)為這個(gè)問題,只是考慮到 AI/ML 的發(fā)展速度有多快,AI/ML 中可以優(yōu)化的問題有太多了。如果你現(xiàn)在回到最底層比如網(wǎng)絡(luò)通信,Nvidia 收購(gòu)了 Mellanox,現(xiàn)在就有了 InfiniBand?,F(xiàn)在他們建議更老的數(shù)據(jù)中心用 InfiniBand,這樣就可以提高計(jì)算的 Flops,因?yàn)榫W(wǎng)絡(luò)才是最大的約束,你可以說這是優(yōu)化。你可以說找到不同類型的算法是優(yōu)化,運(yùn)行不同矩陣的東西,運(yùn)行更多的dense 模型,都是不同的優(yōu)化。因此,有很多優(yōu)化的可能。但是,云成本或其他成熟領(lǐng)域的東西,更多的是,AWS 運(yùn)行了這個(gè)工作場(chǎng)所,建了一堆日志,讓我為你繪制出來。而在這種新的領(lǐng)域,有時(shí)候你會(huì)看到成本節(jié)約非常大,只是因?yàn)檫\(yùn)行某種算法的方式不一樣了。我想這是因?yàn)橐磺卸歼€處于早期階段的原因,我認(rèn)為它會(huì)持續(xù)一段時(shí)間。
其次,我認(rèn)為有很多 AI/ML,無(wú)論是業(yè)務(wù)模式還是技術(shù)進(jìn)步,都與生物研究非常相似,就像這個(gè)迭代過程,你有數(shù)據(jù),你有模型,你有代碼,而不像軟件開發(fā)可以通過捷開發(fā)的方式,明確地說這是我編寫電子郵件應(yīng)用程序的方式。所以你有這個(gè)迭代的過程,所以有更多的系統(tǒng)性的機(jī)構(gòu)知識(shí),我敢肯定隨著時(shí)間的推移,你會(huì)建立一定的原則以更快地運(yùn)行和部署這些 ML 應(yīng)用,更快地跟蹤一切,這樣你就可以更快地得到結(jié)果,更快地知道出了什么問題,更快地進(jìn)行迭代。但是,我認(rèn)為沒有一種方法可以有明確的對(duì)錯(cuò)。
Hanlin Tang
是的,回顧一些訓(xùn)練運(yùn)行出了什么問題是很難的。我認(rèn)為另一個(gè)被低估的因素是,GPU ,算法等等有很多復(fù)雜性。如何隱藏這些復(fù)雜性,讓用戶感覺好像它可以正常工作;以及如何與用戶建立信任,讓他們可以接受你隱藏這種復(fù)雜性?
我認(rèn)為我們帶來的很多價(jià)值就在于我們與社區(qū)和客戶建立了這種信任。當(dāng)客戶來與我們一起訓(xùn)練 LLM 時(shí),我們會(huì)交給他們一個(gè)看起來非常復(fù)雜的配置,但我們告訴他們,實(shí)際上,我們正在向你們展示所有這些,但你們實(shí)際上不必調(diào)整 99% 的配置,不可避免地,很多客戶都相信我們。有些人會(huì)說,好吧,但我確實(shí)想嘗試一些不同的做法,他們這樣做了,然后跟我說,Hanlin,你是對(duì)的,你們?cè)O(shè)置的默認(rèn)值是有效的,讓我們開始吧。
這種信任很難建立,我必須小心翼翼地與每一位客戶一起,確保我們的產(chǎn)品仍然可以正常工作,配置仍然是正確的。
Casber Wang
這一點(diǎn)很有意思?,F(xiàn)在有很多 serverless (無(wú)服務(wù)器) ML Infra ,因?yàn)樗鼈兎浅H菀讍?dòng)。我總是擔(dān)心監(jiān)管風(fēng)險(xiǎn)。就像我們?cè)谠浦锌吹降哪菢?,我個(gè)人認(rèn)為,客戶只想知道你到底在做什么,你會(huì)從 Infra 的角度采取什么意見,以便我可以回去以更便宜的價(jià)格運(yùn)行它。你說的很對(duì),起初,你可以提供一個(gè)全手動(dòng)的東西,但是你只需在這個(gè)平臺(tái)上基于你(服務(wù)提供商)的建議搭建應(yīng)用,這對(duì)人們可以更快地獲得價(jià)值非常有幫助。但是隨著時(shí)間的推移,我認(rèn)為,隨著這些應(yīng)用變得實(shí)際上變得成功和有用,你實(shí)際上想向人們展示更多的黑盒子。
Hanlin Tang
對(duì)的。我認(rèn)為其中的一部分是向人們展示更多的黑盒子,或者在無(wú)服務(wù)器情景下,需要?jiǎng)?chuàng)新,帶來更多的東西,因?yàn)槿匀挥泻芏嗫梢詮南到y(tǒng)中擠出來的東西,即使在客戶投入生產(chǎn)之后。我認(rèn)為這對(duì)于許多無(wú)服務(wù)器公司和 API 來說都是一個(gè)挑戰(zhàn)。我們也有一個(gè)無(wú)服務(wù)器推理 API ,它是我們的入門套件。但是我們需要不斷創(chuàng)新,保持突出,保證我們?cè)谇把亍?/p>
Monica
在構(gòu)建您的平臺(tái)時(shí),您已經(jīng)能夠標(biāo)準(zhǔn)化了哪些內(nèi)容,而您仍然發(fā)現(xiàn)哪些內(nèi)容很難標(biāo)準(zhǔn)化?
Hanlin Tang
我們已經(jīng)達(dá)到了一個(gè)階段,我們?cè)趦?nèi)部開玩笑說它有點(diǎn)像一個(gè) LLM 自動(dòng)售貨機(jī)。就像投入token,然后輸出 LLM 。我們有一些客戶已經(jīng)在我們的平臺(tái)上進(jìn)行了 30 天的訓(xùn)練,他們只是自助服務(wù),自動(dòng)管理,有時(shí)我甚至忘記了有一個(gè)訓(xùn)練在跑,因?yàn)槠脚_(tái)一直跑得很順利。所以我認(rèn)為我們?cè)谶@方面付出了很多努力,使其非常流暢和標(biāo)準(zhǔn)化。
我認(rèn)為在整個(gè)過程的開始階段,仍然存在一些比較手工的數(shù)據(jù)篩選部分,這是一個(gè)更加工匠化的過程。比如說,我應(yīng)該在我的模型中放入多少 Wikipedia 的數(shù)據(jù)?應(yīng)該是 30% 的 Wikipedia 嗎?我應(yīng)該放入這種語(yǔ)言還是那種語(yǔ)言,或者放入更多的語(yǔ)言會(huì)對(duì)我的主要語(yǔ)言有害嗎?這更多是一種工匠化的、未知的科學(xué)和工程學(xué)。但這也是我們非常興奮要解決和標(biāo)準(zhǔn)化的問題。但一旦客戶在我們的指導(dǎo)下獲得了他們的數(shù)據(jù)集的正確設(shè)置,整個(gè)培訓(xùn)過程基本上就是標(biāo)準(zhǔn)化的。
Monica
Casber,你有沒有看到任何初創(chuàng)公司在構(gòu)建標(biāo)準(zhǔn)化產(chǎn)品中取得了階段性成果?
Casber Wang
你可以看看一些更成功的 ML 平臺(tái)公司,我認(rèn)為 HuggingFace 在某種程度上可以說是一個(gè)成功的模型注冊(cè)業(yè)務(wù),其他部分我們還要看看它是如何運(yùn)作的。
但從發(fā)現(xiàn)的漏斗角度來看,這是相當(dāng)標(biāo)準(zhǔn)化的:你想要找到一個(gè)新模型,你想要嘗試一些新的想法,那在很大程度上就是我們將在 HuggingFace 上嘗試的方式,然后他們轉(zhuǎn)向 AWS,那是一個(gè)不同的問題。Huggingface 如何阻止這種情況發(fā)生?但這個(gè)過程帶來了很多價(jià)值。這就是為什么我認(rèn)為一些投資者從這個(gè)角度看到了很多價(jià)值。Weights & Bias, MLFlow 等等,某種程度上解決了開發(fā)環(huán)節(jié)中的追蹤問題,你可以看到非常好的可視化體驗(yàn),并看到你要解決的問題類型。那是一個(gè)非常標(biāo)準(zhǔn)化的過程,因?yàn)閷?duì)于 ML 人員自己來說,當(dāng)他們考慮進(jìn)行迭代時(shí),如果我的儀表板不好看,或者如果我的儀表板速度較慢,等等,那實(shí)際上會(huì)影響我的開發(fā)速度,所以這是開發(fā)體驗(yàn)非常重要的一部分。
這是相當(dāng)標(biāo)準(zhǔn)化的。但是我認(rèn)為會(huì)發(fā)生的事情是,隨著人們?cè)谏a(chǎn)中部署更多的模型,我們將看到生產(chǎn)邊緣需求和需求的上升,對(duì)于使用生產(chǎn)邊緣工具的需求可能不會(huì)同時(shí)出現(xiàn),它是非線性的。
你會(huì)看到不同的人思考用 Build 還是 Buy 的模式,就像我告訴你的,我已經(jīng)與一些非常大型的公司交流,這些數(shù)百億美元的上市公司想要建立自己的 LLM ,因?yàn)檫@在董事會(huì)會(huì)議上聽起來很不錯(cuò):我有我的比較優(yōu)勢(shì),而不是依賴于 Microsoft OpenAI 或 Anthropic 等第三方供應(yīng)商。但然后你開始思考權(quán)衡的問題,如果你構(gòu)建了這個(gè)模型,你需要投入多少資金?維護(hù)這個(gè)模型要多少資金?將模型賣給客戶是否不同于銷售應(yīng)用程序?所以你必須雇傭不同的銷售團(tuán)隊(duì)……所以我覺得這部分仍然相當(dāng)早期。
我覺得 MosaicML Hanlin 正在正確的方式上做這件事:就像保持靈活性一樣,但分層,你可以從標(biāo)準(zhǔn)化的角度剝離一個(gè)薄薄的層次,并捕獲該平臺(tái)的價(jià)值,不斷這樣做。如果客戶想使用某種類型的工具,你應(yīng)該給人們使用的靈活性,而不是說你必須在 MosaicML 上使用一切。
Hanlin Tang
當(dāng)然。
Monica
你是說,那些大公司正在考慮從頭開始構(gòu)建他們的模型,甚至是預(yù)訓(xùn)練模型等。
Casber Wang
這是我認(rèn)為人們尚未完全理解的問題,他們可能希望從零開始構(gòu)建,也可能希望從預(yù)訓(xùn)練模型開始,也可能希望嘗試其他方法。但我可以告訴你,主要的觀念,這是完全有道理的,對(duì)吧,就在會(huì)議室里,人們會(huì)說,我們有所有這些數(shù)據(jù),我們是 HR IT 的系統(tǒng)記錄,這是真的,順便說一下,Workday、ServiceNow 等大型企業(yè)都在運(yùn)行它們,所以他們擁有所有這些數(shù)據(jù)。對(duì)于董事會(huì)成員來說,為什么我們不使用這些數(shù)據(jù),為什么我們要將其返回到 Databricks 或 Snowflake ,然后要求他們使用其他工具來使用,目前正在進(jìn)行這樣的討論。你說的對(duì),他們正在考慮這個(gè)問題,百分之百,他們?nèi)绾卧谶@種新模式下捕獲更多的價(jià)值,但是這還處于早期階段。
Hanlin Tang
隨著時(shí)間的推移,看到這一切是如何發(fā)展的真的很令人興奮,我們看到許多企業(yè)也在進(jìn)行這些討論。最終歸結(jié)為你的競(jìng)爭(zhēng)模式是什么?如果真的是你的數(shù)據(jù),那么你訓(xùn)練自己的模型或者采用開源模型、并繼續(xù)訓(xùn)練它或者將模型或數(shù)據(jù)融入到你的系統(tǒng)中可能是有意義的。它是活躍的。真的很高興看到這個(gè)領(lǐng)域如何發(fā)展。
Casber Wang
而且它是如此復(fù)雜。
Hanlin Tang
有太多要考慮的方面。我認(rèn)為幸運(yùn)的是,不管你選擇哪條道路,投資成本都開始下降了,無(wú)論你選擇哪種方式,我們都看到大多數(shù)企業(yè)實(shí)際上在購(gòu)買和構(gòu)建方面都有試點(diǎn),因?yàn)樗麄兿M稚L(fēng)險(xiǎn),因?yàn)榭赡軙?huì)出現(xiàn)特定的應(yīng)用場(chǎng)景,或者可能會(huì)更合理。然后由供應(yīng)商來證明,那個(gè)特定的產(chǎn)品實(shí)際上是成功的,是有意義的,是的。
Monica
尤其是如果我們可以真正利用更多的資源,以降低從頭開始訓(xùn)練模型的成本,將訓(xùn)練成本降至不到 1000 萬(wàn)美元。對(duì)于所有那些財(cái)富 500 強(qiáng)或財(cái)富 100 強(qiáng)公司來說,這并不是一個(gè)大筆錢。當(dāng)然,他們擁有所有這些專有數(shù)據(jù),但是,你更愿意教一個(gè)有博士學(xué)位的人,也就是 GPT-4 這樣強(qiáng)大的 LLM,還是更愿教一個(gè)孩子,就是企業(yè)自己訓(xùn)練的較小的專用模型,來做人力資源管理呢?
Hanlin Tang
這真的取決于最終的用例。我們已經(jīng)看到許多用例,客戶將通過使用閉源 API 來開始試點(diǎn),發(fā)現(xiàn)表現(xiàn)還不錯(cuò)。然后他們?cè)噲D將其推向生產(chǎn),然后他們突然發(fā)現(xiàn),這花費(fèi)了這么多錢。哦,我的首席安全官正在向我施加壓力,我不能導(dǎo)出我的數(shù)據(jù)。因此,這不僅僅是模型的能力,有時(shí)更多是考慮部署場(chǎng)景,以及最終用例的復(fù)雜程度。
Casber Wang
我也認(rèn)為這在一定程度上取決于我們?nèi)绾螐慕裉斓慕嵌葋砜醋罱K的用例,就像你在這里看到的,我想說,最積極的在這個(gè)領(lǐng)域投資的第三方非 LLM 供應(yīng)商,Microsoft 肯定是其中之一。因?yàn)樗麄冇泻芏?Copilot 的應(yīng)用案例,比如,你用 Outlook 寫電子郵件,同一個(gè)組織中別人也有,很容易就可以把這個(gè)增值功能賣出去,現(xiàn)在 Office Copilot 定價(jià)是每月30美元。我不知道這些需求有多真實(shí),這個(gè) upsell 路徑很直接。
另一個(gè)例子是 Adobe Firefly ,如果我要使用 Adobe Photoshop,如果我可以點(diǎn)擊幾下按鈕并添加一些圖像,那就是一個(gè)非常容易實(shí)現(xiàn)的事情。而某些其他公司的情況下,投資回報(bào)率 (ROI) 不是非常直接。再回到我們的生物研究類比,如果你是一家大公司,而且你是 AI/ML 的SVP,你是希望使用開源模型與 MosaicML 數(shù)據(jù)庫(kù)合作并獲得一些快速的投資回報(bào)呢?還是希望自己構(gòu)建模型,祈禱產(chǎn)品未來能夠賺錢?
就像我說的,這不僅僅是技術(shù)決策,我認(rèn)為它也是一種組織性的人性決策。因?yàn)槿绻乙⒁粋€(gè)flag 說,我要投資數(shù)十億美元在ADML上,第二年、第三年,我的模型準(zhǔn)備好了,但沒有客戶需求,那就是一件大事。我可能會(huì)失去工作,所以,我認(rèn)為大部分企業(yè)不會(huì)那么輕而易舉地支持這樣的決定。
Hanlin Tang
而且很多客戶都在探索這些問題。他們通常會(huì)從訓(xùn)練一個(gè)較小的模型開始,因?yàn)樗麄儾幌牖ㄙM(fèi)百萬(wàn)美元來訓(xùn)練大模型,然后突然發(fā)現(xiàn)沒有使用場(chǎng)景。小步快跑的方式,隨著時(shí)間的推移,你會(huì)看到投資回報(bào)率增加,這將使你更有信心邁出下一步。
Monica
我們的確看到很多大型的 SaaS 公司,使用GPT API 構(gòu)建他們AI功能的第一個(gè)版本,同時(shí)另一個(gè)團(tuán)隊(duì)構(gòu)建自己的模型,開源模型的發(fā)展會(huì)為公司提供更多選擇。
最后,我們要更具前瞻性地看待這個(gè)領(lǐng)域。Hanlin 你隨著收購(gòu)加入了 Databricks ,所以你的新角色會(huì)關(guān)注什么?我們可以期待從 MosaicML 和 Databricks 合作中看到什么變化?
Hanlin Tang
我的角色保持不變,我們的使命保持不變。我們的使命是賦予企業(yè)構(gòu)建模型的能力,不管他們是選擇采購(gòu)還是自建路線。我認(rèn)為即將發(fā)生的令人興奮的事情是,能夠與現(xiàn)有的 Databricks 客戶和他們的數(shù)據(jù)源無(wú)縫集成,將使這條路線變得更加容易。你提到了 Adobe Firefly,我們要做的就像如果你在數(shù)據(jù)庫(kù)平臺(tái)上,有一個(gè)訓(xùn)練按鈕,有一個(gè)微調(diào)按鈕,非常容易使用,提供良好的結(jié)果,使客戶能夠輕松基于這些數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
另一部分是,我加入 Databricks 了之后意識(shí)到,原來在 MosaicML,我們專注于模型本身,而把應(yīng)用和部署交給了客戶端,但加入 Databricks 后,我認(rèn)識(shí)到了除了模型權(quán)重之外還有多少其他組件我們需要關(guān)注。比如,我們需要構(gòu)建ML 在生產(chǎn)環(huán)境的管道,同時(shí),你還有矢量數(shù)據(jù)庫(kù)。還有監(jiān)控系統(tǒng)、成本監(jiān)控系統(tǒng),還有數(shù)據(jù)治理和數(shù)據(jù)壓縮等等。
因此,對(duì)我來說,看到這些組件真是大開眼界,所以非常興奮能夠整合并提供整個(gè)堆棧的統(tǒng)一體驗(yàn)。因?yàn)榭蛻舨幌M麖奈鍌€(gè)不同的來源購(gòu)買所有這些不同的組件,并進(jìn)行集成工作以將它們連接在一起,你希望的是一個(gè)統(tǒng)一的東西。我猜我們?cè)谶@個(gè)播客中經(jīng)常使用這個(gè)詞,所以可能有點(diǎn)濫用,但在端到端連接的確是一個(gè)好的方式。
Monica
作為一名投資者,看到這一起13億美元的收購(gòu),當(dāng)然是好事。再次恭喜 Hanlin。Casber 看到這個(gè)消息是什么反應(yīng)?這對(duì)初創(chuàng)公司意味著什么?你從中得到了什么啟示?
Casber Wang
除了非常遺憾沒有投資 MosaicML 之外?哈哈。首先,我想說,當(dāng)之無(wú)愧的祝賀,我認(rèn)為,對(duì)于創(chuàng)立 Mosaic 的時(shí)候,你肯定沒有坐下來說,第2.5年,我要花這么多錢,這可能還沒有發(fā)生,我認(rèn)為你當(dāng)初是為了解決一個(gè)真正的客戶痛點(diǎn),一路上看看這個(gè)平臺(tái)會(huì)發(fā)展成什么樣。所以對(duì)我來說,作為一名創(chuàng)業(yè)者,這是我想要合作的時(shí)機(jī)。不是在某個(gè)時(shí)間點(diǎn),AI 現(xiàn)在非?;馃幔宰屛覀兛焖匍_發(fā)一些東西。事實(shí)上,我認(rèn)為這種策略在更多的情況下,適合做一個(gè) lifestyle 的小而美的公司。我認(rèn)為整個(gè) LLM 使得創(chuàng)業(yè)的門檻降低了很多。以前我們添加應(yīng)用程序的東西,你只需將其放在應(yīng)用商店上,然后每月收費(fèi)2美元之類的費(fèi)用,門檻已經(jīng)大大降低。但在另一方面,我認(rèn)為傳統(tǒng)企業(yè)軟件的創(chuàng)業(yè)門檻實(shí)際上在我看來已經(jīng)上升了。
你想想所有的現(xiàn)有廠商,比如 Microsoft 等等,但也包括更大的初創(chuàng)企業(yè),每個(gè)人的注意力都集中在這里,所以他們會(huì)思考如何整合所有這些東西。如果你的提案是,我要啟動(dòng)下一個(gè) Salesforce ,然后自然的壓力就是,那么 Salesforce 做的 GPT 是怎樣的?他們正在做什么,你做的會(huì)有什么不同呢?所以在某種程度上,我認(rèn)為在AI應(yīng)用上,要做一個(gè)持久性項(xiàng)目的門檻實(shí)際上上升了,而不是下降了。但是啟動(dòng)小項(xiàng)目的門檻降低了。所以你有這種非常有趣的分化正在發(fā)生,這是我的第一個(gè)思考。
我得出的另一個(gè)結(jié)論是,非常重要的是要知道你是作為一名創(chuàng)業(yè)者在玩什么游戲,我不是用消極的意義來說“玩游戲”,而是用積極的意義來說,比如你正在玩什么市場(chǎng),你的策略是什么。對(duì)于 Mosaic 和 Helen 團(tuán)隊(duì)來說。
我認(rèn)為,正如你早早地說的,你是有明確的商業(yè)化目標(biāo)的,但是很多時(shí)候,尤其是Seed Sage,很多公司只是在想,我有這個(gè)酷炫的項(xiàng)目,讓我試試吧?但重要的是,不一定是后期的商業(yè)模式,而是要想清楚,你可能在技術(shù)堆棧的哪個(gè)位置。我認(rèn)為這第二次和第三次的創(chuàng)業(yè)者的經(jīng)驗(yàn),你知道比如要使用基于用量的定價(jià),要想辦法跟計(jì)算結(jié)合起來。有這種感覺非常重要。
其次,就是要知道隨著時(shí)間的推移,這個(gè)業(yè)務(wù)是否還可行。我會(huì)花很多時(shí)間與一些 GPU 公司交流,我感到困擾的一件事是,我肯定除了 Google 和Microsoft 之外,還有一堆云供應(yīng)商,比如還有 Digital Ocean,還可能有一兩個(gè)其他的云供應(yīng)商。但是,你是否知道 GPU 供應(yīng)商會(huì)發(fā)生什么情況?你的長(zhǎng)遠(yuǎn)規(guī)劃是什么呢?所以我會(huì)看創(chuàng)業(yè)者是否考慮不僅僅是在未來六個(gè)月內(nèi)內(nèi)的業(yè)務(wù),而是想到未來兩三四年,考慮到生成式 AI 將如何改變我們的工作流程和生產(chǎn)力,未來會(huì)發(fā)生什么變化,而不僅僅是,嘿, GPU 短缺,所以我現(xiàn)在可以通過倒賣這些資源賺錢。
Monica
當(dāng)然,我們希望創(chuàng)業(yè)者一開始就把一切都弄清楚,這是一個(gè)完美的 pitch, 簡(jiǎn)單的投資決策。但回顧一下,Hanlin 你在創(chuàng)業(yè)初期與現(xiàn)在相比,對(duì)創(chuàng)業(yè)和這個(gè)行業(yè)有哪些看法發(fā)生了變化?
Hanlin Tang
我認(rèn)為回顧過去,我想在 MosaicML 的兩年半的旅程中,我們始終關(guān)注的一件事是解決一個(gè)艱難的工程問題,然后考慮商業(yè)化企業(yè)的建設(shè)。比如,我們?cè)诎踩院驮诳蛻糇约旱沫h(huán)境中部署方面投入了很多資源,因?yàn)槲覀冎?,至少作為一個(gè)不受信任的初創(chuàng)公司,這將是一個(gè)問題。而且我們實(shí)際上在這個(gè)決策上掙扎了一段時(shí)間,因?yàn)檫@延遲了我們的推出產(chǎn)品的時(shí)間。構(gòu)建 Infra 并不容易,所以這是我們采取的一種策略,我認(rèn)為對(duì)我們來說效果很好。
我認(rèn)為回顧時(shí)的另一個(gè)挑戰(zhàn)就是所有的 FOMO 和炒作。你看到了這種風(fēng)格,你需要一些心理素質(zhì)來忽略它,只專注于客戶和客戶的問題。至少對(duì)我來說,一開始有點(diǎn)困難,因?yàn)槟懵牭搅怂羞@些事情,比如,又一個(gè)模型,又一個(gè)系統(tǒng)出來了,但學(xué)會(huì)忽略這些對(duì)公司的關(guān)注非常重要,同時(shí)也對(duì)我的精神健康非常重要,否則你就會(huì)完全失控,你可能會(huì)開始頻繁地改變方向,這是我在 MosaicML 的經(jīng)歷中學(xué)到的兩個(gè)原則。
Monica
非常感同身受。最后一個(gè)問題,在過去不到一年的時(shí)間里,有哪些你認(rèn)為對(duì)你對(duì) LLM 這個(gè)領(lǐng)域的理解產(chǎn)生了重大影響的關(guān)鍵事件?展望未來,有哪些關(guān)鍵事件可能會(huì)改變你對(duì)整個(gè) LLM 領(lǐng)域的看法?
Hanlin Tang
這是個(gè)好問題。我認(rèn)為,展望未來,我會(huì)說,正如我所說,每個(gè)人都處于創(chuàng)造性的探索階段。不清楚哪些實(shí)際上會(huì)進(jìn)入生產(chǎn)階段。不清楚哪些實(shí)際上可以滿足用例、幻覺和法律擔(dān)心的標(biāo)準(zhǔn)。因此,我期待在接下來的六到九個(gè)月內(nèi)解決這些問題的技術(shù)。因?yàn)槊考夜径继幱谶@個(gè)階段,他們?cè)诠緝?nèi)部正在進(jìn)行一些 LLM 應(yīng)用原型的開發(fā),他們的 CEO 可能正在使用它,并希望弄清楚,這是否是一項(xiàng)真正可以交付的東西?我什么時(shí)候可以刪除這項(xiàng)服務(wù)中不符合事實(shí)的幻覺?
這在如今的每個(gè) Gen AI 應(yīng)用程序中都存在。一旦出現(xiàn)能夠開始解決這些類型問題的技術(shù),這將是我認(rèn)為這項(xiàng)技術(shù)性質(zhì)的轉(zhuǎn)折點(diǎn)。如果這些研究無(wú)法減少幻覺、法律或倫理問題,那么實(shí)際上將極大地限制了這個(gè)領(lǐng)域的可能性。突然之間,每家公司都只剩下了三個(gè)左右的潛在應(yīng)用。
所以我們實(shí)際上正處于一個(gè)非常重要的轉(zhuǎn)折點(diǎn)。看看未來如何發(fā)展將會(huì)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
Monica
有趣的是,你沒有提到任何具體的技術(shù)。
Hanlin Tang
具體的技術(shù)會(huì)來來去去。我不知道,長(zhǎng)期來看,比如,有很多有趣的研究是如何培訓(xùn)專門用于檢索的模型,而不是采用現(xiàn)有的模型,只是將從矢量數(shù)據(jù)庫(kù)中檢索的某些內(nèi)容放到 prompt 里面。我認(rèn)為這是下一個(gè)階段,這種技術(shù)可以顯著提高 LLM 應(yīng)用的可用性。
Casber Wang
我會(huì)說,一方面我會(huì)關(guān)注的點(diǎn)與 Han 提到的,但再深入一層,那就是 Microsoft Copilot 和 Adobe Firefly 的商業(yè)反應(yīng)究竟是什么?因?yàn)樗鼈円院艽蟮娘L(fēng)頭推出,所有這些第二波參與者和絕大多數(shù)在投資于AI/ML的人,將會(huì)比僅僅進(jìn)行實(shí)驗(yàn)更加積極地投入。因?yàn)槿绻姓嬲氖杖?,也就是說,你、我、Han愿意每月支付 30 美元那么就會(huì)創(chuàng)造真正的收入,那就是非常真實(shí)的一大筆收入?,F(xiàn)在發(fā)生的事情是,人們?cè)谘鹤I將會(huì)創(chuàng)造真正的需求,因此開始大量購(gòu)買芯片,Nvidia立竿見影地受益了。有一些公司只是為了AI 而去推銷 AI,因?yàn)椴幌脲e(cuò)過。如果 Microsoft Copilot 產(chǎn)品的推出后的收入不像預(yù)期的那么好,然后人們對(duì)收入預(yù)期下降,你會(huì)很快看到這個(gè)領(lǐng)域的的價(jià)格糾正。
當(dāng)然我認(rèn)為長(zhǎng)期來看,技術(shù)創(chuàng)新并不總是有一個(gè)直接的路線。從線性的角度來看,AI將極大提高生產(chǎn)率,問題只是如何將它轉(zhuǎn)化為真正的美元。時(shí)間線也非常重要。它是短期的,還是長(zhǎng)期的。我認(rèn)為我們已經(jīng)看到了 2021 年的軟件繁榮,開源,區(qū)塊鏈的繁榮來了又去了。我不知道上一次是什么時(shí)候,所以我們談?wù)?Web3 的時(shí)候感覺已經(jīng)有一段時(shí)間了。但是我認(rèn)為 AI 更持久,如果你有一個(gè)更長(zhǎng)遠(yuǎn)的時(shí)間視野。只是沒有人知道短期內(nèi)殺手產(chǎn)品看起來像什么。我的意思是,大多數(shù)媒體和風(fēng)險(xiǎn)投資公司在 ChatGPT 推出之前并沒有那么關(guān)心 LLM ,所以我期待的是,有哪些商業(yè)里程碑可以從這里推動(dòng)整個(gè)生態(tài)系統(tǒng)?
Hanlin Tang
還有一個(gè)非常長(zhǎng)期的代際效應(yīng),那就是年輕人實(shí)際上是在這種技術(shù)和這種界面上長(zhǎng)大的,這會(huì)使它自己鞏固下來,如果你想象一下 10 年后,學(xué)生正在使用 ChatGPT 或者大學(xué)的電視使用 ChatGPT ,他們可能永遠(yuǎn)不會(huì)放棄這種類型的界面,因?yàn)樗麄円呀?jīng)習(xí)慣了這種信息檢索和查詢方式,無(wú)論在短期內(nèi)商業(yè)化如何發(fā)展,這都將在長(zhǎng)期內(nèi)保持下去。
Casber Wang
我會(huì)說這可能是長(zhǎng)期的機(jī)會(huì),如果我再把它拉得更接近現(xiàn)實(shí)生活,我記得當(dāng)我們看著 Figma 時(shí),其中一個(gè)最大的擔(dān)憂和反對(duì)意見是,嗯,設(shè)計(jì)師并不多,這是真的,但 Figma 的做法是將一些傳統(tǒng)上不是設(shè)計(jì)師的人引入到設(shè)計(jì)工作流中,因?yàn)樗浅H菀资褂谩W詈?,它的用戶遠(yuǎn)遠(yuǎn)超出了那些傳統(tǒng)設(shè)計(jì)師,因?yàn)樗挠脩艨梢暂p松地加入到設(shè)計(jì)工作流中。猜猜看我花了多少時(shí)間在 Midjourney上,偶爾會(huì)有一些 10~15 分鐘的時(shí)間,我肯定有更加好奇的人在使用這些工具。
再次強(qiáng)調(diào)一下,也許 Midjourney 和企業(yè)工作流之間沒有一一對(duì)應(yīng)的關(guān)系,但是可以押注的是,這樣的工具使得那些傳統(tǒng)上不在該領(lǐng)域的人進(jìn)入這個(gè)領(lǐng)域,原來不做設(shè)計(jì)的人開始做設(shè)計(jì),原來不會(huì)編程的人開始編程,原來不會(huì) AI/ML 的人開始進(jìn)入AI ML。他們可能不總是最核心的使用者,比如那些能流暢使用 Adobe Photoshop 的人,但這些人的出現(xiàn)帶來了真正的生產(chǎn)力。
至少?gòu)母L(zhǎng)遠(yuǎn)的角度來看,我認(rèn)為讓那些傳統(tǒng)上不在該領(lǐng)域的人進(jìn)入一個(gè)新的領(lǐng)域,是一個(gè)巨大的助推力。只是不太容易立即衡量它的影響。
Monica
這讓我想起了我總是和 FlowGPT 的 CEO 聊天,他們正在構(gòu)建一個(gè)使用 Prompt 的平臺(tái),他說,這個(gè)平臺(tái)上的大多數(shù)用戶都是 16~20 歲的人,但他們幾乎不會(huì)編程,或者只有很基本的編程技能。但他們已經(jīng)能夠在上面構(gòu)建很多端到端的軟件,當(dāng)然,不是非常復(fù)雜的,但你可以看到,自從他們今年年初剛開始以來, Prompt 的平均長(zhǎng)度已經(jīng)翻了一番還是翻了兩番。所以我在想,對(duì)于 12~15 歲的孩子們,如果他們剛剛開始學(xué)習(xí)如何編程,他們可能第一個(gè)使用的編程工具就是 ChatGPT ,學(xué)習(xí)如何使用 Prompt ,這可能會(huì)改變很多事情。我不知道你們是否有孩子,我們已經(jīng)生活在這個(gè)傳統(tǒng)的世界里幾十年了,但對(duì)于他們來說,與 ChatGPT 或機(jī)器界面聊天可能會(huì)很自然,他們可能會(huì)更有耐心。
Casber Wang
即使是智能手機(jī)的使用,你想想,觸摸屏。
Monica
對(duì)于孩子來說,每個(gè)平面似乎都應(yīng)該是觸摸屏。我在想,也許在這一周之后的一兩年內(nèi),我們可以坐下來回顧一下,看看我們的預(yù)測(cè)是如何被驗(yàn)證的。這對(duì)于投資者來說是一個(gè)挑戰(zhàn),但也是令人興奮的。
Casber Wang
我總是和我做二級(jí)市場(chǎng)投資朋友們談?wù)摚麄冋麄€(gè)投資都是基于 AI 的主題,每個(gè)季度根據(jù)公司是否推出了 AI 產(chǎn)品來做買賣的決策。他們認(rèn)為,天啊,你的工作肯定很難,因?yàn)槟銢]有流動(dòng)性,因?yàn)樽鳛橐患?jí)市場(chǎng)投資人,我只能買入并持有。但我認(rèn)為持有的美麗之處在于,如果你的思維太過關(guān)注下個(gè)季度甚至明年會(huì)發(fā)生什么,你就無(wú)法獲得更長(zhǎng)期的復(fù)利效應(yīng)。可能在中途會(huì)發(fā)生一些神奇的事情,我并不是說每次投資都必須這樣,都會(huì)發(fā)生完全不同的事情,有些也會(huì)更直接的產(chǎn)出——但我認(rèn)為在機(jī)器學(xué)習(xí)領(lǐng)域,我說的這種累積效應(yīng),一些神奇的事情正在醞釀中。也許沒有短期結(jié)果,沒有實(shí)時(shí)反饋,但有一天你會(huì)發(fā)現(xiàn)這種神奇的事情發(fā)生了,擁有時(shí)長(zhǎng)和耐心也會(huì)產(chǎn)生非常好的結(jié)果。
Monica
談到耐心,我想到一個(gè)問題。如果你們有一臺(tái)時(shí)光機(jī),你們可以前往不久的將來,比如五年,那么你們會(huì)想要問周圍的 AI 領(lǐng)域的人的第一個(gè)問題是什么?
Hanlin Tang
Transformer 架構(gòu)何時(shí)被淘汰成為過去的事情?
Casber Wang
我可能會(huì)說同樣的話。這很有趣,因?yàn)槲艺J(rèn)為人們認(rèn)為 Transformer 架構(gòu)是理所當(dāng)然的,但事實(shí)上,如果你看看歷史上的發(fā)現(xiàn)和一切,它就像是突然出現(xiàn)的,當(dāng)然之前有一些研究和嘗試,但 Transformer 并不是一條線性的道路,所以我認(rèn)為這是一個(gè)很好的問題。我唯一的問題就是,除此之外,你們使用的是什么硬件,是 GPU 還是 TPU?
Monica
很棒的問題!我真的很享受這次談話。非常感謝你們的時(shí)間。
Hanlin Tang
不客氣,謝謝你的邀請(qǐng)。這是一次很棒的討論。
Casber Wang
謝謝,Monica,非常感謝。