編者按:本文來自微信公眾號 產(chǎn)業(yè)家(ID:chanyejiawang),作者:Devansh,翻譯:張雪聃、劉乾裕,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
商業(yè)公司為何熱衷于開源項目?為什么要花費大量資源研發(fā)一個免費公開,甚至可能暴露競爭優(yōu)勢的工具?
本文作者將從商業(yè)角度探討這個問題,重點分析AI技術(shù)生態(tài)系統(tǒng)中的不同利益相關(guān)者如何利用開源軟件取得優(yōu)勢,并探討公司如何通過開源增加業(yè)務(wù)采納度的不同策略。
一、AI開源軟件與閉源軟件的虛假對立
人們討論開源軟件時,常常將其與閉源軟件對立起來。人們常將開源軟件誤解為“免費軟件”,忽視了技術(shù)生態(tài)系統(tǒng)中廣泛的商業(yè)模式,閉源項目對開源組件的依賴以及開源項目依靠閉源公司資金支持的現(xiàn)實。為了更好地理解討論內(nèi)容,首先要澄清一個常見的誤解。
開源軟件非常適合解決影響范圍廣的大問題,而閉源軟件則將開源項目創(chuàng)建的通用解決方案改善并應(yīng)用于特定人群的特定需求。如果沒有開源軟件,閉源軟件只能從頭開始構(gòu)建一切。如果沒有閉源軟件,開源解決方案對普通用戶來說往往難以訪問或使用,其潛在影響也會大大減少。
因此,開源軟件與閉源軟件一般是互補(bǔ)的,二者互相結(jié)合,最終創(chuàng)建出有用的產(chǎn)品。
要為公司制定一個好的開源戰(zhàn)略,首先需要了解它如何影響不同的利益相關(guān)者,這是我們接下來要討論的內(nèi)容。
二、開源軟件如何助力AI領(lǐng)域的不同利益相關(guān)者
開發(fā)者(包括研究人員):開源為開發(fā)者提供了尖端的算法、模型和工具。像TensorFlow、PyTorch和Google的BERT模型這樣的平臺,讓程序員可以以較低成本體驗先進(jìn)的AI技術(shù)。這種資源加速了學(xué)習(xí)并促進(jìn)了創(chuàng)新,開發(fā)者可以與全球?qū)<液献?,參與高質(zhì)量的AI項目,從而提升其職業(yè)前景,并通過公開作品展示其在競爭激烈的領(lǐng)域中的專業(yè)能力。
企業(yè):從兩個角度來看——采用者(使用現(xiàn)有工具的公司)和構(gòu)建者(構(gòu)建并分享開源軟件的公司)。采用視角相對容易理解——采用現(xiàn)有的開源工具可以降低成本、構(gòu)建更安全的系統(tǒng)(更好地理解系統(tǒng)脆弱性),并加快迭代速度。
那么構(gòu)建者呢?那些分享其軟件的公司能夠提升聲譽,免費將大量研發(fā)工作外包給他人,并吸引更多用戶進(jìn)入其生態(tài)系統(tǒng)(這有助于客戶獲取門檻,同時減少員工培訓(xùn)成本)。所有這些收益的代價相對較低(構(gòu)建者本來就會花費這些錢來開發(fā)內(nèi)部工具,因此分享幾乎沒有損失)。
為了確保我們能夠獲得最好的技術(shù)并避免長期被鎖定在封閉的生態(tài)系統(tǒng)中,Llama需要發(fā)展成一個完整的生態(tài)系統(tǒng),包括工具、效率改進(jìn)、芯片優(yōu)化及其他集成。如果只有我們使用Llama,這個生態(tài)系統(tǒng)就無法發(fā)展,其表現(xiàn)不會比Unix系統(tǒng)閉源版本好多少。
(Meta的《開源AI是未來之路》(https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/) 是一篇探討開源AI好處的優(yōu)質(zhì)文章,建議閱讀。)
有些人擔(dān)心將工具開源會讓競爭對手趕超自己。這其實有些杞人憂天,因為成功的產(chǎn)品需要精細(xì)的執(zhí)行、密切的商業(yè)聯(lián)系、網(wǎng)絡(luò)效應(yīng)、良好的聲譽、大量資源以及處理無數(shù)細(xì)節(jié)的能力。這比復(fù)制技術(shù)要困難得多(即使有所有技術(shù)知識和工具,也很難復(fù)制Facebook或ChatGPT的成功)。
終端用戶:AI應(yīng)用程序在開源協(xié)作中不斷改進(jìn),終端用戶便受益于此。開源AI框架的廣泛應(yīng)用帶來更強(qiáng)大、高效、功能豐富的產(chǎn)品;同時,開源軟件的眾包特性通常會降低成本,提升技術(shù)可及性。(參考Llama權(quán)重被泄露后,開源軟件社區(qū)是如何降低模型的成本的)。
政府和公共部門:政府可以充分利用開源軟件的優(yōu)勢,提升安全性和公平性。許多AI的公平性功能更接近于企業(yè)的成本中心(增加成本卻不增加收入),因此其在純粹的自由市場中并不是更優(yōu)選。因此,這些功能需要更積極的監(jiān)管。開源軟件是促進(jìn)公私合作的好方式,因為在這種方式下,安全監(jiān)管不會抑制創(chuàng)新。我將另寫一篇文章詳細(xì)討論這個話題。
三、企業(yè)如何調(diào)整策略以從開源代碼AI中受益
通過以下幾種方式,公司可以集成開源軟件以實現(xiàn)其商業(yè)目標(biāo)。
支持與服務(wù):公司可以為開源AI工具提供專業(yè)的支持、咨詢和定制服務(wù)。鑒于AI技術(shù)十分復(fù)雜,企業(yè)通常需要專家的幫助來有效實施和優(yōu)化AI解決方案。這也是我的工作模式。我的客戶聘請我并不是為了向他們提供任何秘密技巧,而是為了幫助他們判斷哪些想法最符合他們的需求(并在需要時實施這些想法)。
提供開源AI框架的培訓(xùn)和認(rèn)證不僅可以為公司創(chuàng)造收入,還能建立依賴于其專業(yè)知識技能的用戶社區(qū)。然而,平臺方通常傾向于通過免費課程和認(rèn)證來吸引更多用戶進(jìn)入他們的平臺。例如,谷歌云平臺(GCP)提供免費的谷歌云課程,從而增加了市場上GCP開發(fā)者數(shù)量。這使得中立公司在構(gòu)建解決方案時更有可能選擇谷歌云,因為架構(gòu)師們會對其更加依賴。所有主要的云服務(wù)提供商都采取了這種策略,我選擇GCP作為例子,因為我認(rèn)為他們在開發(fā)者關(guān)系方面的表現(xiàn)優(yōu)于其他競爭對手。
雙重許可:公司可以對其AI軟件采用雙重許可模式,提供一個開源版本以促進(jìn)廣泛使用,同時提供一個包含額外功能或支持的商業(yè)版本。這一策略使公司能夠從社區(qū)對開源版本的貢獻(xiàn)中受益,同時通過企業(yè)客戶獲取收入,滿足他們對增強(qiáng)功能或服務(wù)質(zhì)量保證的需求。
這一策略的一個強(qiáng)有力變體是向?qū)W生和教育機(jī)構(gòu)免費提供高級產(chǎn)品的版本。這樣做可以讓學(xué)生對產(chǎn)品產(chǎn)生依賴感,即使日后需要付費,他們也更愿意繼續(xù)使用(這也有助于交叉銷售)。通過讓更多學(xué)生熟悉平臺或解決方案,還可以讓他們成為潛在的銷售人員,類似于上一部分提到的GCP策略。
Open Core模式:在AI領(lǐng)域,Open Core模式指的是將基礎(chǔ)的AI算法或模型開源發(fā)布,同時提供專有的工具或平臺,增強(qiáng)這些模型的商業(yè)應(yīng)用。該方法鼓勵社區(qū)在核心層面進(jìn)行參與和創(chuàng)新,同時通過專有增強(qiáng)功能(如用戶友好界面、可擴(kuò)展性解決方案或高級分析工具)來實現(xiàn)盈利。
HuggingFace就是采用這種模式的公司之一,該公司從包括Alphabet和Nvidia在內(nèi)的科技巨頭籌集了近4億美元。開發(fā)了開源的BLOOM和StarCoder模型,但該公司并沒有專注于開發(fā)模型,而是通過其開源模型共享平臺來出售計算能力和企業(yè)支持服務(wù)。
HuggingFace產(chǎn)品負(fù)責(zé)人Jeff Boudier表示,"開源模型往往能創(chuàng)造一個生態(tài)系統(tǒng),而閉源模型只能找到客戶,開源能產(chǎn)生十倍、百倍的放大效應(yīng)。"
托管AI服務(wù):基于開源工具提供云端托管的AI服務(wù)是一個十分有前景的方向。公司可以提供可擴(kuò)展的AI平臺,允許客戶在不需管理底層基礎(chǔ)設(shè)施的情況下部署機(jī)器學(xué)習(xí)模型。這種策略通過提供便利性來實現(xiàn)盈利,在像AI這樣分散的行業(yè)中尤其有效——在每個流程步驟中都有幾十種不同的選擇。
互補(bǔ)性專有產(chǎn)品:公司可以開發(fā)與開源AI框架集成的專有應(yīng)用程序或工具。通過提供專門的AI模型部署平臺、性能優(yōu)化工具或特定領(lǐng)域的AI解決方案,可以為客戶增加價值并創(chuàng)造收入機(jī)會。通過確保無縫集成,企業(yè)不僅促進(jìn)了其專有產(chǎn)品的長期使用,還推動了底層開源AI技術(shù)的持續(xù)應(yīng)用。
合作伙伴關(guān)系與生態(tài)系統(tǒng)發(fā)展:與其他組織合作創(chuàng)建集成AI解決方案可以擴(kuò)大市場機(jī)會。通過圍繞開源AI工具建立生態(tài)系統(tǒng),公司可以影響行業(yè)標(biāo)準(zhǔn)并從網(wǎng)絡(luò)效應(yīng)中獲益。合作伙伴關(guān)系可以促成AI模型的共同開發(fā)、共享研究和聯(lián)合產(chǎn)品發(fā)布,從而增強(qiáng)所有參與方的價值主張。培育這樣的生態(tài)系統(tǒng)能夠激發(fā)創(chuàng)新,加速AI技術(shù)在各個行業(yè)的部署。
Nvidia與GPU是一個很好的案例。盡管TPU性能優(yōu)于GPU,但GPU成為主流“AI芯片”的一個重要原因是其更強(qiáng)大的社區(qū)支持和知名度。這讓開發(fā)者更傾向于在GPU上優(yōu)化AI解決方案,進(jìn)而增加了對GPU的認(rèn)知,形成了良性循環(huán)。構(gòu)建強(qiáng)大的合作伙伴關(guān)系和生態(tài)系統(tǒng),可能比實際性能更重要(即使產(chǎn)品再好,如果使用起來非常困難,又有什么意義呢?)。
這就是我對開源技術(shù)商業(yè)化的總體看法。我將在文章的剩余部分深入探討這些觀點。
四、開源如何推動商業(yè)發(fā)展
像紅帽這樣的公司專注于用開源創(chuàng)造專業(yè)產(chǎn)品。他們將免費的資源—Linux—轉(zhuǎn)變成了一個經(jīng)過嚴(yán)格測試的產(chǎn)品,即紅帽企業(yè)版Linux。在這個過程中,他們聚焦于消除CTO在面對配備一站式維護(hù)的可靠計算堆棧時所遇到的痛點。僅靠開源代碼是無法實現(xiàn)的。紅帽銷售的是客戶真正需要的東西。這種商業(yè)模式并不新奇。正如亨利·福特所說:“一個完全致力于服務(wù)的企業(yè)在利潤方面只有一個煩惱:那就是利潤會大到令企業(yè)自己都意外。”——《為什么開源軟件是一筆大生意》(https://medium.com/@usetech/why-open-source-software-is-big-business-071c1e49168d)
不熟悉技術(shù)的人常常認(rèn)為,OSS充其量是個虧損銷售策略——公司免費提供軟件以獲得市場份額并分散競爭對手注意力。在他們看來,軟件存在兩個極端——閉源和開源,開源軟件或AI模型是閉源版本的免費(且劣質(zhì))替代品。
這種不完整的表述將一個非常復(fù)雜且動態(tài)的生態(tài)系統(tǒng)簡化為錯誤的二元對立。這就像試圖把我的“GOAT”(最偉大的球員)安東尼簡化為一個簡單的“曼聯(lián)邊鋒,經(jīng)常旋轉(zhuǎn)”的形象。實際上,開源與閉源軟件是兩種不同的模式,公司通過將兩者結(jié)合可以在開發(fā)中獲益。
因為開源軟件(OSS)利用了眾包的專業(yè)知識,所以在解決宏觀問題方面非常出色,這些問題通常涉及大量的人群,是重要且廣泛的問題。因此,開源項目經(jīng)常形成基礎(chǔ)組件,如框架、平臺、核心技術(shù)等。
然而,你不能通過解決一般性問題來構(gòu)建成功的產(chǎn)品,因為“普通人”并不存在。人們有具體的挑戰(zhàn)、特點和優(yōu)勢,這才是他們愿意付費的地方。一個堅實的基礎(chǔ)對于房子很重要,但沒有人會買只有基礎(chǔ)的房子。閉源軟件在這方面非常出色,因此許多成功的AI/科技公司圍繞開源技術(shù)構(gòu)建了龐大的企業(yè),以解決特定企業(yè)的具體挑戰(zhàn)。
考慮一下Databricks的例子,這是一家圍繞Apache Spark建立的公司。
自發(fā)布以來,各行各業(yè)的企業(yè)迅速采用了統(tǒng)一分析引擎Apache Spark?;ヂ?lián)網(wǎng)巨頭如Netflix、Yahoo和eBay已經(jīng)大規(guī)模部署了Spark,共同在超過8000個節(jié)點的集群上處理多PB數(shù)據(jù)。它迅速成為大數(shù)據(jù)領(lǐng)域最大的開源社區(qū),擁有來自250多個組織的1000多名貢獻(xiàn)者......
“Apache Spark是100%開源的,托管在獨立于供應(yīng)商的Apache軟件基金會。在Databricks,我們完全致力于維護(hù)這種開放的開發(fā)模式。Databricks與Spark社區(qū)一起,通過開發(fā)和社區(qū)推廣,繼續(xù)對Apache Spark項目做出重大貢獻(xiàn)?!?/p>
Databricks提供了一個托管Spark的平臺,配備了針對企業(yè)使用量身定制的額外功能和服務(wù)。這種模式使他們能夠:
從Apache Spark的創(chuàng)新和社區(qū)支持中受益:Databricks利用了Spark的強(qiáng)大能力和靈活性,后者不斷由全球開發(fā)者組成的社區(qū)進(jìn)行改進(jìn)(解決大型社區(qū)面臨的更精細(xì)的“一般性問題”)。
通過增值服務(wù)差異化:Databricks提供了企業(yè)級的功能,如安全、合規(guī)和托管基礎(chǔ)設(shè)施,這些功能在開源版本中是沒有的。
回饋生態(tài)系統(tǒng):Databricks積極貢獻(xiàn)于Apache Spark的開發(fā),確保其持續(xù)增長和相關(guān)性。
這種共生關(guān)系使Databricks和Apache Spark社區(qū)都受益。Databricks獲得了一個強(qiáng)大且廣泛應(yīng)用的技術(shù)基礎(chǔ),而Spark社區(qū)則從成功公司的貢獻(xiàn)和支持中受益。簡而言之,這就是開源和閉源軟件之間的共生關(guān)系。
對于那些真正想了解如何為你的項目或公司制定開源戰(zhàn)略的人來說,深入了解開源軟件如何影響生態(tài)系統(tǒng)中的每個參與者是非常重要的。接下來我們就來討論這一點。
五、不同的利益相關(guān)者如何參與開源
開源和個人/獨立開發(fā)者
像TensorFlow、PyTorch和HuggingFace Transformers這樣的平臺提供了訪問最前沿的算法、預(yù)訓(xùn)練模型和復(fù)雜工具的機(jī)會——所有這一切都不需要承擔(dān)與專有軟件相關(guān)的高昂成本。這種可訪問性使AI開發(fā)民主化,使個人和小型團(tuán)隊能夠?qū)嶒炏冗M(jìn)的技術(shù),并為創(chuàng)新的最前沿做出貢獻(xiàn)。
開源不僅僅提供訪問機(jī)會;它還提供了一個獨特的學(xué)習(xí)環(huán)境。開發(fā)者可以深入研究成熟項目的源代碼,了解其背后的設(shè)計決策,并向該領(lǐng)域頂尖人才學(xué)習(xí)。這種透明性加速了學(xué)習(xí)曲線,促進(jìn)了對AI原理更深入的理解(即“邊做邊學(xué)”原則)。
最后,積極貢獻(xiàn)于開源項目使開發(fā)者能夠建立一個展示其技能和專長的公共作品集,從而在高度競爭的就業(yè)市場中提升職業(yè)前景。通過與全球社區(qū)合作,開發(fā)者可以磨練自己的技能,獲得對其貢獻(xiàn)的認(rèn)可,最終加速職業(yè)發(fā)展。
活躍開發(fā)者社區(qū)的存在將極大地提升任何項目的質(zhì)量。因此,所有團(tuán)隊都必須投入資源創(chuàng)建一個對開發(fā)者友好的開源項目。這不僅僅是將代碼公開,更重要的部分在于——
提供清晰全面的文檔
建立明確的貢獻(xiàn)準(zhǔn)則(新開發(fā)者往往對如何貢獻(xiàn)到開源項目感到不知所措)
積極通過論壇和討論渠道與社區(qū)互動,培養(yǎng)建設(shè)性的反饋和指導(dǎo)文化
通過優(yōu)先考慮這些方面,項目維護(hù)者可以吸引更廣泛的貢獻(xiàn)者,加快開發(fā)進(jìn)度,并確保項目的長期可持續(xù)性。這就是為什么大型公司投入大量資源在開發(fā)者關(guān)系和布道團(tuán)隊上的原因,這些團(tuán)隊充當(dāng)大型開發(fā)者社區(qū)和公司之間的營銷/客戶成功代理。他們的工作是確保開發(fā)者能夠順利貢獻(xiàn)開源項目,并將反饋傳達(dá)回母公司。
講到這里,讓我們繼續(xù)討論公司如何與開源項目互動。
公司想從開源中得到什么
關(guān)于開源,公司可以扮演兩個不同但相互關(guān)聯(lián)的角色:采用者和構(gòu)建者。
采用者:收獲共享創(chuàng)新的好處
對于采用開源工具的公司,其優(yōu)勢是顯而易見的。通過利用現(xiàn)有的解決方案,公司可以:
降低開發(fā)成本:企業(yè)無需重復(fù)工作,可以專注構(gòu)建差異化功能和特性。
加快走向市場的時間:開源組件為開發(fā)提供了良好的起點,使企業(yè)能夠更快地將產(chǎn)品和服務(wù)推向市場。
增強(qiáng)安全性和透明度:通過開源代碼,企業(yè)可以全面了解軟件,從而更有效識別和解決潛在安全漏洞。
利用全球人才庫:開源項目通常會引來一批技術(shù)嫻熟的開發(fā)者,為企業(yè)提供了更廣泛的人才庫,可以用于支持、合作甚至招聘。
構(gòu)建者:培育生態(tài)系統(tǒng)
雖然采用者的益處顯而易見,但企業(yè)構(gòu)建和分享開源軟件的益處可能不那么明顯。然而,戰(zhàn)略優(yōu)勢是顯著的:
提升品牌聲譽和開發(fā)者信任:開源技術(shù)展示了對透明度、合作和創(chuàng)新的堅持,增強(qiáng)品牌聲譽并建立開發(fā)者社區(qū)的信任。良好的聲譽可以成為強(qiáng)有力的保護(hù),而不良的聲譽則可能導(dǎo)致過度反應(yīng)和恐慌(谷歌AI最近就經(jīng)歷了這種情況)。
眾包研發(fā)和加速創(chuàng)新:通過開放代碼,企業(yè)可以利用全球社區(qū)的集體智慧,加快創(chuàng)新和功能開發(fā)的速度。
培養(yǎng)繁榮的生態(tài)系統(tǒng):開源項目往往會成為行業(yè)標(biāo)準(zhǔn),從而吸引用戶、貢獻(xiàn)者以及互補(bǔ)的產(chǎn)品和服務(wù)網(wǎng)絡(luò)。這形成了一個良性循環(huán),促進(jìn)采用、創(chuàng)新和增長。Meta對PyTorch的投資就是一個很好的案例。
降低內(nèi)部開發(fā)成本:通過共享工具和技術(shù),企業(yè)可以減少內(nèi)部開發(fā)和維護(hù)的需求,釋放資源用于其他戰(zhàn)略計劃。以React的VR功能為例,這些功能之所以能迅速開發(fā)出來,得益于龐大的高級Web開發(fā)者社區(qū)。VR技術(shù)的開發(fā)對扎克伯格的元宇宙愿景至關(guān)重要(我仍然認(rèn)為,從長遠(yuǎn)來看,元宇宙作為一個強(qiáng)大的平臺戰(zhàn)略是有商業(yè)意義的。
作為導(dǎo)流工具:開源平臺可以作為付費服務(wù)的導(dǎo)流工具。谷歌通過Android做到了這一點。Android生態(tài)系統(tǒng)的OS特性吸引了大量開發(fā)者,后者更有可能使用谷歌更昂貴的API來構(gòu)建更精細(xì)的項目。
“免費贈送”技術(shù)所帶來的表面負(fù)面影響,往往會被培育合作生態(tài)系統(tǒng)和在特定領(lǐng)域建立領(lǐng)導(dǎo)地位的長期收益所超越。
六、開源將如何惠及終端用戶
開源軟件使得產(chǎn)品更便宜、更安全、更易獲取,所有這些都使終端用戶受益。開源項目吸引了更多樣化的貢獻(xiàn)者,其中許多人比來自資金更充裕公司的開發(fā)者更關(guān)心解決方案的效率(后者往往更注重基準(zhǔn)性能)。
一個很好的例子是RWKV模型在其他語言(如中文、日文等)上的訓(xùn)練通常比大多數(shù)現(xiàn)有開源模型更好。這一點引起了我的注意,所以我與團(tuán)隊進(jìn)行了交流。事實證明,RWKV項目一直擁有非常多樣化的貢獻(xiàn)者,其中許多人來自資源較少的語言。他們很早就注意到OpenAI的詞元分詞方法在他們的語言應(yīng)用上效果不佳,因此決定自己構(gòu)建詞元分詞器。這是一個巨大的優(yōu)勢。
開源軟件對終端用戶而言還有一個不太顯眼的好處:促進(jìn)長期創(chuàng)新的能力。由于開源項目不受與企業(yè)相同短期利潤動機(jī)的約束,它們可以探索更多新穎的方向(企業(yè)可能會陷入局部最優(yōu),而開源項目更有可能進(jìn)行探索)。類似的原則也解釋了為什么許多核心技術(shù)創(chuàng)新來自政府(或貝爾實驗室),這些機(jī)構(gòu)可以投資于時間跨度更長的項目。這在政府和開源之間創(chuàng)造了大量的協(xié)同效應(yīng)。
為了不讓這篇文章過長,我們將在專門的案例研究中討論不同開源策略的復(fù)雜性。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。