編者按:本文來自微信公眾號 王智遠,作者:王智遠,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
上半年就討論過這個問題。
4月份時,百度創(chuàng)始人李彥宏說大模型一定要閉源,當時我記得,周鴻祎在海外演講時,還反駁說:有些名人亂說,沒有開源哪有互聯(lián)網(wǎng)。
李彥宏覺得,閉源才能賺到錢,能吸引人才和算力,開源沒啥用,閉源能力會一直領(lǐng)先,做模型的創(chuàng)業(yè)公司,即做模型又做應用不是好辦法。
可半年過去了,到2025年1月初,我仍然看到不少企業(yè)在開源模型。比如:
1月15日,MiniMax開源了兩個模型。一個是基礎(chǔ)語言大模型MiniMax - Text - 01,另一個是視覺多模態(tài)大模型MiniMax - VL - 01。
這兩個模型厲害之處在于,它們用了一種線性注意力機制,好比給模型裝了一副更高級的“眼睛”,讓它能更快速、高效地處理信息。
而且,一次能處理400萬token,是別的模型的20 - 30倍。前天這新聞出來時,我在群里還吐槽:Deepseek被偷家了,它們用的是傳統(tǒng)Transformer架構(gòu),MiniMax新模型MiniMax - 01用了新型Lightning Attention架構(gòu),把架構(gòu)都替換了。
還有,1月15號,CES展上,NVIDIA也開源了自己的世界模型,分別有三個型號:NVIDIA Cosmos的Nano、Super和Ultra。
Nano主要是實時推理,訓練反應能力,用在智能交通、工業(yè)自動化這些地方;Super和Ultra則擅長處理復雜任務和大規(guī)模數(shù)據(jù),能生成很逼真的物理感知視頻,模擬和預測機器人和自主系統(tǒng)的真實結(jié)果。
昨天(1月16號)阿里云通義也開源了一個模型,叫PRM的數(shù)學推理過程獎勵模型,尺寸為7B。這個模型像個數(shù)學老師,比GPT - 4o更能發(fā)現(xiàn)數(shù)學推理中的錯誤,幫助人們更好地學習和研究數(shù)學。
你看,模型開源的信息一直沒斷過。我讓Kimi chat幫我統(tǒng)計了一下,2024年全年開源大模型中,品牌有10個以上。
種類和數(shù)量多得數(shù)不過來,像Llama 3、GLM - 4、Qwen系列、DeepSeek、Falcon 40B、Gemma、FLUX.1、MPT - 7B、Phi - 2等等。
你不了解它們沒關(guān)系,只要記住,它們有的能處理文本、有的能生成圖片、還有的能處理多模態(tài)信息就夠了。
然而,一年快過去了,又回到那個問題上:模型要不要開源?開源好、閉源好?
要解答這兩個問題,我認為要從最底層原理思考。什么是最底層原理呢?例如:我們得知道模型這個東西,它到底是什么?怎么用的,用在哪里的。
如果用維基百科的介紹,那我能寫幾千個字的模型是什么。然而,這種理論性較強的知識,并不能通俗地理解。
我來打個比方:
可以想象,現(xiàn)在有一個人,有一個超級大腦。大腦能處理語言、圖片,甚至有的還能把多個模型整理起來處理復雜的任務。
而模型呢,像一個個強大的工具,通過學習大量數(shù)據(jù)變得更聰明,就像你學習新技能一樣,練習得越多,就越熟練。
所以,模型可以看做是一個個多功能的助手,每個助手都有自己的專長、干自己的事兒,這樣才能分工明確,各司其職。
問題是,開源好,還是閉源好呢?
我認為這一定要看兩點,動機和用途。什么是開源?簡單講,把你的工具箱免費分享給大家,任何人都可以拿去用,還可以根據(jù)自己的需要進行改進和擴展。
這么做的好處很明顯,一,能很快拉起一幫開發(fā)者,間接給自己儲備人才。比如,大家都用LLaMA來練手、調(diào)教,市場上就有好多懂LLaMA的人,你招人時就可以在里面挑選需要的技術(shù)人才。
其次,全世界的工程師都能交流經(jīng)驗,就像有好多工程師幫你試模型,給后續(xù)改進提建議,能讓開源模型更快追上閉源模型。
從做生意的角度講,開源還能打擊對手。有了免費的開源模型,那些收費的閉源模型在市場上就不好混了。
再者,開源模型能鼓勵大家一起玩、一起干,加快解決問題和創(chuàng)新的速度。源代碼公開了,全球開發(fā)者、研究者都能隨便用、隨便改,這樣一來,技術(shù)更新?lián)Q代快,門檻也低了,更多人就能參與AI研發(fā)了。
在Stability AI發(fā)布的關(guān)于新模型FreeWilly的報告里,明確指出了,LLaMA模型開源沒幾天,旗下衍生的大模型FreeWilly2就跑贏了LLaMA。
這說明,開源模型就像一群人在幫忙,大家一起出力,能讓模型變得更好更快。
不過,開源也有一些潛在風險。比如:模型被濫用進行不當內(nèi)容的生成,這就需要開發(fā)者和使用者共同關(guān)注和規(guī)范。
還有,數(shù)據(jù)隱私泄露的問題,模型的使用和改進涉及到大量數(shù)據(jù)的處理和傳輸,如何在開源的同時保護用戶數(shù)據(jù)隱私,是需要解決的重要問題。
讀懂了開源,閉源就容易理解了。
相當于一本書把它鎖起來,只給特定的人才能用,這樣,發(fā)明這個大腦的公司可以更好地控制它,確保它的安全和穩(wěn)定,同時,也可以通過這種方式賺錢,因為別人要使用這個大腦,就需要付錢。
閉源有什么優(yōu)勢呢?
一,閉源能很好地保護公司的技術(shù)和知識產(chǎn)權(quán)。你辛辛苦苦寫好的模型代碼,不用擔心公開后被別人“偷家”。
二,閉源能更專注于特定的場景和用戶。比如,有些金融公司、銀行不需要開源模型,它們只要一個專門處理金融數(shù)據(jù)的模型就行。閉源就能很好地解決這個問題。
還有一點,閉源后,公司可以持續(xù)投入有限的資源來優(yōu)化、改進模型。因為只有他們能接觸模型的核心代碼,所以,能根據(jù)數(shù)據(jù)的反饋,不斷微調(diào),讓模型變得更精準、更強大。
而且,閉源模型在商業(yè)應用上更靈活。公司根據(jù)市場需求和客戶反饋,快速調(diào)整模型的功能和性能,推出新的版本,這樣,就能滿足不同類別的客戶了。
問題是,任何技術(shù)的發(fā)展都需要商業(yè)的支持,商業(yè)的發(fā)展會推動技術(shù)的更新,所以,到底要不要開源,得看掌握「模型」的企業(yè),想讓模型在特定的環(huán)境下干啥。
我來舉個例子:
拿MiniMax來說。這家公司有四種模型布局:大模型MiniMax - 01系列、視頻模型(abab - video - 1、video - 01)、語音生成模型(speech - 01、T2A - 01 - HD),還有音樂生成模型music - 01。
發(fā)這么多模型,主要是為了建立「競爭壁壘」和滿足不同場景的需求,從文本到音頻,模型幾乎涵蓋了MiniMax的基礎(chǔ)設施。
什么是基礎(chǔ)設施呢?
就像一個底座。有了底座,可以在上面做很多事情。
比如,有視頻模型,各種企業(yè)可以用這個模型開發(fā)不同的應用。TOB(面向企業(yè))的企業(yè)可能會用它的API來開發(fā)AI剪輯視頻的產(chǎn)品。
電影動畫領(lǐng)域,這個視頻模型可以用來生成動畫場景,提高制作效率;甚至在教育領(lǐng)域,可以用來制作教學視頻,讓學習更加生動有趣等等。
再比如,有了語音生成模型,就像有一個會說話的機器人。這個機器人在智能家居中,可以通過語音控制家電,在客服領(lǐng)域,它可以用來生成自然的語音回復,提高客戶滿意度。
這些模型一起,構(gòu)成MiniMax在AI領(lǐng)域的基礎(chǔ)設施,就像建房子的地基,有了地基,才能蓋起各種各樣的房子;這樣,MiniMax不僅能夠滿足不同場景的需求,還能在市場競爭中建立起自己的優(yōu)勢。這就是TOB的力量。
再來看看TOC。
MiniMax這家公司,有兩個原生應用,一個叫海螺AI,類似于豆包、Kimi chat、通義和文小言,它有多模態(tài)能力,支持文本、語音、圖像等多種輸入方式。
還有一個叫星野。星野是什么?基于AI的內(nèi)容社區(qū),用戶可以創(chuàng)建虛擬角色進行互動,形成類似于小紅書、抖音、B站等社區(qū)的形態(tài)。
所以,兩個放在一起看,就形成了C端壁壘,一個滿足日常使用,一個滿足產(chǎn)生內(nèi)容后發(fā)布出去,在社區(qū)幫助創(chuàng)作者形成商業(yè)閉環(huán)。這樣,用戶不僅不會流失,還會愿意一直留在平臺上,從而形成C端市場的競爭力。
了解這一點,就明白了“開源、閉源”的動機。
互聯(lián)網(wǎng)上的所有數(shù)據(jù),總有一天會被AI學習完。僅僅靠自己社區(qū)生態(tài)內(nèi)的一點內(nèi)容,完全無法滿足一個模型的訓練需求。
除非一個新的模型廠商能像淘寶、京東、小紅書那樣,擁有海量的數(shù)據(jù)和標簽。只有開源,才能保證模型有足夠的“食物”來不斷學習和進化,保持其競爭力和準確性。
而支持閉源的人呢?
大部分更偏向于TOB客戶,這些客戶急需將AI的能力融入到工作場景中。例如,京東這樣的公司,如果要養(yǎng)10萬個在線客服,肯定是不劃算的。
怎么辦呢?可以做一個閉源模型,讓它學習所有客服的知識庫和QA,然后通過API接入。這樣,就可以利用閉源模型自動回答客戶的常見問題,提高客服效率,同時減少人力成本。
所以,閉源模型的這種定制化和專用性,在特定的場景中表現(xiàn)得會很好。因此,一個結(jié)論是:模型是否開源,應該站在客戶選擇的角度來看,而不是僅僅考慮「模型本身」。
這句話怎么理解呢?
簡單講:決定一個模型是否開源,不應該只從技術(shù)角度出發(fā),而應該考慮客戶的需求和選擇。
國外有兩家公司,一個叫VMWare,它的軟件像“電腦管家”,主要幫客戶的企業(yè)把電腦、服務器管理得井井有條。
還有一家公司叫HuggingFace,它是一個專門做人工智能的公司,他們有很多很厲害的AI模型。StarCoder是其中一個模型,功能是幫助開發(fā)人員(就是寫電腦程序的人)生成代碼。
但是,VMWare選擇自己把StarCoder模型放在自己的服務器上,而不是用微軟的Github的Copilot這樣的外部系統(tǒng)。因為VMWare對自己的代碼庫(就是他們所有的代碼集合)非常小心,不希望讓微軟(另一家大公司)看到這些代碼。
而HuggingFace呢,它把StarCoder模型開源,讓所有人都可以免費使用。
這樣做的好處是,很多開發(fā)者都可以用這個模型來生成代碼,提高他們的工作效率。開源還意味著社區(qū)的力量,全球的開發(fā)者都可以一起改進這個模型,讓它變得更好。
所以,你看,VMWare更注重保護自己的代碼庫,雖然它也用了HuggingFace的StarCoder,但它選擇閉源的方式來保護自己的數(shù)據(jù)安全。
而HuggingFace本身,把StarCoder做了開源,讓更多人可以使用和改進這個模型,促進技術(shù)的快速發(fā)展和創(chuàng)新,這就是不同的選擇,一個模型面對的客戶不一樣,開源閉源也不一樣。
國內(nèi)這樣的操作更多。
阿里、騰訊都是雙輪驅(qū)動。我記得,阿里云在2024年9月的云棲大會上發(fā)布的模型Qwen2.5系列,最近大半占據(jù)Hugging Face榜單,這些模型,一些對開發(fā)者,一些對企業(yè)。
騰訊2024年11月份宣布的兩款產(chǎn)品,Hunyuan - Large(大語言模型)、Hunyuan3D - 1.0(文本加圖像)也是這樣。因此,這種模式不僅推動了技術(shù)的迭代,還滿足了不同客戶群體的需求。
說到底,到底開源好,還是閉源好?
我覺得,關(guān)鍵在于客戶選擇。如果一個模型上面做了TOC的產(chǎn)品,那開源肯定有利于發(fā)展。反而,這個模型是直接面對公司用的,閉源是最佳選擇。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。