作者|鹿堯
前兩天商湯在上海臨港AIDC舉辦了一場(chǎng)大會(huì),在大模型遍地、AI滿天飛的當(dāng)下,這次發(fā)布的日日新大模型5.0版本,以及配套或衍生的行業(yè)大模型和AI助手,仍然成為了行業(yè)焦點(diǎn)。
值得一提的是,這場(chǎng)發(fā)布會(huì)更像是一次關(guān)于行業(yè)技術(shù)的交流會(huì),現(xiàn)場(chǎng)來給商湯站臺(tái)的大廠非常多:華為、金山辦公、小米、閱文等等,從業(yè)務(wù)介紹,到實(shí)戰(zhàn)演練,透露出一家老牌科技公司的扎實(shí)和銳利。
眾所周知,在萬物都朝著智能化發(fā)展的時(shí)代,大模型憑借強(qiáng)大的表達(dá)和預(yù)測(cè)能力,涵蓋自然語言處理、計(jì)算機(jī)視覺等多個(gè)領(lǐng)域,能夠處理復(fù)雜的任務(wù)和數(shù)據(jù)。而以O(shè)penAI作為代表的成功范例在全行業(yè)掀起的巨浪,更足以讓人們相信大模型技術(shù)的可行性和市場(chǎng)潛力。
但隨著技術(shù)的不斷深入,不同場(chǎng)景對(duì)大模型的需求差異日益顯現(xiàn),人們發(fā)現(xiàn),尤其是對(duì)手機(jī)、AR等終端、及汽車在內(nèi)的智能體系來說,出于對(duì)輕量敏捷、安全穩(wěn)定和成本等方面的考慮,傳統(tǒng)的大模型似乎并不能滿足他們的需求。
也就在這種情況下,端側(cè)大模型逐漸成為新的行業(yè)趨勢(shì)。
以手機(jī)為例,過去的一年里,國內(nèi)外包括蘋果、三星、華為、VIVO等大部分的手機(jī)廠商,都在研究一門新的學(xué)問:怎么將大模型落地到端側(cè)?而他們之所以這么做,目的也很明確,既為了在行業(yè)瓶頸掌握市場(chǎng)突破的重要籌碼,又為了滿足用戶AI需求,帶來革新終端的使用體驗(yàn)。
這也是此次商湯發(fā)布會(huì)被討論最多的點(diǎn)。據(jù)了解,商湯新推出的1.8B(18億)參數(shù)規(guī)模的 SenseChat-Lite版本端側(cè)?模型,在基準(zhǔn)測(cè)試中,全面超越了MiniCPM-2B、Phi-2等所有開源的同量級(jí)的大模型,甚至越級(jí)比肩一些7B、13B的大模型,性能、指標(biāo)非常硬核。
更直觀的例子,是現(xiàn)場(chǎng)演示的SenseChat-Lite與GPT-4的一場(chǎng)拳皇比賽,就像商湯董事長兼CEO徐立說的那樣,“天下武功,唯快不破?!痹诓煌倪m用場(chǎng)景下,小模型決策更快,不管拳是不是最優(yōu)的,但都實(shí)實(shí)在在地打到了對(duì)手的身上。
有意思的是,發(fā)布會(huì)的第二天,商湯的股價(jià)即迎來開盤大漲,一度漲超36%,周漲超80%,創(chuàng)上市后單周最大漲幅。不少人認(rèn)為,這可能就是市場(chǎng)給予這家公司最直接的肯定。
01
端側(cè)大模型元年
在手機(jī)上使用AI大模型其實(shí)并不是新鮮事了。
ChatGPT上線之后,國內(nèi)的科技互聯(lián)網(wǎng)圈一度處在你追我趕的狀態(tài),不到一年的時(shí)間里,文心一言、通義千問、訊飛星火等等都接連推出App應(yīng)用。彼時(shí)人們的關(guān)注點(diǎn)大多在于,哪款產(chǎn)品的回復(fù)準(zhǔn)確率更高,以及它怎么實(shí)現(xiàn)可持續(xù)的商業(yè)化。
不難發(fā)現(xiàn),當(dāng)AI的概念總以第三方應(yīng)用的形式被植入手機(jī)時(shí),人們的關(guān)注點(diǎn)仍聚焦軟件本身,但并不會(huì)因此對(duì)某款手機(jī)產(chǎn)生新的認(rèn)知。
大模型可以被稱為一種暴力美學(xué),一般認(rèn)為,目前主流云端大模型的參數(shù)量在千億級(jí)別,算法性能隨著訓(xùn)練時(shí)長和數(shù)據(jù)集的增加而增長。這些基于云端大模型的App,需要調(diào)用海量的服務(wù)算力來進(jìn)行數(shù)據(jù)傳輸,成本和安全性是服務(wù)商不能回避的問題。
此前有手機(jī)廠商透露,調(diào)用一次云端大模型的平均成本在1.2分到1.5分人民幣,假設(shè)每個(gè)品牌都有上億的用戶量,每人每天調(diào)用10次,那么積攢下來的算力成本是驚人的;如果按次數(shù)或月租向用戶進(jìn)行收費(fèi),在功能同質(zhì)化的情況下,用戶的使用意愿也會(huì)很難保證。
而用戶更加關(guān)注的是,喂給的數(shù)據(jù)從何而來、用到哪里去,信息儲(chǔ)存在云端是否可靠,會(huì)不會(huì)有更多風(fēng)險(xiǎn)?
這樣一來,手機(jī)廠商開始研究起大模型,由此“AI手機(jī)”的概念再度火熱。雖然彼時(shí)誰都不知道AI手機(jī)究竟是什么樣,不過可以肯定,聯(lián)網(wǎng)使用某款A(yù)pp獲得的單一體驗(yàn)絕不是最終的答案。
為了解決大模型算力和用戶數(shù)據(jù)安全的問題,手機(jī)廠商們選擇將大模型部署在本地,利用芯片算力生成結(jié)果,不用聯(lián)網(wǎng)也能使用。畢竟云端大模型的參數(shù)規(guī)模,內(nèi)存、算力和功耗的需求都是一部手機(jī)滿足不了的,端側(cè)的大模型,參數(shù)可以壓縮到數(shù)十億到百億左右,但性能上仍然抗打。
但事實(shí)上,這將是更大的挑戰(zhàn),和坐擁數(shù)千張頂級(jí)顯卡的大模型公司相比,手機(jī)廠商走端側(cè)路線,意味著要在更小的芯片空間里,做出不遜于超級(jí)大模型的產(chǎn)品。
理想狀態(tài),每款手機(jī)都將成為給每個(gè)人量身定制的私人AI助手。就像商湯發(fā)布會(huì)上徐立演示的,在完全斷網(wǎng)的狀態(tài)下,商湯端側(cè)大模型輸出一張請(qǐng)假條的速度,甚至比人們閱讀的速度還快很多;模擬在飛行模式時(shí),同樣可以利用AI生成詳細(xì)的工作紀(jì)要,且速度基本等同人眼實(shí)時(shí)的速度。
除此以外,商湯在端側(cè)大模型的布局思路是多模態(tài),也就意味著數(shù)據(jù)和信息可以來自不同的感官,生成結(jié)果除了文字,未來還可以是圖片、視頻等多種形式,這被他們稱為“擴(kuò)散模型”。
在徐立看來,端側(cè)是行業(yè)應(yīng)用鋪開的關(guān)鍵,商湯的擴(kuò)散模型實(shí)現(xiàn)業(yè)內(nèi)最快的端側(cè)推理速度,在高通旗艦平臺(tái)上能夠做到小于1.5秒。在端側(cè)和云側(cè)的對(duì)比擴(kuò)圖實(shí)驗(yàn)中發(fā)現(xiàn),端側(cè)連擴(kuò)了三張圖,云端還沒有完成;端側(cè)生成3個(gè)圖,云端才完成1張圖的擴(kuò)圖,此外還能夠旋轉(zhuǎn)擴(kuò)圖、任意比例擴(kuò)圖。
“端側(cè)模型對(duì)于本地的處理有非常大的友好性?!毙炝⒄f,由于是直接在本地設(shè)備上運(yùn)行,無需將數(shù)據(jù)發(fā)送到云端處理,這極大減少了數(shù)據(jù)傳輸和等待云端響應(yīng)的時(shí)間。
從行業(yè)場(chǎng)景上看,目前商湯的端側(cè)模型已經(jīng)覆蓋到日常對(duì)話、常識(shí)問答、文案生成、相冊(cè)管理、圖片生成等一系列功能,而這種低延遲性,使得端側(cè)模型在未來處理實(shí)時(shí)性要求較高的任務(wù)時(shí)具有顯著優(yōu)勢(shì),例如自動(dòng)駕駛、實(shí)時(shí)翻譯等。
業(yè)內(nèi)人士透露,作為國內(nèi)最早做端側(cè)大模型的技術(shù)公司,商湯在算法和模型方面具備深厚的技術(shù)積累,且能在硬件適配和芯片兼容等方面做出創(chuàng)新。
值得關(guān)注的是,其多模態(tài)端側(cè)SDK不僅廣泛適配至手機(jī)、電腦、VR、車載顯示屏等多種硬件場(chǎng)景;還能夠兼容眾多芯片,還實(shí)現(xiàn)了全系列的高通8系列芯片兼容,包括7系列芯片,甚至擴(kuò)展至MTK天璣芯片,這為大模型技術(shù)的落地應(yīng)用提供了更廣闊的空間。
02
市場(chǎng)需要怎樣的端側(cè)大模型解決方案?
王曉剛是商湯的首席科學(xué)家,也是旗下絕影汽車事業(yè)群的總裁,在他看來,今天大模型發(fā)展最重要的并不有多少家會(huì)留在市場(chǎng),而是差異化在哪。“有哪些是有價(jià)值、但風(fēng)險(xiǎn)更高,別人沒嘗試過,沒做出來的東西,這是商湯在發(fā)展大模型時(shí)的差異化思路?!?/p>
從去年開始,商湯與小米小愛建聯(lián),通過端側(cè)的大模型來賦能小愛眾多的終端用戶。
據(jù)小米集團(tuán)小愛的總經(jīng)理王剛介紹,小愛同學(xué)現(xiàn)在的用戶規(guī)模達(dá)到了1.3億人,主要以手機(jī)為主,日交互次數(shù)超過2億次,大模型在去年8月份首先在手機(jī)和音箱上開啟內(nèi)測(cè),目前已積攢了900萬的大模型用戶,活躍用戶次日留存更是增加了10%。
“小愛不只是語音助手,更是無所不在的AI智能助手?!贝竽P徒o小愛同學(xué)帶來的3點(diǎn)升級(jí),分別是對(duì)話能力、垂直領(lǐng)域?qū)I(yè)的AI助手、NLP任務(wù)能力的提升。而在商湯大模型的加持下,小愛除了性能明顯提升,在時(shí)間性能力上,結(jié)合搜索功能,能引入可靠信息來源,提升用戶對(duì)內(nèi)容真實(shí)性的信任程度。
對(duì)于特定的業(yè)務(wù)場(chǎng)景,技術(shù)團(tuán)隊(duì)對(duì)小愛升級(jí)的綜合能力和細(xì)節(jié)處理有更高的要求,需滿足時(shí)新性、品牌導(dǎo)向,且及時(shí)調(diào)整來適應(yīng)產(chǎn)品的變化;同時(shí),通過優(yōu)化輸出格式,達(dá)到簡(jiǎn)潔清晰、圖文并茂的輸出。簡(jiǎn)單來說,有了商湯大模型的加入,小愛正成為更成熟可靠,且更懂用戶的智能助手。
去年9月,在大模型內(nèi)測(cè)成功之后,小米硬件部門決定在終端和高端機(jī)器上全部用上大模型,手機(jī)和音響之外,汽車是另一個(gè)布局重點(diǎn)。
眾所周知,今年小米su7發(fā)布的火熱超出所有人預(yù)期,據(jù)王剛分享,“不同于生成圖文,車上大模型是完全不一樣的設(shè)計(jì)體驗(yàn),因?yàn)轳{駛員更專注前面的行駛場(chǎng)景,追求簡(jiǎn)潔交互,在這方面我們與商湯一起做車上大模型的適配。”
大模型的加入,讓很多以往沒有的車載功能實(shí)現(xiàn)從0到1,用戶對(duì)車內(nèi)小愛同學(xué)的關(guān)注也與日俱增。還有一個(gè)容易被忽視的點(diǎn),如果說過去由于技術(shù)限制,大部分的車企都傾向模塊化布局,那么商湯大模型能夠帶來的改變則是將這些一一打通,讓汽車真正實(shí)現(xiàn)端側(cè)整體的智能,這背后離不開它的兼容性和多模態(tài)特征。
當(dāng)然,也有很多人提出,比如手機(jī),受限于當(dāng)前GPU和NPU的硬件能力,大部分的終端僅能運(yùn)行數(shù)十億級(jí)別輕量級(jí)模型,但是這些模型訓(xùn)練參數(shù)較小,一定程度上會(huì)影響結(jié)果的精準(zhǔn)輸出。同樣的問題可以延伸到不同的終端場(chǎng)景,于是,為了平衡內(nèi)存、執(zhí)行速度、功耗的問題,很多廠商提出了“端云協(xié)同”的需求。
背后的邏輯在于,用云側(cè)解決復(fù)雜的大算力、大參數(shù)模型、實(shí)效性低的問題,用端側(cè)滿足數(shù)據(jù)安全性高、實(shí)時(shí)反饋、斷網(wǎng)條件下的需求。對(duì)于商湯來說,這的確是大模型與場(chǎng)景協(xié)同的一次挑戰(zhàn),按照徐立的說法,大部分推理如果能在端側(cè)100%完成的就完成,如果要追求高性能,就可以用端云聯(lián)動(dòng)的模式。
實(shí)用的模型往往能滿足不同行業(yè)的差異化需求,這也是商湯重要的研發(fā)理念之一。為了達(dá)到最佳的推理效果,適配不同的業(yè)務(wù)場(chǎng)景,同時(shí)降低推理成本,他們提出了“端云協(xié)同方案”,針對(duì)不同行業(yè)應(yīng)用設(shè)置了不同的云端聯(lián)動(dòng)百分比。
此前,王曉剛曾與媒體交流,“每年有30億部手機(jī),PC出貨量一年有2-3億臺(tái)規(guī)模,AI PC可以成為我們每個(gè)人的助手,汽車智能化也處在重要的發(fā)展機(jī)遇期?!迸c商湯在端側(cè)大模型展開合作的,已經(jīng)覆蓋了國內(nèi)絕大部分的手機(jī)廠商和知名車企?,F(xiàn)在可能到了大模型商業(yè)化普及和應(yīng)用的最關(guān)鍵時(shí)期。
03
為什么是商湯?
“并不感到意外?!碑?dāng)天發(fā)布會(huì)現(xiàn)場(chǎng),有投資人這么表述,作為一家成立之初就緊密圍繞AI作為主要業(yè)務(wù)的科技公司,多年的技術(shù)沉淀,讓商湯具備更成熟的能力做好大模型。
從個(gè)人終端到企業(yè)客戶的基礎(chǔ)設(shè)施,行業(yè)對(duì)AI的需求是多樣的。2019年,商湯首次發(fā)布10億參數(shù)視覺大模型,2022年發(fā)布320億參數(shù)視覺大模型,到去年確立以“大模型+大算力”的發(fā)展戰(zhàn)略,再加上旗下多款A(yù)I產(chǎn)品,商量、秒畫、如影、瓊宇、格物的多元布局,以及剛剛推出的全面對(duì)標(biāo)GPT-4Turbo的日日新5.0等一系列創(chuàng)新。
可以說,商湯在科技圈里從未缺席,而這些成果的背后是十年如一日的持續(xù)投入。
據(jù)了解,2018年前后,商湯開始每年數(shù)十億投入到專為AI原生打造的智算云服務(wù)平臺(tái)“SenseCore”商湯大裝置,并建設(shè)上海臨港智算中心。
截至目前,大裝置的總算力規(guī)模突破性增長到12,000 petaFLOPS,上線GPU數(shù)量高達(dá)45,000塊GPU,其中臨港AIDC為8400 petaFLOPS,遠(yuǎn)遠(yuǎn)超出立項(xiàng)規(guī)劃的3740 petaFLOPS算力總量。
在算力和數(shù)據(jù)規(guī)模支持下,日日新大模型得以持續(xù)優(yōu)化,但商湯的大裝置不僅僅是為了支持自身的大模型研發(fā),還作為算力服務(wù)方,支持外部客戶訓(xùn)練大模型和應(yīng)用部署:幫助自動(dòng)化數(shù)據(jù)標(biāo)注提升效率百倍,推理部署提高推理效率100%以上,微調(diào)和增量訓(xùn)練降低成本至原1/10,并提供開源模型和開發(fā)者工具,從而提升開發(fā)者效率。
目前,SenseCore已經(jīng)成為國內(nèi)稀缺的AI基礎(chǔ)設(shè)施,且實(shí)現(xiàn)了全國聯(lián)網(wǎng)的統(tǒng)一調(diào)度,在上海、深圳、廣州、福州、濟(jì)南、重慶等地拓展了新的計(jì)算節(jié)點(diǎn)。如果AI真的是未來社會(huì)進(jìn)步和產(chǎn)業(yè)革新的關(guān)鍵力量,某種程度上,這也體現(xiàn)了商湯大裝置的特殊點(diǎn),它投入了很大的資源進(jìn)行基礎(chǔ)設(shè)施建設(shè),賦能自身的同時(shí)反哺行業(yè),將能力標(biāo)準(zhǔn)化、基礎(chǔ)設(shè)施化、服務(wù)化,降低了整個(gè)人工智能產(chǎn)業(yè)創(chuàng)新的門檻。
時(shí)至今日,AI仍然是一個(gè)長周期,高成本投入,回報(bào)慢的行業(yè),反倒是需要更多的戰(zhàn)略定力。在商湯的生成式AI已經(jīng)轉(zhuǎn)向收入的快速回報(bào)之際,就像王曉剛說的那樣,在商湯的背后,積累了大量對(duì)模型對(duì)AI的know-how,這些業(yè)務(wù)與行業(yè)的經(jīng)驗(yàn),或許也正在給AI結(jié)合不同產(chǎn)業(yè)的商業(yè)化落地提供了更具想象力的參考。