五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

大模型江湖,落地為王

ee
北京移動(dòng)互聯(lián)網(wǎng)
面向女生的新一代場(chǎng)景社交
最近融資:|2016-01-06
我要聯(lián)系
大模型卷生卷死,但無(wú)法落地都是空中樓閣。

編者按:本文來(lái)自微信公眾號(hào) 星海情報(bào)局(ID:junwu2333),作者:星海老局,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

2008年,年入過億的媒體人Jeremy Clarkson心血來(lái)潮在英國(guó)牛津附近的Chadlington查德靈頓買了1000英畝(大約6000畝)的土地,并托管給了當(dāng)?shù)氐囊粋€(gè)農(nóng)民大叔。作為地主老頭的Clarkson從此每年坐收數(shù)萬(wàn)英鎊的利潤(rùn)。

8年后,農(nóng)民大叔決定退休,Clarkson做了一個(gè)異想天開的決定:他要親自來(lái)經(jīng)營(yíng)農(nóng)場(chǎng),并和亞馬遜一起,把這個(gè)過程變成了一部火爆全球的種田紀(jì)錄片:《克拉克森的農(nóng)場(chǎng)》。

火爆的最大原因:億萬(wàn)富翁灰頭土臉種地年入144英鎊,利潤(rùn)還不如直接把錢放在銀行吃利息。

2021年這部紀(jì)錄片上線的時(shí)候,生成式AI還沒有爆火,Clarkson在冬天的農(nóng)田旁邊填寫英國(guó)政府下發(fā)的幾十頁(yè)表格,卻被不同作物對(duì)應(yīng)的不同編碼搞到焦頭爛額;他異想天開養(yǎng)了一群羊,結(jié)果羊生病了他完全搞不明白為什么,只能到處打電話求救;他的拖拉機(jī)沒有說明書,于是只能滿世界找人教他每一個(gè)按鈕都該怎么用……

兩年后,我在去見客戶的路上,又想起了這個(gè)越努力越倒霉的億萬(wàn)富翁??蛻粢沧鲛r(nóng)牧業(yè),正在探索利用大語(yǔ)言模型搭建智能客服幫養(yǎng)殖戶養(yǎng)豬。我突然發(fā)現(xiàn),似乎讓他焦頭爛額的每一件事,從理論上講,AI都可以解決。

在大模型卷生卷死的一年末尾,越來(lái)越多的人發(fā)現(xiàn),單純卷模型其實(shí)沒有太大的意義,只有將大語(yǔ)言模型的“理論能力”真的落地到實(shí)際應(yīng)用里,才有真正的意義。

大模型不是搜索引擎

大語(yǔ)言模型的本質(zhì)是單字接龍,跟搜索引擎的邏輯天差地別——每當(dāng)我告訴別人這件事的時(shí)候,通常都會(huì)得到一個(gè)極其困惑的表情。但其實(shí)這個(gè)事用案例解釋起來(lái)非常好理解。

搜索引擎的邏輯是“匹配”,再簡(jiǎn)單點(diǎn)說就是連線游戲。比如剛剛過去的雙十一,相信大家都體驗(yàn)過各大平臺(tái)的所謂“智能客服”,這些客服的基本邏輯就是看關(guān)鍵詞的命中,來(lái)推送給你已經(jīng)預(yù)先設(shè)定好的答案。

操作流程其實(shí)可以簡(jiǎn)略地概括為:搜索——復(fù)制粘貼——給你回復(fù)。

這種連線游戲的結(jié)果其實(shí)只有兩種:要么命中關(guān)鍵詞,得到匹配的答案;要么沒有命中關(guān)鍵詞,只能告訴你“對(duì)不起,不知道”。

搜索引擎的邏輯下,智能客服的解題思路其實(shí)是“窮舉法”,我把每種可能性都列一遍,然后預(yù)設(shè)好答案,當(dāng)你命中了其中某種問法的時(shí)候,就把答案從資料庫(kù)里復(fù)制粘貼給你。

圖片

它的前提是事先付出大量人工對(duì)問法和答案進(jìn)行標(biāo)記,產(chǎn)品簡(jiǎn)單還好說,產(chǎn)品參數(shù)一旦復(fù)雜就會(huì)帶來(lái)天量的工作任務(wù)。更可怕的是,再大的工作量都還不一定管用。

拿芯片來(lái)說,我接觸過一家做芯片的專精特新小巨人公司艾為電子,旗下有近千款自主知識(shí)產(chǎn)權(quán)的芯片,光列在官網(wǎng)首頁(yè)的主要產(chǎn)品就有8個(gè)大類,32個(gè)子類,59個(gè)產(chǎn)品類型,每個(gè)產(chǎn)品類型下面還有幾個(gè)到幾十個(gè)不等的產(chǎn)品型號(hào),每個(gè)都顯示了至少11個(gè)主要參數(shù),這還只是展現(xiàn)在官網(wǎng)上的重點(diǎn)產(chǎn)品信息。

最可怕的是,芯片產(chǎn)品里的參數(shù)很多都是互相影響的。比如大家都知道芯片的使用肯定會(huì)有一個(gè)“電壓”參數(shù),一般標(biāo)出來(lái)的可能都是在標(biāo)準(zhǔn)溫度(比如室溫)下的經(jīng)典值,但實(shí)際上一個(gè)芯片可能在-40℃~85℃的溫度下都可以使用,只不過零下二十度和零上80度所需要的電壓值是不一樣的,溫度會(huì)影響實(shí)際要求。

圖片

艾為官網(wǎng)上的產(chǎn)品信息都標(biāo)示了溫度參數(shù)

而客戶來(lái)問的時(shí)候,甚至不會(huì)跟你說明確的多少溫度下行不行,他們更多是問的使用場(chǎng)景,比如他可能會(huì)說我把這個(gè)東西帶去北極的話,它多少電壓夠用?或者我把這個(gè)東西丟進(jìn)鍋里煮的時(shí)候要多少電壓?

這種問題雖然不是特別難,但是卻完全沒辦法以窮舉法的思路解決,也沒辦法提前標(biāo)記出來(lái)。用搜索引擎式的“匹配”邏輯,顯然是怎么都解決不掉這類問題的。

而生成式AI的邏輯則完全不同,同樣是艾為電子這家公司,他們現(xiàn)在已經(jīng)通過釘釘AI PaaS,調(diào)用了大模型的能力,建起了一套AI智能客服系統(tǒng),解決掉了此前大量痛點(diǎn),而且看上去還挺“聰明”的。我把這個(gè)實(shí)踐案例列為目前國(guó)內(nèi)大模型應(yīng)用落地跑得最快的案例之一。

語(yǔ)言大模型的核心,是基于概率分布的單字接龍,它問答問題時(shí)是依據(jù)「學(xué)到的規(guī)律」,而不是搜索和匹配。

比方說,我給出一個(gè)“明”字,那它就可能生成“月”。而當(dāng)我給到它“明月”這個(gè)上文時(shí),它就有可能會(huì)生成“幾”;根據(jù)“明月幾”這個(gè)上文,它會(huì)生成“時(shí)”;直到最終我們得到一句“明月幾時(shí)有,把酒問青天”。

但“明”字后面不是只能接“月”字,也可能接“日”,那么接下去它就很可能通過“明日”這個(gè)上文單字接龍,并最終生成一句“明日復(fù)明日,明日何其多”。

即便一開始在“明”字后面接了“月”字,“明月”后面也不一定要接“幾”,也可能會(huì)是“出”,所以除了“明月幾時(shí)有,把酒問青天”,你也有可能得到“明月出天山,蒼茫云海間”。

那么大模型是如何在選擇生成“日”還是“月”,“幾”還是“出”的呢?

答案是根據(jù)概率。

根據(jù)《現(xiàn)代漢語(yǔ)常用字表》,中文里最常用的3500個(gè)漢字能夠覆蓋現(xiàn)代主流文本99.48%的篇幅。而大語(yǔ)言模型所做的,就是根據(jù)你給它的學(xué)習(xí)材料,計(jì)算這3500個(gè)字分別接在“上文”后面的概率,找出概率最高的那一個(gè)字,進(jìn)行單字接龍,然后不斷循環(huán),最終得出一個(gè)答案。

圖片

所以訓(xùn)練語(yǔ)料就顯得格外重要,它會(huì)影響模型總結(jié)的規(guī)律。如果你給它吃唐詩(shī)宋詞三百首,它會(huì)給你明月幾時(shí)有,明月出天山,明月別枝驚鵲。

但如果你給它吃的全是上市公司財(cái)報(bào)和財(cái)經(jīng)新聞,它可能會(huì)在“明”字后面接:“明天上午星海情報(bào)局將公布上半年財(cái)報(bào),預(yù)計(jì)盈利五毛錢人民幣”。至于我司有沒有賺五毛錢人民幣,咱也沒教過,它也不在乎。

這就是你問AI一些事實(shí)性內(nèi)容它經(jīng)常給你瞎編的原因:數(shù)據(jù)庫(kù)里搜索肯定是搜索不到,但你拿這玩意兒喂了它這么久,它覺得你就想要這個(gè)。

同理,如果你每天給它喂的都是小學(xué)生語(yǔ)錄,比起“明月幾時(shí)有”,它顯然更可能回答你“明天媽媽不在家,我在地里玩泥巴”。

圖片

訓(xùn)練大模型就像教鸚鵡說話,你通過不斷地喂給它資料,幫助它學(xué)習(xí)每一個(gè)字在各種情況下出現(xiàn)的概率。鸚鵡就會(huì)從你教它的話中提取出概率分布的通用規(guī)律,來(lái)判斷每一個(gè)字后面應(yīng)該接什么才最接近你想要的答案。每當(dāng)接近你想要的答案,你就獎(jiǎng)勵(lì)它一口食物,換在大模型上就是給它點(diǎn)一個(gè)贊,這樣來(lái)不斷加強(qiáng)它的準(zhǔn)確性。

一個(gè)已經(jīng)經(jīng)歷過基礎(chǔ)語(yǔ)言訓(xùn)練的大模型,比如釘釘?shù)讓拥耐x大模型,就像一個(gè)高三生。在其基礎(chǔ)上加強(qiáng)某一方面專業(yè)語(yǔ)料的供給,就相當(dāng)于給一個(gè)高三生選了不同的大學(xué)專業(yè),開始讓他讀不同的專業(yè)書籍。

如果喂給它的都是算法、程序,它就可能長(zhǎng)成知名的程序員;如果喂的都是農(nóng)牧知識(shí),它就能教你養(yǎng)豬;而艾為用產(chǎn)品手冊(cè)和產(chǎn)品結(jié)構(gòu)圖等大量專業(yè)資料喂進(jìn)去,并跟釘釘一起不斷調(diào)適、訓(xùn)練,就得到了一個(gè)效率極高的智能客服,可以7x24小時(shí)不間斷的回答你,如果想要把某個(gè)電子設(shè)備丟進(jìn)鍋里煮,那這個(gè)設(shè)備應(yīng)該用艾為的哪款芯片。

隨身攜帶一個(gè)王語(yǔ)嫣

和別人比武是什么體驗(yàn)?

八月份我曾經(jīng)寫過一篇《大逃殺里的中國(guó)AI大模型》,講的是大語(yǔ)言模型卷生卷死已經(jīng)卷到了后期,大家的重點(diǎn)正在從模型本身轉(zhuǎn)換到應(yīng)用之上。但問題是除了深耕AI行業(yè)的業(yè)界以外,絕大多數(shù)產(chǎn)業(yè)界人士對(duì)“大模型到底能幫自己做什么”還持有一種懷疑態(tài)度。

星海經(jīng)常去探廠,自從大模型火了之后,我在一線經(jīng)常碰到的問題就是:你覺得AI真的有用嗎?那玩意兒怎么用???

我一般會(huì)問他:哥們,你知道王語(yǔ)嫣嗎?

手機(jī)里有一個(gè)專有大模型的感覺,差不多就像隨身攜帶一個(gè)王語(yǔ)嫣和別人比武。

王語(yǔ)嫣解決的最大問題是什么?

是效率。

她和隨身的百科全書不一樣,百科全書是知識(shí)的記載,但別人一拳打過來(lái)你還是得在浩如煙海的武林秘籍里邊翻找邊思考,我到底是抬左手擋還是抬右手擋比較好?但王語(yǔ)嫣卻可以根據(jù)她高速運(yùn)轉(zhuǎn)的大腦和在模擬戰(zhàn)斗界豐富的經(jīng)驗(yàn)直接告訴你:伸左腳踹他膝蓋!

AI代替了你檢索信息、處理信息、并創(chuàng)造新的知識(shí)的過程。

當(dāng)大模型可以處理上千種芯片產(chǎn)品相關(guān)專業(yè)信息,并依照這些專業(yè)信息直接和客戶進(jìn)行問答的時(shí)候,與其說這是一個(gè)智能客服,還不如說這是艾為旗下一個(gè)熟知上千本產(chǎn)品手冊(cè)的專業(yè)員工,實(shí)際起到的作用更像是一個(gè)專家型顧問,以專業(yè)視角幫助客戶了解產(chǎn)品,快速準(zhǔn)確地回應(yīng)客戶的專業(yè)提問,并解決過程中的問題。

艾為原先的“客服”,很多都是有研發(fā)背景的技術(shù)人員,他們耗費(fèi)了大量的時(shí)間在做這些并沒有什么創(chuàng)造力的工作,即便是最專業(yè)的技術(shù)人員,也不可能把一千多款產(chǎn)品所有參數(shù)都記在腦子里,每次遇到問題的時(shí)候也要去重新查資料,然后思考,再進(jìn)行回答。

而通過釘釘?shù)腁I能力搭建現(xiàn)在的AI客服系統(tǒng),這些技術(shù)服務(wù)人員都被解放了出來(lái)。一方面他們可以將更多的時(shí)間花在解決一些現(xiàn)場(chǎng)更高難度的問題上,提高自己的競(jìng)爭(zhēng)力和薪資;另一方面,企業(yè)的效率也能得到提升。

攜帶一個(gè)王語(yǔ)嫣和攜帶一本普通百科全書的另一個(gè)區(qū)別是:被儲(chǔ)存起來(lái)的知識(shí),通常是沒有條理的,甚至有時(shí)可能出現(xiàn)重復(fù)或沖突。

四川有一家農(nóng)牧食品企業(yè)叫鐵騎力士,主營(yíng)業(yè)務(wù)涉及飼料、牧業(yè)、食品和生物工程等,是農(nóng)業(yè)產(chǎn)業(yè)化國(guó)家重點(diǎn)龍頭企業(yè),商務(wù)部第二批數(shù)字商務(wù)企業(yè),也是全國(guó)農(nóng)牧行業(yè)唯一掛牌的省級(jí)數(shù)字化轉(zhuǎn)型促進(jìn)中心。這家公司也在釘釘上做了基于大語(yǔ)言模型的生成式AI智能客服,日?;卮鹌煜吗B(yǎng)殖戶的各種奇怪問題,比如“豬拉肚子了怎么辦”。

同時(shí)它還把大模型的能力接入到公司的日常運(yùn)維中,做成了數(shù)字員工。他們認(rèn)為文檔是大模型目前最成熟的應(yīng)用領(lǐng)域,于是把集團(tuán)制度喂給AI學(xué)習(xí),AI很快幫公司發(fā)現(xiàn)了問題:集團(tuán)內(nèi)部不同部門現(xiàn)行的制度居然有打架的情況,比如某個(gè)指標(biāo)可能這個(gè)說是一,那個(gè)說要十,另一個(gè)又說十五才行。

這個(gè)集團(tuán)有150個(gè)子公司,一年要發(fā)五十多個(gè)制度,在AI介入之前,很多行政人員也只是負(fù)責(zé)本部門的內(nèi)容,對(duì)于其他部分的制度也搞不懂。AI介入之后很快把集團(tuán)組織內(nèi)部的很多問題檢查出來(lái),并且很快進(jìn)行了科學(xué)的統(tǒng)一,相當(dāng)于打破了組織墻和信息墻,實(shí)現(xiàn)了集團(tuán)制度的重新梳理和體系化。

大語(yǔ)言模型本身是不存儲(chǔ)數(shù)據(jù)內(nèi)容的,它也不具備搜索引擎的搜索能力。它所做的不是簡(jiǎn)單的儲(chǔ)存知識(shí),而是學(xué)習(xí)、梳理、再處理知識(shí),最終構(gòu)成一套完整的知識(shí)體系供你調(diào)用。它從實(shí)際上改變了人類對(duì)知識(shí)創(chuàng)造、繼承和應(yīng)用的體系。釘釘上正在發(fā)生的新一輪數(shù)字化和以往截然不同。

如何做安全的魔法百科全書

大模型的終點(diǎn)是產(chǎn)業(yè),這是已經(jīng)不必過多解釋的行業(yè)共識(shí)。但落入產(chǎn)業(yè)的過程還處于剛剛開始探索的階段,其中最受關(guān)注的一個(gè)問題,是數(shù)據(jù)安全。

還拿艾為來(lái)說,芯片本身就是一個(gè)專業(yè)性極強(qiáng)的領(lǐng)域,敏感信息很多。要把產(chǎn)品的圖紙、結(jié)構(gòu)、參數(shù)等等全部喂給大模型,首先要考慮的就是數(shù)據(jù)安全的問題。

ChatGPT爆火時(shí),亞馬遜的公司律師就曾稱,他們?cè)贑hatGPT生成的內(nèi)容中發(fā)現(xiàn)了與公司機(jī)密“非常相似”的文本,推測(cè)是因亞馬遜員工在使用ChatGPT生成代碼和文本時(shí),輸入了公司內(nèi)部的數(shù)據(jù)信息,而這些信息又被當(dāng)成答案提供給了新的提問人。

有大量科技公司包括學(xué)校等科研機(jī)構(gòu),因此開始限制甚至禁止員工使用ChatGPT和其他各類大語(yǔ)言模型。歐洲各國(guó)立法限制大模型使用也是出于相同考慮。

但市場(chǎng)不會(huì)因?yàn)槟硞€(gè)企業(yè)因安全禁用了大模型,而集體不用,這直接帶來(lái)的后果是,很多企業(yè)和機(jī)構(gòu)開始研究部署自己的大模型。但這又帶來(lái)了更多的問題。

首先,成本將會(huì)達(dá)到一個(gè)很多人瞠目結(jié)舌的高度。

比如上文提到的鐵騎力士就曾經(jīng)使用清華的開源大模型ChatGLM嘗試過本地部署。他們?cè)谶@個(gè)項(xiàng)目花了20萬(wàn)買AI服務(wù)器,然后配了三個(gè)人左右來(lái)專門訓(xùn)練自己的AI,人力成本每年大概也要幾十萬(wàn)。但這樣一套系統(tǒng)雖然訓(xùn)練調(diào)試后效果很好,卻只能支持10個(gè)人同時(shí)在線,而如果要支持100個(gè)人在線,至少要200萬(wàn)元左右的服務(wù)器成本。但對(duì)于企業(yè)來(lái)說,這個(gè)投入是否能夠得到收益還是一個(gè)未知數(shù)。

相對(duì)來(lái)說,你就很容易理解他們?yōu)槭裁醋詈筮x擇了釘釘來(lái)做這套系統(tǒng)。

首先,釘釘?shù)哪J绞窃诖竽P椭洗罱艘粋€(gè)工程層——AI PaaS,它雖然調(diào)用底層大模型的能力,但是不會(huì)將各個(gè)企業(yè)的數(shù)據(jù)喂給底層的大模型。

以游戲來(lái)作比,就是這里產(chǎn)生了劇情分叉,開啟了多元宇宙,A宇宙的大模型去了艾為做智能客服;B宇宙的去了鐵騎力士教人養(yǎng)豬;C宇宙的可能在幫某公司造汽車,D宇宙的在給人蓋房子。但它們互相之間不會(huì)影響,也無(wú)法獲知彼此的數(shù)據(jù)。

同時(shí),這類大模型平臺(tái),如果收費(fèi),大多數(shù)會(huì)是通過調(diào)用接口的方式來(lái)做,就是用多少給多少錢。對(duì)于企業(yè)來(lái)說,這種模式比起現(xiàn)場(chǎng)部署,自購(gòu)服務(wù)器的重資產(chǎn)模式,要明顯靈活得多,沉沒成本可控,一旦效益沒有達(dá)到預(yù)期,也可以迅速抽身,試錯(cuò)成本更低。

我在《大逃殺里的中國(guó)AI大模型》一文曾說,大模型本身不是目的,幫助生產(chǎn)力效率的提升,進(jìn)而實(shí)現(xiàn)產(chǎn)業(yè)的發(fā)展和崛起才是目的。中國(guó)目前有超過120個(gè)大模型在卷,但真正落地應(yīng)用,已經(jīng)開始賦能產(chǎn)業(yè)的并不多。

釘釘在這方面率先做出了一些成果,其實(shí)是一件不算意外的事情。首先中國(guó)有大量中小企業(yè),而這些公司大多數(shù)沒有資金實(shí)力和技術(shù)能力自己部署大模型,借助企業(yè)服務(wù)平臺(tái)和工業(yè)互聯(lián)網(wǎng)的力量,是他們必然的選擇。

其次,釘釘本身就是殺手級(jí)的企業(yè)服務(wù)平臺(tái),有很多公司本來(lái)數(shù)據(jù)就沉淀在自己的釘釘里,依托這個(gè)體系接入大模型的能力,實(shí)現(xiàn)企業(yè)內(nèi)部AGI,是最方便的。IM和群聊又是企業(yè)辦公和業(yè)務(wù)中最高頻的場(chǎng)景,沒有IM的大模型在這方面就有明顯的短板,比如我利用你的大模型做了一個(gè)智能客服,但是有問題解決不掉的時(shí)候,你只能給我發(fā)短信,這就尷尬了。

而在釘釘,所有信息和數(shù)據(jù)都是可以直接打通的,有問題推送一個(gè)消息過來(lái)就好了,想建個(gè)日程也可以讓AI自動(dòng)完成,直接就出現(xiàn)在日程表里了。這種學(xué)習(xí)成本對(duì)內(nèi)對(duì)外都明顯更低,推廣起來(lái)十分方便,不需要再額外下App或者去重新登錄網(wǎng)頁(yè)。

結(jié)語(yǔ)

人類自身是一個(gè)相當(dāng)脆弱的物種,跑不過馬,打不過熊,嗅覺不如狗,視力不如鷹,我們?cè)谏硪饬x上的缺陷如此明顯,能夠在眾多高等動(dòng)物中脫穎而出的,就是基于語(yǔ)言文字對(duì)知識(shí)的記載與傳承,以及對(duì)工具的使用。

大模型很強(qiáng)大,但它依然是一個(gè)工具。王語(yǔ)嫣即便熟知所有武學(xué),但還是不會(huì)武功,要親身和這個(gè)世界戰(zhàn)斗,在這個(gè)世界行走的還是人類。而工具無(wú)法取代人,只有會(huì)用工具的人,取代不會(huì)工具的人。

大模型卷生卷死,但無(wú)法落地都是空中樓閣。以釘釘為首的企業(yè)推動(dòng)下,中國(guó)產(chǎn)業(yè)界正在逐漸實(shí)現(xiàn)一場(chǎng)關(guān)于了解大模型,應(yīng)用大模型,讓大模型實(shí)實(shí)在在落地到各行各業(yè)的AI變革。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱