ChatGPT爆火之后，AIGC往何處去？

峰瑞資本·2023-03-10

關(guān)注

知乎

北京文化娛樂

高質(zhì)量知識問答社交網(wǎng)站

最近融資：二次上市|8.34億港元|2011-06-08

我要聯(lián)系

為什么AIGC不會是短期風(fēng)口？

編者按：本文來自微信公眾號峰瑞資本（ID：freesvc），作者：陳石，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

“ChatGPT”可能是從2022年底至今，最為出圈的科技熱詞之一。GPT是Generative Pre-trained Transformer的縮寫，表示生成型預(yù)訓(xùn)練變換模型。這個由OpenAI研發(fā)的語言模型激起了人們對AI技術(shù)新一輪的熱情。人們與ChatGPT暢談古今，請它翻譯文本、編代碼、寫文章。（p.s.猜猜看，這篇文章是不是ChatGPT寫的？）

爆火背后，我們試圖對ChatGPT有更多理解。如果說以ChatGPT為代表的AIGC（AI-generated content，AI生產(chǎn)內(nèi)容）本質(zhì)上是技術(shù)革命，那么，脫離了對技術(shù)的認(rèn)知來討論這個議題，難免會出現(xiàn)偏差。

在這篇報告，我們會先梳理ChatGPT發(fā)展的歷史沿革：它從哪里來，到底是什么技術(shù)在驅(qū)動它向前。我們的思考也會圍繞人們對它的討論而展開：它能火多久，有機會成為“人類大腦”或通用人工智能（AGI）嗎？同樣重要地，我們會把落點放在創(chuàng)投行業(yè)，來探討與AIGC相關(guān)的創(chuàng)業(yè)及投資機會。

歡迎閱讀，希望能帶來新的思考角度。如果你對AIGC話題感興趣，或者在相關(guān)方向創(chuàng)業(yè)，期待你與本文作者，峰瑞投資合伙人陳石聯(lián)系（chenshi@freesvc.com）。

AI眼中，人類與機器人交流的畫面（圖片來源：文心一格）

/ 01 / 火爆了的ChatGPT，到底是什么？

▍ChatGPT的本源——語言模型

ChatGPT其實是一種語言模型。依據(jù)OpenAI官方的介紹，ChatGPT已具備理解和生成人類語言文本的能力，可以跟人類輕松對話。

圖片來源：OpenAI官網(wǎng)

人類的語言非常復(fù)雜，而比語言更復(fù)雜的，是創(chuàng)造語言的思維。人們曾經(jīng)試圖給語言建模，但是一直沒有取得顯著性的成功。而ChatGPT則為語言建模打開了新的窗口，這也是它的誕生轟動全球的原因之一。

Wikipedia對語言模型的定義是：“單詞序列的概率分布，給定任何長度為m的單詞序列，語言模型通過對語言的文本語料庫進行訓(xùn)練，來生成概率分布”。斯坦福的公開課說得更為直接：“語言模型就是用來預(yù)測下一個出現(xiàn)的詞的概率”。（斯坦福的定義概括了GPT的核心原理，而不是BERT類語言模型的原理?；蛟S這能從側(cè)面反映，人們已將GPT采用的技術(shù)路線，視為主流語言模型路線。）

GPT系列的語言模型，其主要目標(biāo)是預(yù)測下一個單詞。比如，前半句是“the students opened their”，語言模型要預(yù)測的是下一個單詞出現(xiàn)“books”或者“l(fā)aptops”或者“exams”等詞匯的概率分別是多少。語言模型的技術(shù)原理雖然簡單，但是卻衍生出了ChatGPT這樣智能、有復(fù)雜應(yīng)用場景的產(chǎn)品。

▍ChatGPT可能是當(dāng)前最成功的大型語言模型，我們正在經(jīng)歷iPhone Moment

ChatGPT可能是目前最成功的語言模型，人們把當(dāng)下這個ChatGPT誕生的時刻稱為“iPhone moment”。

GPT是Generative Pre-trained Transformer 的縮寫。Transformer神經(jīng)網(wǎng)絡(luò)算法是當(dāng)前最新的一種算法模型，我們會在下文展開。GPT系列模型都是語言模型，是新型神經(jīng)網(wǎng)絡(luò)算法、新型模型訓(xùn)練方式加上海量數(shù)據(jù)算力多重因素疊加產(chǎn)出的成果。

GPT模型有幾個主干版本，從 GPT-1、GPT-2、GPT-3演進到最新的GPT-3.5版本。

當(dāng)下人們使用的ChatGPT是在3.5版本的基礎(chǔ)上，專門針對人類需求做了大量微調(diào)，引導(dǎo)模型輸出更符合人類需求的結(jié)果。這讓GPT模型逐漸“社會化”，變得更像人。經(jīng)過微調(diào)的ChatGPT“情商”變高了，不再只是個話癆，也不再那么口無遮攔。

▍ChatGPT的誕生過程

圖片來源：微信公眾號@AI語者

在ChatGPT問世之前，GPT模型經(jīng)歷了怎樣的發(fā)展歷程？

2017年6月，Google發(fā)布Transformer這一神經(jīng)網(wǎng)絡(luò)算法模型，它為大型語言模型的發(fā)展奠定了基礎(chǔ)。

一年之后，OpenAI公司推出了GPT-1，GPT-1采用語言模型預(yù)訓(xùn)練+微調(diào)訓(xùn)練兩階段的訓(xùn)練方法，在問答和常識推理、語義相似度、分類等任務(wù)中，取得了還不錯的語言任務(wù)執(zhí)行效果。

2018年10月，Google推出另一個語言模型——BERT，效果超過GPT-1。

圖片來源：知乎@雅正沖蛋

GPT和BERT都是基于Transformer衍生出的算法，但在技術(shù)路線上各有側(cè)重。GPT基于 Transformer 右邊部分，叫解碼器。BERT基于 Transformer 的左邊部分，叫編碼器。

GPT的技術(shù)原理是預(yù)測下一個詞，你可以看作是“文字接龍”，你寫出前面的句子，由GPT來猜下一個詞。但BERT更像是“完形填空”，其技術(shù)原理是把一句話中某個詞給遮擋住，然后請BERT來猜。

解碼器擅長創(chuàng)作，編碼器擅長理解，當(dāng)時它們要做的更多是屏蔽語言模型（Masked LM，類似“完形填空”）、相鄰句子判斷（Next Sentence Prediction，判斷句子是否能相連）這類偏閱讀理解的任務(wù)，因此BERT占了上風(fēng)。

2019年，GPT-2發(fā)布，它采用15億個參數(shù)的Transformer解碼器，在當(dāng)時是個比較大的模型。相比BERT，OpenAI研究人員發(fā)現(xiàn)，GPT-2預(yù)訓(xùn)練的語言模型無需微調(diào)訓(xùn)練，可直接執(zhí)行多種下游任務(wù)。這個發(fā)現(xiàn)堅定了研究人員沿著現(xiàn)有技術(shù)路線，繼續(xù)研發(fā)的決心。

2020年5月，GPT-3誕生，它采用了史無前例的1750億參數(shù)的Transformer解碼器，用了接近5000億單詞的文本訓(xùn)練數(shù)據(jù)。整個訓(xùn)練過程可以說是“大力出奇跡”，讓GPT-3在文字生成方面實現(xiàn)質(zhì)的飛躍。GPT-3除了可以出色完成文字生成、翻譯、問答和文本填空等語言類任務(wù)外，還“涌現(xiàn)”出了其他一些智能，包括上下文學(xué)習(xí)，以及更強大的零樣本和少樣本執(zhí)行任務(wù)的能力，等等。

GPT-3生成的文本質(zhì)量非常高，有時候人們甚至難以區(qū)分文本到底是人類寫的，還是GPT-3生成的。

基于GPT-3，已經(jīng)衍生出很多應(yīng)用，人們用GPT-3來創(chuàng)作各種類型的文本。有人用它寫了一篇新聞，被某熱門新聞點評網(wǎng)站排到頭部。一家名為Jasper的公司利用GPT-3為企業(yè)提供商業(yè)文本寫作服務(wù)，2022年其收入達到9000萬美元左右。

GPT-3之后，OpenAI通過增加程序代碼訓(xùn)練和人類反饋強化學(xué)習(xí)等多種訓(xùn)練手段，并將主版本升級到GPT-3.5。最終，2022年11月，ChatGPT橫空出世。

▍訓(xùn)練GPT-3模型的三“大”要素：算法、數(shù)據(jù)、算力

我們稱GPT-3為大模型，這個“大”體現(xiàn)在哪些地方？

首先是算法。GPT-3采用的是Transformer的解碼器，具有1750億個參數(shù)和2048個Token（可簡單理解為單詞，下同）的訓(xùn)練文本長度。

圖片來源：OpenAI團隊論文

《Language Models are Few-Shot Learners》

第二是數(shù)據(jù)。上圖是GPT-3的訓(xùn)練數(shù)據(jù)，總共接近5000億個token的文本，主要包括Common Crawl、Webtext2、Books1、Book2、Wikipedia等等。其中占比最大的訓(xùn)練數(shù)據(jù)是Common Crawl，它是一個開源的數(shù)據(jù)集，抓取并保存了全球大量網(wǎng)頁的數(shù)據(jù)。

第三是算力。據(jù)微軟發(fā)布的信息， OpenAI 使用一臺全球排名前5的超級計算機系統(tǒng)來訓(xùn)練GPT-3，該系統(tǒng)擁有超過28.5萬個CPU核心，1萬個GPU和每秒400G的網(wǎng)絡(luò)。據(jù)悉其訓(xùn)練成本約為1200萬美元。

/ 02 / 人們?nèi)绾慰创鼵hatGPT？

ChatGPT誕生以來，引發(fā)的討論非常多。那么說回來，人們?nèi)绾慰创@個新事物，對它又有什么期待？雖然眾說紛紜，有3個議題是被頻繁提到的。

▍人們肯定ChatGPT是一個稱職的語言模型

首先，ChatGPT是迄今為止最成功的人類語言模型，已經(jīng)具備形式語言能力（洞悉語言的規(guī)則模式等知識）。

ChatGPT具備理解和生成人類語言文本的能力，可跟人類輕松對話。它用數(shù)據(jù)驅(qū)動的大型神經(jīng)網(wǎng)絡(luò)的計算方式，某種程度上解碼了人類語言的內(nèi)部規(guī)律。這個內(nèi)部規(guī)律不是某種公式，而是一個神秘、暫不被人類理解的權(quán)重參數(shù)矩陣。

以前，人們認(rèn)為算法模型如果僅靠輸入文本，很難獲取關(guān)于語言的知識。但如今，ChatGPT可以從文本中直接學(xué)習(xí)語言的層次結(jié)構(gòu)和抽象類別等，這是一種無監(jiān)督學(xué)習(xí)的能力。

此外，ChatGPT也不只是個話癆。它可以寫作文、創(chuàng)作詩歌、撰寫商業(yè)文本、翻譯、做閱讀理解、代碼理解和生成等?？梢哉f，作為一個語言模型，ChatGPT已經(jīng)比較稱職。

▍人們期待ChatGPT具有思維能力

人們對ChatGPT的期望不僅僅是語言模型，人們甚至期待ChatGPT成為一個思維機器，發(fā)展出功能語言能力（用語言思考和做事的能力）。

ChatGPT“涌現(xiàn)”出一些智能，包括上下文學(xué)習(xí)（理解和學(xué)習(xí)人類對話輸入文字的能力）、世界知識抽象（例如事實性知識和常識）、執(zhí)行泛化任務(wù)（包括沒有做過的新任務(wù)）、復(fù)雜推理等。然而，當(dāng)前ChatGPT的這些功能都還不算強大，出錯甚至崩潰時有發(fā)生。

當(dāng)前，人們在思維機器方向的探索有很多，例如有一種借助思維鏈（Chain of Thought）的方法，試圖引導(dǎo)或者優(yōu)化語言模型展現(xiàn)出復(fù)雜的推理能力。這些研究方向的進展仍在持續(xù)。

上圖展示的是，一位科研人員在跟ChatGPT的對話中，通過分步驟提示引導(dǎo)的示例訓(xùn)練（引導(dǎo)過程未展示），使ChatGPT展現(xiàn)出分步驟思考和計算的能力。據(jù)分析，ChatGPT的這個能力來自GPT-3.5模型本身，思維鏈訓(xùn)練方法只是讓它意識到應(yīng)該用這種方式來思考和回答問題。整個過程有點類似老師輔導(dǎo)學(xué)生做題。

雖然這道題對于10歲的孩子來說很容易，但對語言模型來說卻很難，主要是由于數(shù)學(xué)和語言混合在一起。這類問題只是開始，當(dāng)前思維鏈的前沿科研工作已經(jīng)轉(zhuǎn)向更有難度的問題，例如高中、大學(xué)，甚至是國際數(shù)學(xué)奧林匹克問題。

加利福尼亞大學(xué)洛杉磯分校(UCLA)近期的一篇論文發(fā)現(xiàn)，ChatGPT似乎展現(xiàn)出了類比推理的能力。

什么叫類比推理？推理分三種，包含演繹、歸納、類比?！邦惐韧评硗ǔ１灰暈槿祟惓橄蠛透爬芰Φ牡湫湍芰?。在廣泛的問題類型中，ChatGPT達到或者超越人類水平...顯示出這種零樣本類比推理的能力。”

然而，ChatGPT的推理能力因其對世界缺乏物理理解而受限，因為它僅僅依靠文本輸入，缺少視覺（圖像和視頻）、聲音、嗅覺等多模態(tài)數(shù)據(jù)輸入。文本對世界的物理描述是有限的，比如你很難通過文字描述清楚一間屋子里不同物品的位置具體，相反，看一張關(guān)于這間屋子的圖片，物品的位置信息就一目了然。

聽說GPT-4將于2023年發(fā)布，屆時會加入視覺等多模態(tài)數(shù)據(jù)輸入，這將有望進一步提升它的智能。

▍對于ChatGPT能否成為“人類大腦”或通用人工智能，人們持有巨大爭議

目前，針對ChatGPT是否能夠變成“人類大腦”或者通用人工智能（AGI），爭議還非常大。Yan Lecun是深度學(xué)習(xí)的三巨頭之一，他也是Meta（原Facebook）公司的首席AI科學(xué)家。他認(rèn)為機器和人類不一樣，人類會在心智里面構(gòu)建一個虛擬世界，進行推理和模擬，這點目前機器做不到。

著名語言學(xué)家喬姆斯基在2019年的一次采訪中提到，深度學(xué)習(xí)更偏工程，有點像推土機，可以使用，但它沒有能力告訴你人類語言的任何事情。（注：ChatGPT這類語言模型可以輸出很精彩的文本，但是我們沒有確鑿證據(jù)證明它真正掌握了語言的規(guī)律，當(dāng)然也有可能是它掌握了規(guī)律，但人類無法理解。）

Kyle Mahowald等學(xué)者認(rèn)為，“擅長語言” 未必 “擅長思考”。雖然人類的語言和思想是不可分離的，但專?處理語言的人腦區(qū)域，與負(fù)責(zé)記憶、推理和社交技能的人腦區(qū)域是分開的。因此不應(yīng)該對語言模型有過多期望。

Kyle Mahowald提到了一個GPT-3沒能理解的失敗案例：怎么把沙發(fā)放到你家屋頂上。

就像我們在上文提到的，屋頂、沙發(fā)、起重機等更偏世界的物理知識，對于人類來說，很容易就想到用各種辦法把沙發(fā)放到屋頂上去，但你很難讓ChatGPT理解這樣的操作思路。這個例子也說明世界物理知識的輸入，特別是視覺等多模態(tài)數(shù)據(jù)輸入的重要性。

/ 03 / 背后的技術(shù)和發(fā)現(xiàn)很精彩，也還有很多發(fā)展空間

講完ChatGPT究竟是什么，我們再來講一下背后的技術(shù)。

我們在上文提到，ChatGPT相當(dāng)于用“文字接龍”這樣簡單的技術(shù)原理來訓(xùn)練和使用語言模型，從而實現(xiàn)跟人類的高質(zhì)量智能文本對話。這個技術(shù)原理，理論上是有升級和改善機會的，從而可能達到更好的效果。

在神經(jīng)網(wǎng)絡(luò)參數(shù)量方面，業(yè)界有人認(rèn)為有優(yōu)化空間，例如是否可以用參數(shù)量較小的模型達到同等效果。2048個token文本輸入窗口的設(shè)計及計算機制，也可能有優(yōu)化空間。例如當(dāng)前有人試圖讓ChatGPT寫推理小說，但推理小說里面的推理線索往往不易察覺且距離較遠(yuǎn)（例如好幾個章節(jié)之前的一個小線索），這個距離遠(yuǎn)遠(yuǎn)超出2048個token文本的窗口，如何把當(dāng)前窗口之外的知識信息容納進來，也存在優(yōu)化可能。

整體而言，作為底層算法模型的Transformer在2017年6月才誕生，現(xiàn)在還處在發(fā)展早期，在快速迭代和改進完善之中，應(yīng)該還有很多發(fā)展空間。

此外，前面提到的多模態(tài)數(shù)據(jù)輸入，會給GPT-4帶來什么樣的能力涌現(xiàn)和性能提升，也是業(yè)內(nèi)人士和群眾翹首以待的。

▍人類可以從ChatGPT中學(xué)到什么關(guān)于語言的規(guī)律？

在對人類語言的探索上，ChatGPT比以往的任何產(chǎn)品都走得更遠(yuǎn)更深。我們?nèi)祟惪梢詮腃hatGPT身上學(xué)到什么？

Stephen wolfram這名科學(xué)家認(rèn)為，人類語言可能沒那么復(fù)雜，只是因為我們?nèi)祟悰]有能力理解和掌握其背后的規(guī)律；而ChatGPT用基于神經(jīng)網(wǎng)絡(luò)的算法，成功解碼了人類語言的本質(zhì)。

據(jù)OpenAI公開的GPT-2的論文，GPT-2的訓(xùn)練數(shù)據(jù)是純英語文本（做了非英語文本過濾）。即便如此，它還是顯示出一些多語言能力，并且展現(xiàn)出非常出色的法英互譯能力，盡管只是接受了10MB左右殘留的法語文本訓(xùn)練數(shù)據(jù)。

這個現(xiàn)象引發(fā)了人們的思考，當(dāng)前人類在語言學(xué)習(xí)方面花費大量的時間和精力，這個學(xué)習(xí)效率是不是有提升的空間？我們能不能向語言模型學(xué)習(xí)，更加有效率地學(xué)習(xí)人類語言？

ChatGPT在生成文本時，是每次選擇一個詞，這個詞是在語言模型給出的概率表中做出的選擇。當(dāng)前科研人員的發(fā)現(xiàn)是，如果每次都選擇概率最高的詞匯，理論上是最優(yōu)解，最后呈現(xiàn)卻往往是一篇非常普通的文章；如果不是每次選擇最優(yōu)解，例如隨機選擇排名稍微靠后一點的，卻有更大機會生成一篇精彩文章。這也是個有意思的未解之謎。

以前，我們可能認(rèn)為創(chuàng)作一篇散文或者一首詩，背后是人類精心的構(gòu)思和創(chuàng)造。但對于AI而言，創(chuàng)作意味著概率和選擇，我們認(rèn)為的精彩文章創(chuàng)作原來只是AI枯燥的選擇過程而已。由ChatGPT反觀，可能人類對語言本身的奧秘還知之甚少。

▍語言特征空間的單詞分布

GPT把文字向量化了，建立了語言的高維特征空間，也稱為隱含空間（Latent Space）。

GPT-2中每個詞是一個768維的向量，GPT-3中每個詞則是12288維的向量。每一個維度代表著一個屬性，相當(dāng)于GPT-3用1萬多種屬性，來描述人類語言中的詞匯特征。

Stephen wolfram試圖打開人類語言的特征空間，來觀察其中的規(guī)律。他選擇規(guī)模較小的GPT-2的特征空間，把它映射到人類比較容易理解的二維空間，從中發(fā)現(xiàn)了許多有意思的現(xiàn)象。比如，crocodile鱷魚和 alligator短吻鱷離得很近，蘋果跟梨聚在一起，這個可能容易理解。有趣的是，詞匯之間的關(guān)系，還能從向量加減操作中反映出來，比如皇帝（King）的向量減去男人（man）的向量，再加上女人（woman）的向量，就變成了女皇（Queen）的向量。

另外，他還試圖在GPT-2的語言特征空間中，尋找每次生成一個句子的游走規(guī)律，我們能從上面這個圖片中，看到GPT-2是怎么在768維度的空間中游走并陸續(xù)做出下一個詞的選擇，但是很遺憾他還沒有找到其中的規(guī)律。雖然從高維映射到二維中丟失了很多信息，但是未來如果能結(jié)合多維空間中的向量，我們可能會發(fā)現(xiàn)更多關(guān)于語言的規(guī)律。

▍Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)及注意力機制

2017年6月，Google發(fā)表了非常著名的Transformer論文，論文標(biāo)題是《Attention is all you need》，意思是說你只需要注意力機制就足夠了。

圖片來源：知乎@雅正沖蛋

Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)的框圖如上，如前文所述，左邊部分是編碼器，右邊部分是解碼器。Google研發(fā)的BERT用的是編碼器，而OpenAI的GPT系列用的是解碼器。

在AI領(lǐng)域，有四大類神經(jīng)網(wǎng)絡(luò)算法，包括MLP、CNN、RNN、Transformer。MLP是多層感知器，CNN是卷積神經(jīng)網(wǎng)絡(luò)，RNN是循環(huán)神經(jīng)網(wǎng)絡(luò)。

Transformer是最新的算法模型。在一些場景中，它正在逐漸替代CNN和RNN。Transformer的特征提取能力比較強，擅長長序列處理、并行計算、多模態(tài)處理等。Transformer的注意力機制有點像人一樣，選擇性關(guān)注，因為資源有限，只會關(guān)注最重要的事情。

Transformer已經(jīng)被廣泛應(yīng)用在自然語言處理、計算機視覺以及生物科技等領(lǐng)域。生物科技行業(yè)用來預(yù)測蛋白質(zhì)三維形狀的Alpha Folder算法就是基于Transformer算法模型來做的。

▍哪個模塊是GPT-3儲存智能的地方？

GPT-3模型發(fā)布時，OpenAI團隊發(fā)布了論文《Language Models are Few-Shot Learners （語言模型是少樣本學(xué)習(xí)者）》。

上圖是GPT-3模型的框圖，它基本上跟Transformer 的右邊部分的解碼器是類似的。無論是預(yù)訓(xùn)練還是推理（做任務(wù)），都是從框圖的最底部輸入前面部分的文本（GPT-3模型最大的長度是2048個token），然后經(jīng)過12次運算，從Text prediction輸出下一個詞概率預(yù)測（Task Classifier是微調(diào)訓(xùn)練分支，在此不詳述）。

一個有意思的話題是，GPT-3用1750億個參數(shù)，去學(xué)習(xí)接近5000億單詞的文本，顯然它不是簡單地把3個單詞存在1個參數(shù)中去，而是大抵掌握了一些語言規(guī)律且抽象了某些知識和能力。那么，問題來了，這些規(guī)律、知識和能力到底存在哪些地方呢？

有學(xué)者認(rèn)為，1750億參數(shù)主要集中在框圖中的注意力處理層和前饋網(wǎng)絡(luò)層，前者的值是動態(tài)計算的（每輸入2048個token，就重新計算一次），它們是數(shù)據(jù)相關(guān)的動態(tài)權(quán)重，因為它們會根據(jù)數(shù)據(jù)動態(tài)變化。而前饋網(wǎng)絡(luò)層的權(quán)重是隨著訓(xùn)練過程而緩慢變化的，因此，有學(xué)者猜想在前饋網(wǎng)絡(luò)層中存儲著GPT發(fā)現(xiàn)的語言規(guī)律、知識和能力等，因為要經(jīng)過12次運算，運算次數(shù)越靠后存儲的信息越抽象。

Stephen wolfram把GPT-2的某個前饋網(wǎng)絡(luò)層存儲的768*768維度的權(quán)重參數(shù)矩陣提取出來，壓縮到64x64尺寸，就形成了如下一張神秘的圖像，代表著GPT-2總結(jié)的神秘的人類語言編碼規(guī)律及其他一些知識和能力的一部分。很好奇什么時候科學(xué)家可以逐步解密其中的部分內(nèi)容，相信對于人類提升自我能力有好處。

圖片來源：writings.stephenwolfram.com

/ 04 / 未來，ChatGPT能否進化出自我意識？

和AI相比，自我意識和自由意志可以算作是人類最后的堡壘。

但是有一種觀點認(rèn)為，人類其實沒有所謂的自由意志。人類有兩個自我，一種是體驗自我，另一種是陳述自我。體驗自我，負(fù)責(zé)相對“機械”地解讀信息、作出決策；陳述自我，則負(fù)責(zé)對體驗自我的決策進行解釋和表述，有時甚至?xí)摌?gòu)故事來“欺騙”我們自己。所謂的自由意志，不過是陳述型自我給自己編的一個故事而已。

一些科學(xué)家和學(xué)者認(rèn)為，理論上，我們可以構(gòu)造出一個自我模擬的自指機器（Self-referential Machine），讓它也具備兩套體系，一個負(fù)責(zé)執(zhí)行算法，另一個則專門負(fù)責(zé)對自我進行模擬（描述，或者可稱為在內(nèi)嵌虛擬世界中模擬自我）。這種機器會表現(xiàn)得就“像”一個具有自我意識的系統(tǒng)，以至于我們可以用這樣的系統(tǒng)來定義所謂的“自我意識”。

在古代歐洲，有一種傳說中的銜尾蛇，能夠自己吃自己，實現(xiàn)持續(xù)進化。后來，有人提出哥德爾機（ G?del Machine）的設(shè)想，認(rèn)為只要程序能夠模擬自身、改造自身，那么我們就可以將其稱為具有自我意識的。此外，還有Quine程序結(jié)構(gòu)、克萊因Kleene第二遞歸定理等也提出和支持了與之相似的假設(shè)。

圖片來源：維基百科

我們很難預(yù)料，未來機器是否能進化出自我意識。

/ 05 / 生成式AI領(lǐng)域的其他進展

需要指出，當(dāng)前討論的生成式AI，跟之前的分析式AI是有較大不同的。分析式AI的主要能力是分析，例如：數(shù)據(jù)分析、趨勢預(yù)測、商品推薦、圖像識別等，而生成式AI主要的能力是創(chuàng)造，例如：寫詩、繪畫、設(shè)計產(chǎn)品、編寫代碼等。

當(dāng)前除語言模型外，生成式AI領(lǐng)域的其他進展還包括圖像生成模型等等。未來，多模態(tài)（文本、圖、視頻等）對齊、融合、理解和生成等方向的進展，意義也非常重大。

關(guān)于圖像生成模型，不得不提的是擴散模型（Diffusion Model）。它主要解決通過文本生成圖像及其他媒體格式的難題，業(yè)內(nèi)知名的擴散模型包括：DALIE2、Stable Diffusion等。

圖片來源：Denoising Diffusion Probabilistic Models

/ 06 / 生成式AI相關(guān)的6點創(chuàng)業(yè)思考與建議

2022年，大語言模型爆發(fā)。據(jù)統(tǒng)計，2022年，平均每4天就有一個新的大語言模型問世。

生成式AI技術(shù)也在持續(xù)引發(fā)人們對一些知名的模型層平臺和應(yīng)用的訪問，數(shù)據(jù)增長很快，投資火熱。2019 年至2021年期間，流向生成式AI業(yè)務(wù)的資本增加了約130%，其中文本和寫作增長630%、圖像增長400%、數(shù)據(jù)增長 370% 、音頻/視頻增長350% 。

圖片來源：A16Z

上圖是投資公司A16Z總結(jié)的生成式AI的行業(yè)堆棧。底層深藍色的部分是基礎(chǔ)硬件和云平臺，中間藍色的部分是模型層，再往上淺藍色的部分是應(yīng)用層。

在應(yīng)用層，有的創(chuàng)業(yè)公司自身只做應(yīng)用，模型能力則是調(diào)用外部的；還有一類叫端到端的應(yīng)用模式，它會自己做模型，但一般不做大模型，或者在其他大模型基礎(chǔ)上微調(diào)出自己的模型。

在模型層，有開源模型和閉源模型。深藍色部分的Model hubs是用于模型存儲和訓(xùn)練的第三方平臺。

當(dāng)前應(yīng)用層的增長比較快，主要是由AI賦能的新型應(yīng)用案例所驅(qū)動，主要集中在圖像生成、文案寫作和代碼編寫，三個類別各自的年收入已超1億美元。

關(guān)于生成式AI的創(chuàng)業(yè)，我有6點思考和建議：

第一，目前，與AI相關(guān)的科研、工程、產(chǎn)品和商業(yè)化，都在同時快速迭代，變數(shù)很大。這個過程中，會出現(xiàn)不同的技術(shù)分支和業(yè)務(wù)路徑，如果選錯了技術(shù)分支和業(yè)務(wù)路徑，再掉頭就很麻煩。這就需要創(chuàng)業(yè)團隊既懂技術(shù)又懂業(yè)務(wù)，在創(chuàng)業(yè)初期努力做出正確選擇。

第二，對創(chuàng)業(yè)公司而言，從應(yīng)用層或者端到端的應(yīng)用層切入，可能是相對能降低風(fēng)險的做法。模型層有少量機會，但不一定適合大部分的創(chuàng)業(yè)者。

第三，應(yīng)用層在做商業(yè)模型設(shè)計的時候，要警惕模型層的邊界。

以Jasper公司為例。2020年在GPT-3模型基礎(chǔ)上，Jasper衍生出付費商業(yè)文本寫作的商業(yè)模式。到了2022年底，ChatGPT向用戶免費開放，給Jasper帶來較大的壓力。盡管OpenAI未必會以商業(yè)文本生成作為自己的主要商業(yè)模式，但它平等賦能了入場的其他競爭者。Jasper需要展現(xiàn)出有競爭力的技術(shù)積累與業(yè)務(wù)縱深，才能穩(wěn)住腳跟。

第四，把AI技術(shù)應(yīng)用到產(chǎn)業(yè)場景，可分為新模式和舊模式改造兩類方式。新模式是指創(chuàng)造之前沒有的全新的應(yīng)用場景，舊模式改造則指在現(xiàn)有產(chǎn)業(yè)場景里用AI技術(shù)來改造部分環(huán)節(jié)，或者團隊帶著深度行業(yè)認(rèn)知和新的AI技術(shù)在成熟的產(chǎn)業(yè)場景中創(chuàng)業(yè)。新模式和舊模式改造，都存在巨大的機會。

在峰瑞已投企業(yè)中，有好幾家企業(yè)在垂直產(chǎn)業(yè)的場景中做業(yè)務(wù)創(chuàng)新。比如線上心理咨詢平臺閣樓、短視頻及直播SAAS服務(wù)企業(yè)特看科技、線上健身私教平臺BodyPark，都在積極使用生成式AI來賦能自己的業(yè)務(wù)。

第五，AI還面臨科研知識快速溢出的問題，因此找到自己的壁壘很重要。創(chuàng)業(yè)公司一定要想清楚自己未來的壁壘在哪里，比如到底是數(shù)據(jù)壁壘、工程壁壘（例如模型微調(diào)）、場景壁壘，還是規(guī)模壁壘等等。在應(yīng)用層創(chuàng)業(yè)，僅依靠外部模型層提供的能力，是無法形成壁壘的。

第六，應(yīng)用層的創(chuàng)業(yè)，應(yīng)該是“技術(shù)為先、場景為重”。

“技術(shù)為先”，是指雖然通用AI技術(shù)未必是你的核心壁壘，但團隊一定要懂技術(shù)，才有能力思考如何更早更好地把技術(shù)應(yīng)用到合適的應(yīng)用場景里，做出好用的產(chǎn)品。

“場景為重”，意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場景，建立自己的商業(yè)模式，并在場景里形成自己的核心競爭力。

/ 07 / 生成式AI行業(yè)的未來格局展望和猜想

最后來聊聊對AI行業(yè)格局的未來展望和猜想。這個部分我參考了奇績創(chuàng)壇陸奇博士之前的一個思考框架。

▍以AI和大模型為中心的新IT

新的硅基硬件產(chǎn)業(yè)：硅基產(chǎn)業(yè)架構(gòu)和集合可能迎來新的發(fā)展機遇（例如：新的計算芯片及周邊技術(shù)和產(chǎn)業(yè)等）。

新的軟件和云服務(wù)體系：算力、模型和數(shù)據(jù)的云服務(wù)、基礎(chǔ)軟件、ML&Dev Ops、人機互助編程工具等。

▍新的基礎(chǔ)智能終端設(shè)備：智能傳感器、新型手機等

未來的智能終端會越來越智能，最近蘋果公司官宣支持Stable Diffusion圖像生成模型在iPad等終端上運行，也有工程師把經(jīng)過裁剪的Stable Diffusion應(yīng)用在iPhone上運行起來，可以預(yù)見以后我們的手機美顏和照片生成可以達到何等出神入化的境界。

此外，當(dāng)前的翻譯軟件技術(shù)，在語義理解方面還是比較淺，翻譯質(zhì)量差強人意。如果可以把類似ChatGPT這樣的語言模型能力嵌入到智能終端中去，隨著文本和語音的實時翻譯成為可能，跨語言交流將變得很方便，這對于提升人類之間的交流效率意義重大。

▍圍繞內(nèi)容創(chuàng)作展開的產(chǎn)業(yè)

文、圖、視頻、3D等各種媒體格式的AI內(nèi)容創(chuàng)作工具，是當(dāng)前可以看到創(chuàng)業(yè)機會較多的新產(chǎn)業(yè)。

以ChatGPT為代表的語言模型的文本生成技術(shù)，和以擴散模型為代表的圖像視頻多模態(tài)生成技術(shù)，可能會對內(nèi)容產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)的影響。從PGC到UGC，再到如今的AIGC，內(nèi)容領(lǐng)域會有更多新變化與新玩法。

從媒體行業(yè)發(fā)展情況來看，當(dāng)前頭部的內(nèi)容媒體平臺比如抖音快手B站是所謂的Web2.0平臺，普遍采用UGC方式為主來生產(chǎn)內(nèi)容，但是隨著AI生產(chǎn)內(nèi)容（AIGC）的出現(xiàn)，AI可以生成大量優(yōu)秀內(nèi)容，成本較低、效果精良，而且甚至不乏創(chuàng)意，這個情況下內(nèi)容媒體平臺和行業(yè)就有可能出現(xiàn)較大的變化。

▍圍繞語言模型展開的產(chǎn)業(yè)

在這個領(lǐng)域，新的機會可能包括：語言學(xué)習(xí)范式改變，重塑跨語言溝通方式，更友好的人機界面等。

其中特別值得一提的，是語言學(xué)習(xí)范式的改變。如前文所述，如果我們可以打開語言模型，從中尋找到語言學(xué)習(xí)的規(guī)律，說不定可以幫助我們更有效率地學(xué)習(xí)語言。事實上，OpenAI投資了一家韓國的英語學(xué)習(xí)APP叫Speak。從有限的公開信息來看，這家公司未來的產(chǎn)品是一個語言學(xué)習(xí)助手，或者叫做虛擬語言老師——借助語言模型的能力和發(fā)現(xiàn)的語言規(guī)律，去幫助人們更好地學(xué)習(xí)外語，而且成本極低。

跨語言溝通的技術(shù)目前還不成熟。如前面所說，如果我們能夠把語言模型加載到智能終端，可能會極大改進跨語言溝通的能力。

因為語言模型足夠強大，未來我們的人機界面，會采用更友好的自然語言人機界面，無論是跟APP對話還是跟智能硬件對話。

▍圍繞思維模型展開的產(chǎn)業(yè)

不妨?xí)诚胍幌?，更聰明的軟件（或機器人）、科研服務(wù)、 “知識工程”、“世界大腦”等。

當(dāng)前的軟件產(chǎn)業(yè)，即便有AI的加持，通用性和智能程度還是不盡如人意的，大多數(shù)情況下只能做一些特定的任務(wù)，只能成為人類的效率助手；隨著更加通用的AI能力出現(xiàn)，軟件也可以像人類一樣思考和做事，可以想象軟件就可以幫助人類承接較為完整的任務(wù)了。

如果AI可以發(fā)展出接近人類的思維能力，它也許可以成為人類科學(xué)家的科研助手，因為AI可以不知疲倦，且可廣泛使用。當(dāng)前，我們很難想象AI可以達到人類知名科學(xué)家的水平。打個比方，你讓它去證明下哥德巴赫猜想，應(yīng)該還是很不現(xiàn)實的。當(dāng)然也有其他可能，如前文所述，如果AI程序可以實現(xiàn)自我優(yōu)化，具備迭代自己的算法和技術(shù)的能力，相信它的智能會很快趕上來。

如果我們展開想象，就可以有更多的可能性。例如“知識工程”，如果把人類的知識建模，然后讓人類以某種方式可以調(diào)用或者學(xué)習(xí)，那么就不用經(jīng)過“痛苦”的學(xué)習(xí)過程?！笆澜绱竽X”，是指規(guī)模極大的思維模型，它可以幫助我們執(zhí)行各種重要的計算和思考。不過，如果真的發(fā)展到這個地步，可能離電影《黑客帝國》里邊的Matrix就不遠(yuǎn)了。

▍賦能人類，深入改變各行各業(yè)（特別是知識工作者）

語言是人類最主要的溝通方式，是知識和思維的主要載體；而深度思維是人類的高階能力，也是人類不同于其他物種的最重要的能力。如果AI掌握了這兩種能力，就基本具備了在某種程度上賦能或替代一部分人類知識工作者的可能。

類似于自動化生產(chǎn)制造設(shè)備賦能傳統(tǒng)工業(yè)，各類AI模型和應(yīng)用軟件也將有機會更好地賦能各行各業(yè)。但是不同于制造行業(yè)，大批量使用的軟件，其邊際使用成本是非常低的，而且它很聰明、善學(xué)習(xí)、會思考、會交流，應(yīng)該會有大量的應(yīng)用場景有待開發(fā)。這里邊有非常多的創(chuàng)業(yè)機會，也會給各行各業(yè)帶來新的發(fā)展動力。