五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

從DeepSeek聊到AGI,Lex Fridman這期播客值得一聽|投資筆記第208期

如何客觀地去看待DeepSeek目前的能力水平?

編者按:本文來自微信公眾號 紀(jì)源資本(ID:JiyuanCap),作者:紀(jì)源資本,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

一期長達5小時的播客,究竟誰在聽?MIT人工智能研究員、知名播客主持人及科技傳播者Lex Fridman的對談節(jié)目《Lex Fridman Podcast》近期推出了有關(guān)DeepSeek的一期內(nèi)容:

“DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate, and AI Megaclusters|Lex Fridman Podcast”。

截至3月7日,這一期節(jié)目在YouTube上獲得了178萬播放量和2.5萬like(點贊),對DeepSeek所代表的AI大模型革新的解讀,獲得了大量科技界、商界從業(yè)者的關(guān)注。

640.png

Lex Fridman是MIT人工智能研究員,生于俄羅斯,后移民美國,擁有計算機科學(xué)博士學(xué)位,研究方向為深度學(xué)習(xí)和自動駕駛。在他的播客中多次提到自己的老本行AI深度學(xué)習(xí)業(yè)的近況。

此前Lex Fridman大部分節(jié)目都只有一位嘉賓,本期節(jié)目卻邀請了兩位,分別是Dylan Patel和Nathan Lambert。Dylan Patel是半導(dǎo)體、GPU、CPU和通用AI硬件的知名研究分析公司SemiAnalysis的首席分析師,Nathan Lambert則是Allen人工智能研究所的研究科學(xué)家,自己也擁有一個以AI為主題的博客Interconnects。

那么,這期講述DeepSeek的為時5小時的播客,講了哪些要素?

我們特意請Deepseek自己總結(jié)了一下:

本期播客內(nèi)容本身非常技術(shù)化,涉及AI模型的架構(gòu)、訓(xùn)練成本、開源與閉源模型、地緣政治因素,以及半導(dǎo)體產(chǎn)業(yè)的現(xiàn)狀和未來。

播客中提到了DeepSeek推出的V3和R1模型,特別是R1作為推理模型的特點,比如能夠展示推理的思維鏈,而不僅僅是最終答案。這可能是技術(shù)上的一個亮點,因為它提高了模型的可解釋性。

接著,關(guān)于開源與閉源的討論,DeepSeek的開源策略被認為對行業(yè)有積極影響,可能迫使其他公司更加開放。同時提到了開源在AI發(fā)展中的作用,以及不同許可證對商業(yè)應(yīng)用的影響。

此外,播客還涉及AGI(通用人工智能)的時間表預(yù)測,以及不同專家對未來發(fā)展的看法。

最后,關(guān)于計算集群的建設(shè)和能源消耗的問題,討論了各大公司(如OpenAI、Meta)如何構(gòu)建大規(guī)模GPU集群,以及這些集群對電力基礎(chǔ)設(shè)施的挑戰(zhàn)。

其中的亮點部分集中在DeepSeek技術(shù)上的創(chuàng)新(如DeepSeek的推理模型)、開源策略的影響、地緣政治對技術(shù)發(fā)展的制約、半導(dǎo)體產(chǎn)業(yè)的競爭格局,以及AGI發(fā)展的前景和挑戰(zhàn)。同時還提到了一些具體技術(shù)細節(jié),如混合專家模型(MoE)、多頭潛在注意力(MLA)等,以及這些技術(shù)如何提升模型效率和性能。

展開來看的話,節(jié)目里提到了哪些重要信息?

首先,幾位嘉賓最先討論的問題是:DeepSeek與OpenAI目前的模型究竟區(qū)別在哪?而DeepSeek-V3與DeepSeek-R1兩款同宗同源的模型又相差幾何?

640--1.jpg

OpenAI所推出的o3-mini是OpenAI于2025年1月31日發(fā)布的推理模型,主要面向開發(fā)者,支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者消息等功能。DeepSeek-V3和DeepSeek-R1,其中后者近期在中國各行業(yè)中被廣泛采用。DeepSeek-R1與o3-mini,前者可能提供完整的推理思維鏈,而后者大多只提供推理摘要;前者是開源,后者并非開源。

為了方便理解,Nathan Lambert引入了概念“語言訓(xùn)練模型中的預(yù)訓(xùn)練和后訓(xùn)練”,OpenAI與DeepSeek的預(yù)訓(xùn)練都使用了大規(guī)?;ヂ?lián)網(wǎng)文本預(yù)訓(xùn)練方式,在后訓(xùn)練方面,DeepSeek的Base版本進行了兩種不同的后訓(xùn)練,得到了DeepSeek-V3推理模型。此后DeepSeek在此基礎(chǔ)上,又采用了新的推理訓(xùn)練方法,才得到了DeepSeek-R1模型。

R1的R代表Reasoning(推理),人們提問時,DeepSeek-V3會快速生成token,這些token會組合成易于理解的人類語言答案。而DeepSeek-R1在生成答案之前,會以token的形式快速解釋、分解問題。

640--3.jpg

第二,播客中也提到了一個重要概念:開源權(quán)重。“開源權(quán)重”是指語言模型的權(quán)重數(shù)據(jù)在互聯(lián)網(wǎng)上公開,供人下載。這些權(quán)重數(shù)據(jù)可能附帶不同的許可證,因為即使是相似的模型,也可能采用不同的許可條款。完全開源包括開源代碼、開源數(shù)據(jù)和開源權(quán)重,盡管DeepSeek并沒有開源前兩者,但已經(jīng)在引領(lǐng)整個行業(yè)走向開源路線了。Lex Fridman點評DeepSeek為“信息披露方面做得非常出色,技術(shù)報告質(zhì)量很高,內(nèi)容詳實,而非泛泛而談”。

第三,節(jié)目中還討論了一個備受關(guān)注的問題“以如今的AI模型的發(fā)展境況來看,它的最佳應(yīng)用場景會是什么”。

Nathan Lambert認為,早期的語言模型在數(shù)學(xué)和代碼能力方面表現(xiàn)較弱,需要聘請數(shù)學(xué)和編程專家來編寫高質(zhì)量的問答數(shù)據(jù),但如今AI模型在編寫高質(zhì)量的數(shù)學(xué)和代碼答案方面已經(jīng)超越了人類,而且它開始表現(xiàn)出類似人類的思考過程。它會披露諸如“讓我想想”“讓我檢查一下”“哦,這里可能有個錯誤”這些思考過程,這將使人類在推理模型訓(xùn)練中的作用進一步降低。

Dylan Patel提出了自己的觀點,數(shù)學(xué)方面可驗證的任務(wù)相對有限,但是在編程方面還有很大的提升空間。真正的“頓悟時刻”可能會出現(xiàn)在計算機使用或機器人技術(shù)領(lǐng)域。一旦AI模型將能夠完成更復(fù)雜的任務(wù),例如去某個眾包平臺完成任務(wù),并且以獲得大量點贊作為自己的正反饋模式,那么就相當(dāng)于一個能夠進行無數(shù)次試錯的機器,前途無量。

此外,如何客觀地去看待DeepSeek目前的能力水平?嘉賓們還小小地“八卦”了一下——通過和行業(yè)數(shù)據(jù)的對比,嘉賓們得出了以下結(jié)論:

1)人才配備:例如,節(jié)目中,三位科學(xué)家對于DeepSeek的人才配備稱贊不已,他們認為,為了實現(xiàn)超高效訓(xùn)練,DeepSeek能夠在NVIDIA芯片的CUDA層(Compute Unified Device Architecture,計算統(tǒng)一設(shè)備架構(gòu))或更底層進行了優(yōu)化,具備這種能力的人才是絕對頂尖人才,即使在美國的前沿實驗室也確實不多。

2)商業(yè)前景:DeepSeek的盈利能力不容小覷,GPU(圖形處理單元)的數(shù)量和計算能力決定了訓(xùn)練時間和成本,擁有更多GPU,就可以支撐更多企業(yè)客戶。DeepSeek在2021年就擁有10,000個GPU,Dylan Patel所在的機構(gòu)SemiAnalysis猜測,它所實際擁有的GPU數(shù)量可能接近50,000個。

3)成本:不僅實現(xiàn)了高產(chǎn)能,DeepSeek還真正做到了低成本。DeepSeek-R1的輸出token價格是大約2美元/每百萬個token,而OpenAI-o1是大約60美元/每百萬個token,差別巨大。

640--4.jpg

探討DeepSeek之余,幾位嘉賓無法掩飾對于創(chuàng)始人梁文鋒的喜愛。他們形容他為一個“像Elon Musk、黃仁勛式的人物,事必躬親,參與公司的方方面面”,Lex Fridman表示,自己最近剛請了一位中文翻譯,希望有機會能夠與梁文鋒對談。

節(jié)目里還提及了一個AI界非常著名的概念或方法論:YOLO,You Only Live Once(你只活一次)。在大規(guī)模訓(xùn)練前,研究人員需要反復(fù)試驗不同的模型架構(gòu)、超參數(shù)、專家模型配置等等,當(dāng)實驗積累到一定程度,他們會選擇一個最優(yōu)或最有潛力的配置,“拿出所有的資源,選擇認為最靠譜的配置,然后全力以赴,沖啊”的方式開始沖刺。

“YOLO運行”與all in異曲同工,背后都有拼盡全力賭一把的含義。對于科學(xué)家們來說,“賭一把”仍是他們難以避免的方法論。在三位大牛的對談中,談到了“YOLO運行”的兩類研究人員的不同偏好,一類人員重視方法論,會系統(tǒng)地探索整個搜索空間,分析不同配置的消融結(jié)果,力求找到最佳方案。而另一些研究人員則更依賴直覺,去感受YOLO運行的最佳時期。畢竟科學(xué)家也是人,三位主播最后打趣道,在很多情況下,運氣也是一種技能。

最后,一個被重點談?wù)摰脑掝}是:AGI(通用人工智能Artificial General Intelligence)時代何時會到來?

在很多AI公司的CEO宣稱AGI會在2027-2028年很快到來的時候,節(jié)目嘉賓們反而認為,AGI的到來會在2030年之后。他們的顧慮在于AGI的實際運營成本極其高昂,在經(jīng)濟上是不可行的。GPT-3級別的AI模型查詢的成本可能只有幾美分,但解決一個復(fù)雜的AGI問題的成本可能高達5到20美元,因此難以整合到每一次谷歌搜索中,也就很難在短期直接大規(guī)模部署,做不到人們理想中的“彈指一揮間”。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱