DeepSeek前腳發(fā)新論文，奧特曼立馬跟上：GPT-5就在幾個月后啊

量子位·2025-04-06

關注

接下來是o1和o4-mini

編者按：本文來自微信公眾號 “量子位”（ID:QbitAI），作者：金磊，創(chuàng)業(yè)邦經授權轉載。

有點意思。

這不DeepSeek前腳剛剛上新了一篇關于推理時Scaling Law的論文嘛，引得大家紛紛聯想是不是R2馬上要來了。

然鵝……奧特曼這邊卻發(fā)了一條“變卦”的消息：

計劃改變：我們可能在幾周之后先發(fā)布o3和o4-mini。

至于大家翹首以盼的GPT-5，奧特曼表示：

將在幾個月之后，而且效果會比我們最初設想的還要好。

至于原因，奧特曼也做出了解釋。

大概意思就是，順利整合所有內容比他們想象的要困難得多，希望確保有足夠的能力來支持預期的需求。

咱就是說啊，現在真的是DeepSeek這邊一有點聲響，OpenAI那邊就得有點動作來緊跟一下了。

DeepSeek新論文

在這個小插曲之后呢，我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由DeepSeek和清華大學共同提出。

這篇研究核心的亮點，就是提出了一個叫做SPCT方法（Self-Principled Critique Tuning）的方法——

首次提出通過在線強化學習（RL）優(yōu)化原則和批判生成，實現推理時擴展。

之所以要做這么一項研究，是因為之前大家用獎勵模型（Reward Model, RM）在RL中為大語言模型生成獎勵信號。

但現有的RM在通用領域卻表現出受限的情況，尤其是在面對復雜、多樣化任務的時候。

因此，就出現了兩個關鍵挑戰(zhàn)點。

一個是通用RM需要靈活性（支持單響應、多響應評分）和準確性（跨領域高質量獎勵）。

另一個則是現有RM（如標量RM、半標量RM）在推理時擴展性差，無法通過增加計算資源顯著提升性能。

為了解決這個問題，DeepSeek和清華大學團隊便提出了SPCT。

整體來看，這項研究主要包含三大核心技術點。

首先就是生成式獎勵模型（GRM）。

它采用點式生成獎勵模型（Pointwise GRM），通過生成文本形式的獎勵（如critiques）而非單一標量值，支持靈活輸入（單響應、多響應）和推理時擴展。

其中，C是生成的critique，fextract從中提取分數。

接下來，是關鍵的SPCT了。

主要是通過在線強化學習（RL）訓練GRM，使其能動態(tài)生成高質量的原則（principles）和批判（critiques），從而提升獎勵質量。

整體來看，SPCT是一個兩階段的過程，它們分別是：

拒絕式微調（Rejective Fine-Tuning）
：冷啟動階段，通過采樣和拒絕策略生成初始數據。
基于規(guī)則的在線RL
：使用規(guī)則化獎勵函數優(yōu)化原則和批判的生成，鼓勵模型區(qū)分最佳響應。

在此基礎上，便是第三個技術點，即推理時擴展技術。

先是通過多次采樣生成多樣化的原則和批判，投票聚合最終獎勵，擴展獎勵空間。

再訓練一個輔助模型過濾低質量采樣，進一步提升擴展效果。

基于上述的方法，團隊也對結果做了一波測試。

在Reward Bench、PPE、RMB等基準上，DeepSeek-GRM-27B顯著優(yōu)于基線方法（如LLM-as-a-Judge、標量RM），且通過推理時擴展（32次采樣）性能進一步提升（如Reward Bench準確率從86.0%提升至90.4%）。

總而言之，這篇研究證明了推理時擴展在通用RM中的有效性，性能超越訓練時擴展。

One More Thing

奧特曼發(fā)布“變卦”消息之外，還不忘給自己帶一波貨，稱有兩本他親自參與的書即將發(fā)布：

一本是Keach Hagey寫的關于奧特曼本人的書
一本是Ashlee Vance寫的關于OpenAI的書

論文地址：
https://arxiv.org/abs/2504.02495

參考鏈接：

[1]https://x.com/sama/status/1908167621624856998

[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[3]https://x.com/sama/status/1908163013192069460

本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表，版權歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉載請聯系原作者。如有任何疑問，請聯系editor@cyzone.cn。

量子位

0

訂閱服務

特別推薦

睿獸分析
開店邦
友情合作

法律相關

版權聲明
協議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網絡文化經營許可證（京網文[2018]2153-213號）

違法和不良信息舉報電話：010-53391121 舉報郵箱：db@cyzone.cn

京公網安備 11010502035114號

營業(yè)執(zhí)照出版物經營許可證

反饋

聯系我們

推薦訂閱