「DeepSeek二代」來襲！數(shù)學暴擊o3，英偉達開源LLM登頂

新智元·2025-07-21

基于Qwen2.5架構(gòu)，采用DeepSeek-R1-0528生成數(shù)據(jù)，英偉達推出的OpenReasoning-Nemotron模型，以超強推理能力突破數(shù)學、科學、代碼任務(wù)，在多個基準測試中創(chuàng)下新紀錄！數(shù)學上，更是超越了o3!

編者按：本文來自微信公眾號來源：新智元（ID：AI_era），編輯：KingHZ，創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

開源模型王座再次易主？

昨天，英偉達開源了OpenReasoning-Nemotron：

在多個基準測試中，同規(guī)模模型無敵，取得了SOTA得分
專為數(shù)學、科學、代碼定制
提供四種參數(shù)規(guī)模：1.5B、7B、14B和32B，可在本地100%運行。

不過，這些模型還是「國產(chǎn)血統(tǒng)」：

架構(gòu)基于Qwen2.5 ，SFT訓練使用的是DeepSeek-R1-0528生成的數(shù)據(jù)。

以后，推理模型也有了強基線模型。

一張圖總結(jié)要點：

數(shù)學基準，超越o3

這次在參數(shù)高達671B的滿血DeepSeek-R1-0528蒸餾，在5M的數(shù)學、代碼和科學推理軌跡上訓練。

這次的模型不僅僅進行token預(yù)測，還實現(xiàn)了真正的推理能力。

核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。

與之前OpenMath/Code/Science發(fā)布時的提示集相同，這次只是更新了用于生成答案的R1模型，但改進幅度巨大！

而作為「教師」模型，新的R1模型表現(xiàn)出色！

而且這次沒有進行任何在線強化學習，只進行了有監(jiān)督微調(diào)（SFT）。

未來應(yīng)該可以通過進一步優(yōu)化這些模型或使用更少的 token 獲得相似性能。

這些模型支持「重型」推理模式，可以「結(jié)合多個智能體的工作」。

為此，他們這次使用了AIMO-2論文中提出的GenSelect算法。

使用GenSelect@64，在多個數(shù)學基準測試中超越了OpenAI o3（高算力版）。

還有另一個令人驚訝的結(jié)果：這些模型只是針對數(shù)學問題訓練了GenSelect算法，但它竟然也泛化到了代碼任務(wù)上！

32B模型的LCB得分從70.2（pass@1）提升到75.3（GenSelect@16）。

需要注意的是，這里沒有使用強化學習（RL），但仍然觀察到從數(shù)學到代碼的強大泛化能力！

意外的現(xiàn)象

首先澄清一點，這是一次「研究性質(zhì)」模型發(fā)布，主要目標是驗證生成的新數(shù)據(jù)的價值，并探索僅通過監(jiān)督微調(diào)（SFT）能將性能推到何種程度。

這次僅針對數(shù)學、代碼和科學推理任務(wù)訓練了模型，沒有進行指令微調(diào)或強化學習人類反饋（RLHF）。

雖然這些模型在解決推理任務(wù)時表現(xiàn)優(yōu)異，但未經(jīng)進一步訓練，它們可能無法勝任多輪對話或作為通用助手。

在一系列具有挑戰(zhàn)性的推理基準測試中，模型表現(xiàn)出色。

7B、14B和32B模型在各自規(guī)模類別下的創(chuàng)下了多項最先進紀錄。

現(xiàn)在，在開發(fā)這些模型時,還發(fā)現(xiàn)了兩點有趣的事情。

（1）參數(shù)規(guī)模影響巨大。

1.5B模型，實際上并沒有特別出色。例如，OpenMath-Nemotron-1.5B（我們之前的數(shù)學模型發(fā)布）在 AIME25 上得分為 49.5，而這個新模型得分為 45.6。

但是，7B（或更大的模型）進步就非常顯著。OpenMath-7B 模型的得分為 61.2，而 OpenReasoning-7B 的得分則達到了 78.2！

因此，1.5B 模型的表現(xiàn)稍微下滑了，但 7B 模型在使用相同數(shù)據(jù)進行訓練后提高了近 20%。

研究人員猜測可能是因為在處理較長上下文生成時，1.5B模型可能不太一致。

之前的數(shù)據(jù)集僅包含16K輸出token，但這次擴展到了32K，而1.5B模型無法保持推理的一致性。

（2）模型學會了兩種不同的行為。

在之前的 OpenMath 發(fā)布中，英偉達研究團隊也使用了TIR數(shù)據(jù)來幫助模型學習使用Python。

由于沒有時間用新的R1重新生成這些數(shù)據(jù)，他們決定將一些舊的 TIR 數(shù)據(jù)混入當前的訓練集中，看看會發(fā)生什么。

他們原本期望：在訓練過程中，模型仍然能夠?qū)W習如何使用 Python，同時保留來自新 CoT 樣本的更好推理。

然而，事實并非如此——如果你使用TIR模式來評估OpenReasoning模型，你會發(fā)現(xiàn)它們與OpenMath模型基本相同，這比帶有CoT的新模型要差得多。

從某種角度來看，模型學會了兩種不同的行為：一種是使用工具，但推理較差；另一種是不使用工具，但推理很強，兩者之間沒有有效的過渡。非常有趣的是，是否可以通過在TIR模式下應(yīng)用在線強化學習（RL）來解決這個問題？

本地筆記可跑

如果筆記本電腦上運行，詳細信息如下：

模型鏈接：https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

體驗鏈接：https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

可以使用LM Studio免費運行它們：

下載適用于macOS、Windows或Linux的LM Studio
在搜索標簽頁，輸入「openreasoning」
安裝你想要的版本

如果使用ARM處理器，建議使用Bartowski的7B版本。

只要驍龍 X Elite + 32GB RAM，就可以加載量化后的14B模型，并在CPU上運行。

參考資料：

https://x.com/NVIDIAAIDev/status/1946281437935567011

https://huggingface.co/blog/nvidia/openreasoning-nemotron

https://x.com/josephpollack/status/1946486918696313257

https://x.com/igtmn/status/1946585046552658358

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

新智元

0

訂閱服務(wù)

特別推薦

睿獸分析
開店邦
友情合作

法律相關(guān)

版權(quán)聲明
協(xié)議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網(wǎng)絡(luò)文化經(jīng)營許可證（京網(wǎng)文[2018]2153-213號）

違法和不良信息舉報電話：010-53391121 舉報郵箱：db@cyzone.cn

京公網(wǎng)安備 11010502035114號

營業(yè)執(zhí)照出版物經(jīng)營許可證

反饋

聯(lián)系我們

推薦訂閱

五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

「DeepSeek二代」來襲！數(shù)學暴擊o3，英偉達開源LLM登頂