五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

「DeepSeek二代」來襲!數(shù)學暴擊o3,英偉達開源LLM登頂

基于Qwen2.5架構(gòu),采用DeepSeek-R1-0528生成數(shù)據(jù),英偉達推出的OpenReasoning-Nemotron模型,以超強推理能力突破數(shù)學、科學、代碼任務(wù),在多個基準測試中創(chuàng)下新紀錄!數(shù)學上,更是超越了o3!

編者按:本文來自微信公眾號 來源:新智元(ID:AI_era),編輯:KingHZ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

開源模型王座再次易主?

昨天,英偉達開源了OpenReasoning-Nemotron:

  • 在多個基準測試中,同規(guī)模模型無敵,取得了SOTA得分

  • 專為數(shù)學、科學、代碼定制

  • 提供四種參數(shù)規(guī)模:1.5B、7B、14B和32B,可在本地100%運行。

不過,這些模型還是「國產(chǎn)血統(tǒng)」:

架構(gòu)基于Qwen2.5 ,SFT訓練使用的是DeepSeek-R1-0528生成的數(shù)據(jù)。

以后,推理模型也有了強基線模型。

一張圖總結(jié)要點:

數(shù)學基準,超越o3

這次在參數(shù)高達671B的滿血DeepSeek-R1-0528蒸餾,在5M的數(shù)學、代碼和科學推理軌跡上訓練。

這次的模型不僅僅進行token預(yù)測,還實現(xiàn)了真正的推理能力。

核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。

與之前OpenMath/Code/Science發(fā)布時的提示集相同,這次只是更新了用于生成答案的R1模型,但改進幅度巨大!

而作為「教師」模型,新的R1模型表現(xiàn)出色!

而且這次沒有進行任何在線強化學習,只進行了有監(jiān)督微調(diào)(SFT)。

未來應(yīng)該可以通過進一步優(yōu)化這些模型或使用更少的 token 獲得相似性能。

這些模型支持「重型」推理模式,可以「結(jié)合多個智能體的工作」。

為此,他們這次使用了AIMO-2論文中提出的GenSelect算法。

使用GenSelect@64,在多個數(shù)學基準測試中超越了OpenAI o3(高算力版)。

還有另一個令人驚訝的結(jié)果:這些模型只是針對數(shù)學問題訓練了GenSelect算法,但它竟然也泛化到了代碼任務(wù)上!

32B模型的LCB得分從70.2(pass@1)提升到75.3(GenSelect@16)。

需要注意的是,這里沒有使用強化學習(RL),但仍然觀察到從數(shù)學到代碼的強大泛化能力!

意外的現(xiàn)象

首先澄清一點,這是一次「研究性質(zhì)」模型發(fā)布,主要目標是驗證生成的新數(shù)據(jù)的價值,并探索僅通過監(jiān)督微調(diào)(SFT)能將性能推到何種程度。

這次僅針對數(shù)學、代碼和科學推理任務(wù)訓練了模型,沒有進行指令微調(diào)或強化學習人類反饋(RLHF)。

雖然這些模型在解決推理任務(wù)時表現(xiàn)優(yōu)異,但未經(jīng)進一步訓練,它們可能無法勝任多輪對話或作為通用助手。

在一系列具有挑戰(zhàn)性的推理基準測試中,模型表現(xiàn)出色。

7B、14B和32B模型在各自規(guī)模類別下的創(chuàng)下了多項最先進紀錄。

現(xiàn)在,在開發(fā)這些模型時,還發(fā)現(xiàn)了兩點有趣的事情。

(1)參數(shù)規(guī)模影響巨大。

1.5B模型,實際上并沒有特別出色。例如,OpenMath-Nemotron-1.5B(我們之前的數(shù)學模型發(fā)布)在 AIME25 上得分為 49.5,而這個新模型得分為 45.6。

但是,7B(或更大的模型)進步就非常顯著。OpenMath-7B 模型的得分為 61.2,而 OpenReasoning-7B 的得分則達到了 78.2!

因此,1.5B 模型的表現(xiàn)稍微下滑了,但 7B 模型在使用相同數(shù)據(jù)進行訓練后提高了近 20%。

研究人員猜測可能是因為在處理較長上下文生成時,1.5B模型可能不太一致。

之前的數(shù)據(jù)集僅包含16K輸出token,但這次擴展到了32K,而1.5B模型無法保持推理的一致性。

(2)模型學會了兩種不同的行為。

在之前的 OpenMath 發(fā)布中,英偉達研究團隊也使用了TIR數(shù)據(jù)來幫助模型學習使用Python。

由于沒有時間用新的R1重新生成這些數(shù)據(jù),他們決定將一些舊的 TIR 數(shù)據(jù)混入當前的訓練集中,看看會發(fā)生什么。

他們原本期望:在訓練過程中,模型仍然能夠?qū)W習如何使用 Python,同時保留來自新 CoT 樣本的更好推理。

然而,事實并非如此——如果你使用TIR模式來評估OpenReasoning模型,你會發(fā)現(xiàn)它們與OpenMath模型基本相同,這比帶有CoT的新模型要差得多。

從某種角度來看,模型學會了兩種不同的行為:一種是使用工具,但推理較差;另一種是不使用工具,但推理很強,兩者之間沒有有效的過渡。非常有趣的是,是否可以通過在TIR模式下應(yīng)用在線強化學習(RL)來解決這個問題?

本地筆記可跑

如果筆記本電腦上運行,詳細信息如下:

模型鏈接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

體驗鏈接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

可以使用LM Studio免費運行它們:

  1. 下載適用于macOS、Windows或Linux的LM Studio

  2. 在搜索標簽頁,輸入「openreasoning」

  3. 安裝你想要的版本

如果使用ARM處理器,建議使用Bartowski的7B版本。

只要驍龍 X Elite + 32GB RAM,就可以加載量化后的14B模型,并在CPU上運行。

參考資料:

https://x.com/NVIDIAAIDev/status/1946281437935567011

https://huggingface.co/blog/nvidia/openreasoning-nemotron

https://x.com/josephpollack/status/1946486918696313257

https://x.com/igtmn/status/1946585046552658358

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱