編者按:本文來自微信公眾號 來源:新智元(ID:AI_era),編輯:KingHZ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
開源模型王座再次易主?
昨天,英偉達開源了OpenReasoning-Nemotron:
在多個基準測試中,同規(guī)模模型無敵,取得了SOTA得分
專為數(shù)學、科學、代碼定制
提供四種參數(shù)規(guī)模:1.5B、7B、14B和32B,可在本地100%運行。
不過,這些模型還是「國產(chǎn)血統(tǒng)」:
架構(gòu)基于Qwen2.5 ,SFT訓練使用的是DeepSeek-R1-0528生成的數(shù)據(jù)。
以后,推理模型也有了強基線模型。
一張圖總結(jié)要點:
數(shù)學基準,超越o3
這次在參數(shù)高達671B的滿血DeepSeek-R1-0528蒸餾,在5M的數(shù)學、代碼和科學推理軌跡上訓練。
這次的模型不僅僅進行token預(yù)測,還實現(xiàn)了真正的推理能力。
核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。
與之前OpenMath/Code/Science發(fā)布時的提示集相同,這次只是更新了用于生成答案的R1模型,但改進幅度巨大!
而作為「教師」模型,新的R1模型表現(xiàn)出色!
而且這次沒有進行任何在線強化學習,只進行了有監(jiān)督微調(diào)(SFT)。
未來應(yīng)該可以通過進一步優(yōu)化這些模型或使用更少的 token 獲得相似性能。
這些模型支持「重型」推理模式,可以「結(jié)合多個智能體的工作」。
為此,他們這次使用了AIMO-2論文中提出的GenSelect算法。
使用GenSelect@64,在多個數(shù)學基準測試中超越了OpenAI o3(高算力版)。
還有另一個令人驚訝的結(jié)果:這些模型只是針對數(shù)學問題訓練了GenSelect算法,但它竟然也泛化到了代碼任務(wù)上!
32B模型的LCB得分從70.2(pass@1)提升到75.3(GenSelect@16)。
需要注意的是,這里沒有使用強化學習(RL),但仍然觀察到從數(shù)學到代碼的強大泛化能力!
意外的現(xiàn)象
首先澄清一點,這是一次「研究性質(zhì)」模型發(fā)布,主要目標是驗證生成的新數(shù)據(jù)的價值,并探索僅通過監(jiān)督微調(diào)(SFT)能將性能推到何種程度。
這次僅針對數(shù)學、代碼和科學推理任務(wù)訓練了模型,沒有進行指令微調(diào)或強化學習人類反饋(RLHF)。
雖然這些模型在解決推理任務(wù)時表現(xiàn)優(yōu)異,但未經(jīng)進一步訓練,它們可能無法勝任多輪對話或作為通用助手。
在一系列具有挑戰(zhàn)性的推理基準測試中,模型表現(xiàn)出色。
7B、14B和32B模型在各自規(guī)模類別下的創(chuàng)下了多項最先進紀錄。
現(xiàn)在,在開發(fā)這些模型時,還發(fā)現(xiàn)了兩點有趣的事情。
(1)參數(shù)規(guī)模影響巨大。
1.5B模型,實際上并沒有特別出色。例如,OpenMath-Nemotron-1.5B(我們之前的數(shù)學模型發(fā)布)在 AIME25 上得分為 49.5,而這個新模型得分為 45.6。
但是,7B(或更大的模型)進步就非常顯著。OpenMath-7B 模型的得分為 61.2,而 OpenReasoning-7B 的得分則達到了 78.2!
因此,1.5B 模型的表現(xiàn)稍微下滑了,但 7B 模型在使用相同數(shù)據(jù)進行訓練后提高了近 20%。
研究人員猜測可能是因為在處理較長上下文生成時,1.5B模型可能不太一致。
之前的數(shù)據(jù)集僅包含16K輸出token,但這次擴展到了32K,而1.5B模型無法保持推理的一致性。
(2)模型學會了兩種不同的行為。
在之前的 OpenMath 發(fā)布中,英偉達研究團隊也使用了TIR數(shù)據(jù)來幫助模型學習使用Python。
由于沒有時間用新的R1重新生成這些數(shù)據(jù),他們決定將一些舊的 TIR 數(shù)據(jù)混入當前的訓練集中,看看會發(fā)生什么。
他們原本期望:在訓練過程中,模型仍然能夠?qū)W習如何使用 Python,同時保留來自新 CoT 樣本的更好推理。
然而,事實并非如此——如果你使用TIR模式來評估OpenReasoning模型,你會發(fā)現(xiàn)它們與OpenMath模型基本相同,這比帶有CoT的新模型要差得多。
從某種角度來看,模型學會了兩種不同的行為:一種是使用工具,但推理較差;另一種是不使用工具,但推理很強,兩者之間沒有有效的過渡。非常有趣的是,是否可以通過在TIR模式下應(yīng)用在線強化學習(RL)來解決這個問題?
本地筆記可跑
如果筆記本電腦上運行,詳細信息如下:
模型鏈接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B
體驗鏈接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning
可以使用LM Studio免費運行它們:
下載適用于macOS、Windows或Linux的LM Studio
在搜索標簽頁,輸入「openreasoning」
安裝你想要的版本
如果使用ARM處理器,建議使用Bartowski的7B版本。
只要驍龍 X Elite + 32GB RAM,就可以加載量化后的14B模型,并在CPU上運行。
參考資料:
https://x.com/NVIDIAAIDev/status/1946281437935567011
https://huggingface.co/blog/nvidia/openreasoning-nemotron
https://x.com/josephpollack/status/1946486918696313257
https://x.com/igtmn/status/1946585046552658358
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。