內(nèi)幕曝光：OpenAI模型坦承不會(huì)第六題，3人倆月拿下IMO金牌

新智元·2025-08-12

關(guān)注

OpenAI兩月突破，AI斬獲IMO金牌，通用技術(shù)減少幻覺。

編者按：本文來自微信公眾號 “新智元”，作者：KingHZ ，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

OpenAI在短短兩個(gè)月內(nèi)，讓AI從掙扎于小學(xué)數(shù)學(xué)題躍升至國際數(shù)學(xué)奧林匹克（IMO）金牌水平，背后是通用AI技術(shù)的突破。

OpenAI的ChatGPT真能拿到國際奧數(shù)IMO金牌？還是OpenAI的自嗨？背后到底有何隱情？

OpenAI的IMO金牌核心團(tuán)隊(duì)Alexander Wei、Noam Brown與Sheryl Hsu做客紅杉Training Data播客，分享了如何在兩月內(nèi)讓AI斬獲IMO金牌?。

比如說，OpenAI內(nèi)部并非所有人都持樂觀態(tài)度。某位研究員甚至打賭模型不會(huì)贏，賠率高達(dá)2：1，不過最終因?yàn)椤覆幌胗绊懯繗狻苟艞壛速€局。

比賽當(dāng)天凌晨1-5點(diǎn)，Noam Brown忙里偷閑，小憩了一番，而Alexander Wei瘋狂檢查模型生成的證明?。

他們這次還解釋了是如何決定AI是不是拿到了金牌。為了評分，他們雇用了外部的IMO獎(jiǎng)牌獲得者。每份證明都由三名獎(jiǎng)牌獲得者進(jìn)行評分，他們對正確性達(dá)成了一致意見。就這樣，他們認(rèn)為AI的確有能力拿到IMO金牌。

他們還透露證明像「外星語言」般獨(dú)特，可讀性不高。雖有有能力優(yōu)化，但為了透明，他們選擇發(fā)布了原始輸出。

如果你只想快速了解精華，先看下方要點(diǎn)；想讀幕后故事，請繼續(xù)往下。

要點(diǎn)速讀

在短短兩個(gè)月內(nèi)，這支OpenAI僅三人的精銳團(tuán)隊(duì)就實(shí)現(xiàn)了整個(gè)AI領(lǐng)域多年未竟的目標(biāo)——在國際數(shù)學(xué)奧林匹克競賽難題上達(dá)到金牌級水平。

這是通往ASI道路上最重要的里程碑之一。

這次突破之所以特別引人注目，不僅僅是因?yàn)锳I的數(shù)學(xué)能力，更在于其背后的架構(gòu)。這是一種通用技術(shù)，用于擴(kuò)展測試時(shí)間計(jì)算，并處理那些遠(yuǎn)遠(yuǎn)超出競賽數(shù)學(xué)范疇的難以驗(yàn)證的任務(wù)。

就在一年前，AI還只能進(jìn)行短暫的數(shù)學(xué)推理，僅僅持續(xù)十分之一分鐘。而現(xiàn)在，已有AI系統(tǒng)能夠持續(xù)推理長達(dá)100分鐘。

而超級智能的期望是，隨著我們將推理時(shí)間擴(kuò)展到數(shù)千甚至數(shù)十萬小時(shí)，我們或許能夠開始解決人類在數(shù)學(xué)、科學(xué)等眾多領(lǐng)域中那些最偉大的未解難題。

團(tuán)隊(duì)還介紹了他們的獨(dú)特方法：在難以驗(yàn)證的任務(wù)上，不用形式化驗(yàn)證工具，而使用通用強(qiáng)化學(xué)習(xí)技術(shù)。

新模型展現(xiàn)出驚人的自省能力——主動(dòng)承認(rèn)無法解答第六題，同時(shí)揭示了解決競賽題與取得真正數(shù)學(xué)研究突破之間的懸殊差距。

IMO 2025第六題是本次競賽難度最大的題目，大意如下：

考慮一個(gè)2025x2025的單位正方形網(wǎng)格。馬蒂爾達(dá)希望在這個(gè)網(wǎng)格上放置一些矩形瓷磚，這些瓷磚的大小可能各不相同，但每塊瓷磚的每一邊都必須與網(wǎng)格線對齊，并且每個(gè)單位正方形最多被一塊瓷磚覆蓋。

確定馬蒂爾達(dá)需要放置的最小瓷磚數(shù)量，以確保網(wǎng)格的每一行和每一列都有且僅有一個(gè)單位正方形沒有被任何瓷磚覆蓋。

關(guān)鍵亮點(diǎn)如下：

（1）通用技術(shù)勝過專用方案。

（2）小團(tuán)隊(duì)也能創(chuàng)造大成果：核心團(tuán)隊(duì)僅由3名研究人員組成，在最后2個(gè)月沖刺完成工作。

（3）自我意識提升AI可靠性：面對最難的題目時(shí)，模型能承認(rèn)自己無法解決，而不是輸出看似合理但錯(cuò)誤的答案。

（4）測試時(shí)計(jì)算擴(kuò)展助力深入推理：突破的關(guān)鍵在于將推理計(jì)算時(shí)間從幾秒延長到幾小時(shí)，使模型能更深入思考復(fù)雜問題。

（5）競賽是進(jìn)步的起點(diǎn)，而非終點(diǎn)。

Sheryl Hsu（第一排中間女子）分享的OpenAI合照

兩個(gè)月的奇跡

國際數(shù)學(xué)奧林匹克（IMO）是全球高中生數(shù)學(xué)頂尖賽事，難題之難讓人類選手也要苦練多年。

即便是天才數(shù)學(xué)家陶哲軒，10歲時(shí)第一次參加IMO，獲得了銅牌。約兩年后，第二次參加IMO，他才獲得了金牌。

可OpenAI的這支小隊(duì)卻只用了兩個(gè)月！

他們的秘密武器是什么？

在紅杉資本的播客《Training Data》中，主持人Sonya Huang揭秘了真相：

他們用了一種叫做「多智能體系統(tǒng)」的技術(shù)。

簡單說，就是讓多個(gè)AI「助手」同時(shí)工作，像一個(gè)超級團(tuán)隊(duì)分工協(xié)作。

這種方法讓他們的模型能在短時(shí)間內(nèi)解決復(fù)雜問題。

AI在數(shù)學(xué)上真令人嘆為觀止！

就在幾年前，AI模型還在為解決小學(xué)數(shù)學(xué)問題而掙扎。

在2024年，GSM8K還被當(dāng)作評估模型的標(biāo)準(zhǔn)。

GSM8K，即小學(xué)數(shù)學(xué)8K，是一個(gè)包含8,500個(gè)高質(zhì)量、語言多樣的小學(xué)數(shù)學(xué)應(yīng)用題的數(shù)據(jù)集。目前，此數(shù)據(jù)集的成績已經(jīng)飽和：Claude 3 準(zhǔn)確率已達(dá)95%

但在數(shù)學(xué)領(lǐng)域，這只是短暫現(xiàn)象。隨后，AI數(shù)學(xué)基準(zhǔn)測試出現(xiàn)了美國數(shù)學(xué)邀請賽AIME，接著美國奧數(shù)USAMO。

去年的開源模型數(shù)學(xué)排行榜

現(xiàn)在，國際數(shù)學(xué)奧林匹克競賽金牌也被AI拿下。

AI以驚人的速度突破了所有的數(shù)學(xué)基準(zhǔn)。

AI或覺醒自我意識，敢說自己「沒答案」

有時(shí)，AI會(huì)「胡思亂想」，編造錯(cuò)誤答案，同時(shí)「理直氣壯」，自信過頭。

這屬于推理模型的「幻覺」問題。

但OpenAI的模型很特別——它能在解不出題時(shí)果斷說「我不知道」。

比如在IMO第6題上，模型選擇不冒險(xiǎn)，而是承認(rèn)自己的局限。

新模型顯著減少了「幻覺」問題。

OpenAI研究員Noam Brown認(rèn)為AI開始向自我意識推理轉(zhuǎn)變：

過去，數(shù)學(xué)家們需要仔細(xì)檢查模型的解題過程，因?yàn)樵缙谙到y(tǒng)常常會(huì)悄無聲息地弄錯(cuò)不等式或插入錯(cuò)誤步驟，導(dǎo)致「幻覺」答案。

在缺乏有效證明時(shí)，新更新的IMO模型傾向于說「我不確定」，這大大減少了隱藏錯(cuò)誤

這一點(diǎn)讓篤信AGI的網(wǎng)友Causal Coder激動(dòng)地評論：「這比拿金牌還重要！」

為什么？因?yàn)檫@避免了「幻覺」（hallucination），讓AI更可靠。

《自然》雜志的研究也支持這一觀點(diǎn)：減少錯(cuò)誤輸出是AI進(jìn)步的關(guān)鍵。

這不僅在數(shù)學(xué)競賽中閃耀，還可能幫我們在未來科學(xué)計(jì)算中少走彎路。

數(shù)學(xué)讓人謙卑，AI任重道遠(yuǎn)

盡管這次的進(jìn)步令人興奮，但距離千禧難題還很遠(yuǎn)。

若按IMO題需要1.5小時(shí)思考估算，千禧級別需將思考時(shí)間放大上千倍，仍任重道遠(yuǎn)。

GSM8K是小學(xué)數(shù)學(xué)，好學(xué)生幾秒鐘搞定。現(xiàn)在AI從幾秒鐘進(jìn)步到IMO級別——天才學(xué)生平均每題1.5小時(shí)（IMO三題4.5小時(shí)）。而研究數(shù)學(xué)需要這些奧賽天才長大后花1500小時(shí)。所以，從1.5小時(shí)到數(shù)千小時(shí)，還有千倍差距。

在千禧問題上，整個(gè)領(lǐng)域的專家畢生努力，還沒多少進(jìn)展。數(shù)學(xué)的深度讓人謙卑：從1.5小時(shí)到數(shù)十萬小時(shí)的人類思考，還有很長的路。

目前，7大千禧難題只有龐加萊猜想得到了解決

不止是數(shù)學(xué)通向通用智能

這次的突破是為了開發(fā)通用的推理技術(shù)，而不是局限于數(shù)學(xué)。

他們在短短一年多的時(shí)間里，將推理時(shí)間從O(0.1分鐘)擴(kuò)展到了O(100分鐘)。

除了讓長推理以及在難以驗(yàn)證的任務(wù)上取得進(jìn)步之外，這還涉及到擴(kuò)展并行計(jì)算，涉及到多智能體。

在多智能體強(qiáng)化學(xué)習(xí)（MARL）實(shí)驗(yàn)中，兩個(gè)對立的智能體團(tuán)隊(duì)展開對抗

他們通過巧妙設(shè)計(jì)「獎(jiǎng)勵(lì)函數(shù)」，讓AI能處理難以驗(yàn)證的難題，相同方法也適用于物理奧林匹克競賽，不過模型還無法進(jìn)行實(shí)驗(yàn)部分的操作。

在擴(kuò)展思考時(shí)間、處理難以驗(yàn)證的任務(wù)以及并行計(jì)算上，他們所采用的技術(shù)都是通用技術(shù)。他們計(jì)劃在其他系統(tǒng)中使用，或者已經(jīng)在使用了。

從基礎(chǔ)設(shè)施的角度來說，這次基本上使用的是和其他項(xiàng)目相同的基礎(chǔ)設(shè)施。

并沒有什么專門為IMO定制。

他們稱此次方法接下來會(huì)整合進(jìn)更多OpenAI模型，全面提升推理能力，從而構(gòu)建更強(qiáng)大的模型，不斷改進(jìn)Agent、ChatGPT以及其他一切。

但全球部署仍需時(shí)間。

挑戰(zhàn)與夢想：路還長

千年難題如黎曼猜想，人類中的天才一生都難解，AI還需更多突破。

但團(tuán)隊(duì)不氣餒，他們甚至想讓AI學(xué)會(huì)自己提出新問題——這比解題更酷！

Noam Brown表示，語言模型現(xiàn)在正迅速地一個(gè)個(gè)克服障礙：

接下來的挑戰(zhàn)將是生成新問題，比如創(chuàng)作IMO級別的數(shù)學(xué)難題「需要專業(yè)的數(shù)學(xué)家...但我看不到任何根本性的障礙?！?/p>

紅杉的Sonya笑稱：「從0.1分鐘到100分鐘的推理擴(kuò)展，已經(jīng)是巨大進(jìn)步，未來可期！」

這對我們意味著什么？

這個(gè)故事不僅炫酷，還很實(shí)用。想象一下，未來AI能幫你解決家庭預(yù)算、設(shè)計(jì)新游戲，甚至提出科學(xué)新想法！對于普通人，這意味著更智能的生活助手正在路上。對AI開發(fā)者來說，這是個(gè)啟發(fā)：合作和創(chuàng)意能帶來意想不到的成果。