編者按:本文來自微信公眾號 “新智元”,作者:KingHZ ,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
OpenAI在短短兩個(gè)月內(nèi),讓AI從掙扎于小學(xué)數(shù)學(xué)題躍升至國際數(shù)學(xué)奧林匹克(IMO)金牌水平,背后是通用AI技術(shù)的突破。
OpenAI的ChatGPT真能拿到國際奧數(shù)IMO金牌?還是OpenAI的自嗨?背后到底有何隱情?
OpenAI的IMO金牌核心團(tuán)隊(duì)Alexander Wei、Noam Brown與Sheryl Hsu做客紅杉Training Data播客,分享了如何在兩月內(nèi)讓AI斬獲IMO金牌?。
比如說,OpenAI內(nèi)部并非所有人都持樂觀態(tài)度。某位研究員甚至打賭模型不會(huì)贏,賠率高達(dá)2:1,不過最終因?yàn)椤覆幌胗绊懯繗狻苟艞壛速€局。
比賽當(dāng)天凌晨1-5點(diǎn),Noam Brown忙里偷閑,小憩了一番,而Alexander Wei瘋狂檢查模型生成的證明?。
他們這次還解釋了是如何決定AI是不是拿到了金牌。為了評分,他們雇用了外部的IMO獎(jiǎng)牌獲得者。每份證明都由三名獎(jiǎng)牌獲得者進(jìn)行評分,他們對正確性達(dá)成了一致意見 。就這樣,他們認(rèn)為AI的確有能力拿到IMO金牌。
他們還透露證明像「外星語言」般獨(dú)特,可讀性不高。雖有有能力優(yōu)化,但為了透明,他們選擇發(fā)布了原始輸出。
如果你只想快速了解精華,先看下方要點(diǎn);想讀幕后故事,請繼續(xù)往下。
要點(diǎn)速讀
在短短兩個(gè)月內(nèi),這支OpenAI僅三人的精銳團(tuán)隊(duì)就實(shí)現(xiàn)了整個(gè)AI領(lǐng)域多年未竟的目標(biāo)——在國際數(shù)學(xué)奧林匹克競賽難題上達(dá)到金牌級水平。
這是通往ASI道路上最重要的里程碑之一。
這次突破之所以特別引人注目,不僅僅是因?yàn)锳I的數(shù)學(xué)能力,更在于其背后的架構(gòu)。這是一種通用技術(shù),用于擴(kuò)展測試時(shí)間計(jì)算,并處理那些遠(yuǎn)遠(yuǎn)超出競賽數(shù)學(xué)范疇的難以驗(yàn)證的任務(wù)。
就在一年前,AI還只能進(jìn)行短暫的數(shù)學(xué)推理,僅僅持續(xù)十分之一分鐘。而現(xiàn)在,已有AI系統(tǒng)能夠持續(xù)推理長達(dá)100分鐘。
而超級智能的期望是,隨著我們將推理時(shí)間擴(kuò)展到數(shù)千甚至數(shù)十萬小時(shí),我們或許能夠開始解決人類在數(shù)學(xué)、科學(xué)等眾多領(lǐng)域中那些最偉大的未解難題。
團(tuán)隊(duì)還介紹了他們的獨(dú)特方法:在難以驗(yàn)證的任務(wù)上,不用形式化驗(yàn)證工具,而使用通用強(qiáng)化學(xué)習(xí)技術(shù)。
新模型展現(xiàn)出驚人的自省能力——主動(dòng)承認(rèn)無法解答第六題,同時(shí)揭示了解決競賽題與取得真正數(shù)學(xué)研究突破之間的懸殊差距。
IMO 2025第六題是本次競賽難度最大的題目,大意如下:
考慮一個(gè)2025x2025的單位正方形網(wǎng)格。馬蒂爾達(dá)希望在這個(gè)網(wǎng)格上放置一些矩形瓷磚,這些瓷磚的大小可能各不相同,但每塊瓷磚的每一邊都必須與網(wǎng)格線對齊,并且每個(gè)單位正方形最多被一塊瓷磚覆蓋。
確定馬蒂爾達(dá)需要放置的最小瓷磚數(shù)量,以確保網(wǎng)格的每一行和每一列都有且僅有一個(gè)單位正方形沒有被任何瓷磚覆蓋。
關(guān)鍵亮點(diǎn)如下:
(1)通用技術(shù)勝過專用方案。
(2)小團(tuán)隊(duì)也能創(chuàng)造大成果:核心團(tuán)隊(duì)僅由3名研究人員組成,在最后2個(gè)月沖刺完成工作。
(3)自我意識提升AI可靠性:面對最難的題目時(shí),模型能承認(rèn)自己無法解決,而不是輸出看似合理但錯(cuò)誤的答案。
(4)測試時(shí)計(jì)算擴(kuò)展助力深入推理:突破的關(guān)鍵在于將推理計(jì)算時(shí)間從幾秒延長到幾小時(shí),使模型能更深入思考復(fù)雜問題。
(5)競賽是進(jìn)步的起點(diǎn),而非終點(diǎn)。
Sheryl Hsu(第一排中間女子)分享的OpenAI合照
兩個(gè)月的奇跡
國際數(shù)學(xué)奧林匹克(IMO)是全球高中生數(shù)學(xué)頂尖賽事,難題之難讓人類選手也要苦練多年。
即便是天才數(shù)學(xué)家陶哲軒,10歲時(shí)第一次參加IMO,獲得了銅牌。約兩年后,第二次參加IMO,他才獲得了金牌。
可OpenAI的這支小隊(duì)卻只用了兩個(gè)月!
他們的秘密武器是什么?
在紅杉資本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:
他們用了一種叫做「多智能體系統(tǒng)」的技術(shù)。
簡單說,就是讓多個(gè)AI「助手」同時(shí)工作,像一個(gè)超級團(tuán)隊(duì)分工協(xié)作。
這種方法讓他們的模型能在短時(shí)間內(nèi)解決復(fù)雜問題。
AI在數(shù)學(xué)上真令人嘆為觀止!
就在幾年前,AI模型還在為解決小學(xué)數(shù)學(xué)問題而掙扎。
在2024年,GSM8K還被當(dāng)作評估模型的標(biāo)準(zhǔn)。
GSM8K,即小學(xué)數(shù)學(xué)8K,是一個(gè)包含8,500個(gè)高質(zhì)量、語言多樣的小學(xué)數(shù)學(xué)應(yīng)用題的數(shù)據(jù)集。目前,此數(shù)據(jù)集的成績已經(jīng)飽和:Claude 3 準(zhǔn)確率已達(dá)95%
但在數(shù)學(xué)領(lǐng)域,這只是短暫現(xiàn)象。隨后,AI數(shù)學(xué)基準(zhǔn)測試出現(xiàn)了美國數(shù)學(xué)邀請賽AIME,接著美國奧數(shù)USAMO。
去年的開源模型數(shù)學(xué)排行榜
現(xiàn)在,國際數(shù)學(xué)奧林匹克競賽金牌也被AI拿下。
AI以驚人的速度突破了所有的數(shù)學(xué)基準(zhǔn)。
AI或覺醒自我意識,敢說自己「沒答案」
有時(shí),AI會(huì)「胡思亂想」,編造錯(cuò)誤答案,同時(shí)「理直氣壯」,自信過頭。
這屬于推理模型的「幻覺」問題。
但OpenAI的模型很特別——它能在解不出題時(shí)果斷說「我不知道」。
比如在IMO第6題上,模型選擇不冒險(xiǎn),而是承認(rèn)自己的局限。
新模型顯著減少了「幻覺」問題。
OpenAI研究員Noam Brown認(rèn)為AI開始向自我意識推理轉(zhuǎn)變:
過去,數(shù)學(xué)家們需要仔細(xì)檢查模型的解題過程,因?yàn)樵缙谙到y(tǒng)常常會(huì)悄無聲息地弄錯(cuò)不等式或插入錯(cuò)誤步驟,導(dǎo)致「幻覺」答案。
在缺乏有效證明時(shí),新更新的IMO模型傾向于說「我不確定」,這大大減少了隱藏錯(cuò)誤
這一點(diǎn)讓篤信AGI的網(wǎng)友Causal Coder激動(dòng)地評論:「這比拿金牌還重要!」
為什么?因?yàn)檫@避免了「幻覺」(hallucination),讓AI更可靠。
《自然》雜志的研究也支持這一觀點(diǎn):減少錯(cuò)誤輸出是AI進(jìn)步的關(guān)鍵。
這不僅在數(shù)學(xué)競賽中閃耀,還可能幫我們在未來科學(xué)計(jì)算中少走彎路。
數(shù)學(xué)讓人謙卑,AI任重道遠(yuǎn)
盡管這次的進(jìn)步令人興奮,但距離千禧難題還很遠(yuǎn)。
若按IMO題需要1.5小時(shí)思考估算,千禧級別需將思考時(shí)間放大上千倍,仍任重道遠(yuǎn)。
GSM8K是小學(xué)數(shù)學(xué),好學(xué)生幾秒鐘搞定。現(xiàn)在AI從幾秒鐘進(jìn)步到IMO級別——天才學(xué)生平均每題1.5小時(shí)(IMO三題4.5小時(shí))。而研究數(shù)學(xué)需要這些奧賽天才長大后花1500小時(shí)。所以,從1.5小時(shí)到數(shù)千小時(shí),還有千倍差距。
在千禧問題上,整個(gè)領(lǐng)域的專家畢生努力,還沒多少進(jìn)展。數(shù)學(xué)的深度讓人謙卑:從1.5小時(shí)到數(shù)十萬小時(shí)的人類思考,還有很長的路。
目前,7大千禧難題只有龐加萊猜想得到了解決
不止是數(shù)學(xué)通向通用智能
這次的突破是為了開發(fā)通用的推理技術(shù),而不是局限于數(shù)學(xué)。
他們在短短一年多的時(shí)間里,將推理時(shí)間從O(0.1分鐘)擴(kuò)展到了O(100分鐘)。
除了讓長推理以及在難以驗(yàn)證的任務(wù)上取得進(jìn)步之外,這還涉及到擴(kuò)展并行計(jì)算,涉及到多智能體。
在多智能體強(qiáng)化學(xué)習(xí)(MARL)實(shí)驗(yàn)中,兩個(gè)對立的智能體團(tuán)隊(duì)展開對抗
他們通過巧妙設(shè)計(jì)「獎(jiǎng)勵(lì)函數(shù)」,讓AI能處理難以驗(yàn)證的難題,相同方法也適用于物理奧林匹克競賽,不過模型還無法進(jìn)行實(shí)驗(yàn)部分的操作。
在擴(kuò)展思考時(shí)間、處理難以驗(yàn)證的任務(wù)以及并行計(jì)算上,他們所采用的技術(shù)都是通用技術(shù)。他們計(jì)劃在其他系統(tǒng)中使用,或者已經(jīng)在使用了。
從基礎(chǔ)設(shè)施的角度來說,這次基本上使用的是和其他項(xiàng)目相同的基礎(chǔ)設(shè)施。
并沒有什么專門為IMO定制。
他們稱此次方法接下來會(huì)整合進(jìn)更多OpenAI模型,全面提升推理能力,從而構(gòu)建更強(qiáng)大的模型,不斷改進(jìn)Agent、ChatGPT以及其他一切。
但全球部署仍需時(shí)間。
挑戰(zhàn)與夢想:路還長
千年難題如黎曼猜想,人類中的天才一生都難解,AI還需更多突破。
但團(tuán)隊(duì)不氣餒,他們甚至想讓AI學(xué)會(huì)自己提出新問題——這比解題更酷!
Noam Brown表示,語言模型現(xiàn)在正迅速地一個(gè)個(gè)克服障礙:
接下來的挑戰(zhàn)將是生成新問題,比如創(chuàng)作IMO級別的數(shù)學(xué)難題「需要專業(yè)的數(shù)學(xué)家...但我看不到任何根本性的障礙?!?/p>
紅杉的Sonya笑稱:「從0.1分鐘到100分鐘的推理擴(kuò)展,已經(jīng)是巨大進(jìn)步,未來可期!」
這對我們意味著什么?
這個(gè)故事不僅炫酷,還很實(shí)用。想象一下,未來AI能幫你解決家庭預(yù)算、設(shè)計(jì)新游戲,甚至提出科學(xué)新想法! 對于普通人,這意味著更智能的生活助手正在路上。對AI開發(fā)者來說,這是個(gè)啟發(fā):合作和創(chuàng)意能帶來意想不到的成果。
參考資料
https://www.youtube.com/watch?v=EEIPtofVe2Q
https://x.com/Hangsiin/status/1950505990660731084
https://x.com/slow_developer/status/1950504142990139571
https://x.com/chatgpt21/status/1950606890758476264
https://www.sequoiacap.com/podcast/training-data-openai-imo/
https://x.com/sonyatweetybird/status/1950607065380163742
https://github.com/aw31/openai-imo-2025-proofs/
https://klu.ai/glossary/math-eval
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。