五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

內(nèi)幕曝光:OpenAI模型坦承不會(huì)第六題,3人倆月拿下IMO金牌

OpenAI兩月突破,AI斬獲IMO金牌,通用技術(shù)減少幻覺。

編者按:本文來自微信公眾號 “新智元”,作者:KingHZ ,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

OpenAI在短短兩個(gè)月內(nèi),讓AI從掙扎于小學(xué)數(shù)學(xué)題躍升至國際數(shù)學(xué)奧林匹克(IMO)金牌水平,背后是通用AI技術(shù)的突破。

OpenAI的ChatGPT真能拿到國際奧數(shù)IMO金牌?還是OpenAI的自嗨?背后到底有何隱情?

OpenAI的IMO金牌核心團(tuán)隊(duì)Alexander Wei、Noam Brown與Sheryl Hsu做客紅杉Training Data播客,分享了如何在兩月內(nèi)讓AI斬獲IMO金牌?。

比如說,OpenAI內(nèi)部并非所有人都持樂觀態(tài)度。某位研究員甚至打賭模型不會(huì)贏,賠率高達(dá)2:1,不過最終因?yàn)椤覆幌胗绊懯繗狻苟艞壛速€局。

比賽當(dāng)天凌晨1-5點(diǎn),Noam Brown忙里偷閑,小憩了一番,而Alexander Wei瘋狂檢查模型生成的證明?。

他們這次還解釋了是如何決定AI是不是拿到了金牌。為了評分,他們雇用了外部的IMO獎(jiǎng)牌獲得者。每份證明都由三名獎(jiǎng)牌獲得者進(jìn)行評分,他們對正確性達(dá)成了一致意見 。就這樣,他們認(rèn)為AI的確有能力拿到IMO金牌。

他們還透露證明像「外星語言」般獨(dú)特,可讀性不高。雖有有能力優(yōu)化,但為了透明,他們選擇發(fā)布了原始輸出。

如果你只想快速了解精華,先看下方要點(diǎn);想讀幕后故事,請繼續(xù)往下。

要點(diǎn)速讀

在短短兩個(gè)月內(nèi),這支OpenAI僅三人的精銳團(tuán)隊(duì)就實(shí)現(xiàn)了整個(gè)AI領(lǐng)域多年未竟的目標(biāo)——在國際數(shù)學(xué)奧林匹克競賽難題上達(dá)到金牌級水平。

這是通往ASI道路上最重要的里程碑之一。

這次突破之所以特別引人注目,不僅僅是因?yàn)锳I的數(shù)學(xué)能力,更在于其背后的架構(gòu)。這是一種通用技術(shù),用于擴(kuò)展測試時(shí)間計(jì)算,并處理那些遠(yuǎn)遠(yuǎn)超出競賽數(shù)學(xué)范疇的難以驗(yàn)證的任務(wù)。

就在一年前,AI還只能進(jìn)行短暫的數(shù)學(xué)推理,僅僅持續(xù)十分之一分鐘。而現(xiàn)在,已有AI系統(tǒng)能夠持續(xù)推理長達(dá)100分鐘。

而超級智能的期望是,隨著我們將推理時(shí)間擴(kuò)展到數(shù)千甚至數(shù)十萬小時(shí),我們或許能夠開始解決人類在數(shù)學(xué)、科學(xué)等眾多領(lǐng)域中那些最偉大的未解難題。

團(tuán)隊(duì)還介紹了他們的獨(dú)特方法:在難以驗(yàn)證的任務(wù)上,不用形式化驗(yàn)證工具,而使用通用強(qiáng)化學(xué)習(xí)技術(shù)。

新模型展現(xiàn)出驚人的自省能力——主動(dòng)承認(rèn)無法解答第六題,同時(shí)揭示了解決競賽題與取得真正數(shù)學(xué)研究突破之間的懸殊差距。

IMO 2025第六題是本次競賽難度最大的題目,大意如下:

考慮一個(gè)2025x2025的單位正方形網(wǎng)格。馬蒂爾達(dá)希望在這個(gè)網(wǎng)格上放置一些矩形瓷磚,這些瓷磚的大小可能各不相同,但每塊瓷磚的每一邊都必須與網(wǎng)格線對齊,并且每個(gè)單位正方形最多被一塊瓷磚覆蓋。

確定馬蒂爾達(dá)需要放置的最小瓷磚數(shù)量,以確保網(wǎng)格的每一行和每一列都有且僅有一個(gè)單位正方形沒有被任何瓷磚覆蓋。

關(guān)鍵亮點(diǎn)如下:

(1)通用技術(shù)勝過專用方案。

(2)小團(tuán)隊(duì)也能創(chuàng)造大成果:核心團(tuán)隊(duì)僅由3名研究人員組成,在最后2個(gè)月沖刺完成工作。

(3)自我意識提升AI可靠性:面對最難的題目時(shí),模型能承認(rèn)自己無法解決,而不是輸出看似合理但錯(cuò)誤的答案。

(4)測試時(shí)計(jì)算擴(kuò)展助力深入推理:突破的關(guān)鍵在于將推理計(jì)算時(shí)間從幾秒延長到幾小時(shí),使模型能更深入思考復(fù)雜問題。

(5)競賽是進(jìn)步的起點(diǎn),而非終點(diǎn)。

Sheryl Hsu(第一排中間女子)分享的OpenAI合照

兩個(gè)月的奇跡

國際數(shù)學(xué)奧林匹克(IMO)是全球高中生數(shù)學(xué)頂尖賽事,難題之難讓人類選手也要苦練多年。

即便是天才數(shù)學(xué)家陶哲軒,10歲時(shí)第一次參加IMO,獲得了銅牌。約兩年后,第二次參加IMO,他才獲得了金牌。

可OpenAI的這支小隊(duì)卻只用了兩個(gè)月!

他們的秘密武器是什么?

在紅杉資本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:

他們用了一種叫做「多智能體系統(tǒng)」的技術(shù)。

簡單說,就是讓多個(gè)AI「助手」同時(shí)工作,像一個(gè)超級團(tuán)隊(duì)分工協(xié)作。

這種方法讓他們的模型能在短時(shí)間內(nèi)解決復(fù)雜問題。

AI在數(shù)學(xué)上真令人嘆為觀止!

就在幾年前,AI模型還在為解決小學(xué)數(shù)學(xué)問題而掙扎。

在2024年,GSM8K還被當(dāng)作評估模型的標(biāo)準(zhǔn)。

GSM8K,即小學(xué)數(shù)學(xué)8K,是一個(gè)包含8,500個(gè)高質(zhì)量、語言多樣的小學(xué)數(shù)學(xué)應(yīng)用題的數(shù)據(jù)集。目前,此數(shù)據(jù)集的成績已經(jīng)飽和:Claude 3 準(zhǔn)確率已達(dá)95%

但在數(shù)學(xué)領(lǐng)域,這只是短暫現(xiàn)象。隨后,AI數(shù)學(xué)基準(zhǔn)測試出現(xiàn)了美國數(shù)學(xué)邀請賽AIME,接著美國奧數(shù)USAMO。

去年的開源模型數(shù)學(xué)排行榜

現(xiàn)在,國際數(shù)學(xué)奧林匹克競賽金牌也被AI拿下。

AI以驚人的速度突破了所有的數(shù)學(xué)基準(zhǔn)。

AI或覺醒自我意識,敢說自己「沒答案」

有時(shí),AI會(huì)「胡思亂想」,編造錯(cuò)誤答案,同時(shí)「理直氣壯」,自信過頭。

這屬于推理模型的「幻覺」問題。

但OpenAI的模型很特別——它能在解不出題時(shí)果斷說「我不知道」。

比如在IMO第6題上,模型選擇不冒險(xiǎn),而是承認(rèn)自己的局限。

新模型顯著減少了「幻覺」問題。

OpenAI研究員Noam Brown認(rèn)為AI開始向自我意識推理轉(zhuǎn)變:

過去,數(shù)學(xué)家們需要仔細(xì)檢查模型的解題過程,因?yàn)樵缙谙到y(tǒng)常常會(huì)悄無聲息地弄錯(cuò)不等式或插入錯(cuò)誤步驟,導(dǎo)致「幻覺」答案。

在缺乏有效證明時(shí),新更新的IMO模型傾向于說「我不確定」,這大大減少了隱藏錯(cuò)誤

這一點(diǎn)讓篤信AGI的網(wǎng)友Causal Coder激動(dòng)地評論:「這比拿金牌還重要!」

為什么?因?yàn)檫@避免了「幻覺」(hallucination),讓AI更可靠。

《自然》雜志的研究也支持這一觀點(diǎn):減少錯(cuò)誤輸出是AI進(jìn)步的關(guān)鍵。

這不僅在數(shù)學(xué)競賽中閃耀,還可能幫我們在未來科學(xué)計(jì)算中少走彎路。

數(shù)學(xué)讓人謙卑,AI任重道遠(yuǎn)

盡管這次的進(jìn)步令人興奮,但距離千禧難題還很遠(yuǎn)。

若按IMO題需要1.5小時(shí)思考估算,千禧級別需將思考時(shí)間放大上千倍,仍任重道遠(yuǎn)。

GSM8K是小學(xué)數(shù)學(xué),好學(xué)生幾秒鐘搞定。現(xiàn)在AI從幾秒鐘進(jìn)步到IMO級別——天才學(xué)生平均每題1.5小時(shí)(IMO三題4.5小時(shí))。而研究數(shù)學(xué)需要這些奧賽天才長大后花1500小時(shí)。所以,從1.5小時(shí)到數(shù)千小時(shí),還有千倍差距。

在千禧問題上,整個(gè)領(lǐng)域的專家畢生努力,還沒多少進(jìn)展。數(shù)學(xué)的深度讓人謙卑:從1.5小時(shí)到數(shù)十萬小時(shí)的人類思考,還有很長的路。

目前,7大千禧難題只有龐加萊猜想得到了解決

不止是數(shù)學(xué)通向通用智能

這次的突破是為了開發(fā)通用的推理技術(shù),而不是局限于數(shù)學(xué)。

他們在短短一年多的時(shí)間里,將推理時(shí)間從O(0.1分鐘)擴(kuò)展到了O(100分鐘)。

除了讓長推理以及在難以驗(yàn)證的任務(wù)上取得進(jìn)步之外,這還涉及到擴(kuò)展并行計(jì)算,涉及到多智能體。

在多智能體強(qiáng)化學(xué)習(xí)(MARL)實(shí)驗(yàn)中,兩個(gè)對立的智能體團(tuán)隊(duì)展開對抗

他們通過巧妙設(shè)計(jì)「獎(jiǎng)勵(lì)函數(shù)」,讓AI能處理難以驗(yàn)證的難題,相同方法也適用于物理奧林匹克競賽,不過模型還無法進(jìn)行實(shí)驗(yàn)部分的操作。

在擴(kuò)展思考時(shí)間、處理難以驗(yàn)證的任務(wù)以及并行計(jì)算上,他們所采用的技術(shù)都是通用技術(shù)。他們計(jì)劃在其他系統(tǒng)中使用,或者已經(jīng)在使用了。

從基礎(chǔ)設(shè)施的角度來說,這次基本上使用的是和其他項(xiàng)目相同的基礎(chǔ)設(shè)施。

并沒有什么專門為IMO定制。

他們稱此次方法接下來會(huì)整合進(jìn)更多OpenAI模型,全面提升推理能力,從而構(gòu)建更強(qiáng)大的模型,不斷改進(jìn)Agent、ChatGPT以及其他一切。

但全球部署仍需時(shí)間。

挑戰(zhàn)與夢想:路還長

千年難題如黎曼猜想,人類中的天才一生都難解,AI還需更多突破。

但團(tuán)隊(duì)不氣餒,他們甚至想讓AI學(xué)會(huì)自己提出新問題——這比解題更酷!

Noam Brown表示,語言模型現(xiàn)在正迅速地一個(gè)個(gè)克服障礙:

接下來的挑戰(zhàn)將是生成新問題,比如創(chuàng)作IMO級別的數(shù)學(xué)難題「需要專業(yè)的數(shù)學(xué)家...但我看不到任何根本性的障礙?!?/p>

紅杉的Sonya笑稱:「從0.1分鐘到100分鐘的推理擴(kuò)展,已經(jīng)是巨大進(jìn)步,未來可期!」

這對我們意味著什么?

這個(gè)故事不僅炫酷,還很實(shí)用。想象一下,未來AI能幫你解決家庭預(yù)算、設(shè)計(jì)新游戲,甚至提出科學(xué)新想法! 對于普通人,這意味著更智能的生活助手正在路上。對AI開發(fā)者來說,這是個(gè)啟發(fā):合作和創(chuàng)意能帶來意想不到的成果。

參考資料

https://www.youtube.com/watch?v=EEIPtofVe2Q

https://x.com/Hangsiin/status/1950505990660731084

https://x.com/slow_developer/status/1950504142990139571

https://x.com/chatgpt21/status/1950606890758476264

https://www.sequoiacap.com/podcast/training-data-openai-imo/

https://x.com/sonyatweetybird/status/1950607065380163742

https://github.com/aw31/openai-imo-2025-proofs/

https://klu.ai/glossary/math-eval

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱