五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

OpenAI o1是真有實(shí)力!港大權(quán)威AB測(cè)試,國(guó)家隊(duì)奧數(shù)題照樣拿下

OpenAI o1的數(shù)學(xué)推理能力是否真的那么強(qiáng)?近日,來自港大的研究人員對(duì)模型進(jìn)行了嚴(yán)格的AB測(cè)試,在非公開的國(guó)家隊(duì)奧數(shù)題面前,o1證明了自己的實(shí)力。

編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),編輯:alan,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

國(guó)際奧數(shù)題手到擒來,OpenAI o1是靠死記硬背還是真的實(shí)力超群?

近日,來自港大的研究人員對(duì)o1進(jìn)行了嚴(yán)格的AB測(cè)試:

圖片

論文地址:https://arxiv.org/pdf/2411.06198

如何判斷LLM是否真正具有強(qiáng)大的數(shù)學(xué)推理能力?

考兩張卷子:一張是有可能提前背題的,另一張是不太可能提前背題的,兩張卷子難度一致。

如果LLM兩次考試的分?jǐn)?shù)差不多,就證明人家是真會(huì);要是后者的成績(jī)明顯低于前者,那就有作弊嫌疑了。

本文中,OpenAI Orion-1模型面對(duì)的兩張?jiān)嚲?,分別取自國(guó)際數(shù)學(xué)奧林匹克(IMO)和中國(guó)國(guó)家隊(duì)訓(xùn)練營(yíng)(CNT)的試題。

IMO的題目很容易獲得,而CNT的題目則無法公開訪問,通過比較o1模型在兩個(gè)數(shù)據(jù)集之間的性能,作者得出結(jié)論:o1是真有實(shí)力!

論文細(xì)節(jié)

OpenAI o1的亮相直接掀起了推理模型的風(fēng)潮。

o1采用強(qiáng)化學(xué)習(xí)來訓(xùn)練token-wise獎(jiǎng)勵(lì)模型,模擬了推理和反思過程,從而在token生成中培養(yǎng)了一種內(nèi)在的思維鏈風(fēng)格。

從本質(zhì)上講,o1的推理是一個(gè)制定和執(zhí)行計(jì)劃的過程。

OpenAI曾表示,o1-mini在美國(guó)高中AIME數(shù)學(xué)競(jìng)賽中的分?jǐn)?shù)可以排進(jìn)全美前500,但也有一些評(píng)測(cè)表示o1的效果并不理想。

上奧數(shù)題

為了公平測(cè)試o1的數(shù)學(xué)推理能力,本文的研究者編譯了兩個(gè)數(shù)據(jù)集進(jìn)行分析。

第一個(gè)數(shù)據(jù)集包含來自過去十年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的60個(gè)問題;第二個(gè)數(shù)據(jù)集包含來自中國(guó)國(guó)家隊(duì)(CNT)訓(xùn)練營(yíng)的60個(gè)問題(非公開)。

注:CNT訓(xùn)練營(yíng)旨在為學(xué)生在中國(guó)的IMO比賽做好準(zhǔn)備。中國(guó)國(guó)家隊(duì)的選拔過程涉及多次測(cè)試(通常為8-10次),每次持續(xù)4個(gè)半小時(shí),與實(shí)際IMO比賽的形式相同。

針對(duì)測(cè)試事先作出假設(shè):

原假設(shè):o1-mini的問題解決能力是基于推理能力的;

備擇假設(shè):o1-mini的性能可能來源于對(duì)問題和解決方案的記憶,或?qū)︻A(yù)訓(xùn)練模式的模仿。

對(duì)于原假設(shè),可以預(yù)計(jì)模型在IMO和CNT數(shù)據(jù)集中表現(xiàn)出類似的性能水平。相反,在備擇假設(shè)下,o1在兩個(gè)數(shù)據(jù)集之間將存在顯著的性能差異(IMO數(shù)據(jù)集的得分更高)。

另外,原假設(shè)還表明o1-mini能夠?qū)⑵渫评砑寄芡茝V到不同的問題集中,而不管它們的來源或復(fù)雜性如何。

實(shí)驗(yàn)測(cè)試

latex是編寫數(shù)學(xué)問題和編輯軟件的標(biāo)準(zhǔn)格式,這里將三個(gè)數(shù)據(jù)集從PDF轉(zhuǎn)換為latex文件,以便o1可以輕松讀取和處理。

o1不需要CoT這種額外的提示,實(shí)驗(yàn)中直接將latex問題文件提供給 o1-mini模型。

評(píng)測(cè)采用IMO或CNT數(shù)學(xué)競(jìng)賽中采用的標(biāo)準(zhǔn)評(píng)分方法:每道題最多7分;當(dāng)問題需要數(shù)字答案時(shí),提供正確的數(shù)字將獲得1分;如果解決問題的直觀方法是正確的,則獲得2分;其余4分保留用于展示細(xì)致準(zhǔn)確的推理步驟。

在嚴(yán)格數(shù)學(xué)領(lǐng)域,推理的復(fù)雜性和邏輯步驟的精確性非常重要,而LLM所擅長(zhǎng)的整體概念理解在評(píng)分過程中受到的重視相對(duì)較低。

對(duì)于以證明為導(dǎo)向的問題,評(píng)分系統(tǒng)將2分分配給基本正確的思維鏈(表明解決方案的邏輯路徑);其余5分取決于LLM能否給出詳細(xì)而嚴(yán)格的論點(diǎn),強(qiáng)調(diào)數(shù)學(xué)證明中連貫推理的必要性。

修改標(biāo)準(zhǔn)

在評(píng)估o1-mini的響應(yīng)時(shí),作者觀察到模型難以始終如一地提供嚴(yán)格的證明步驟。

與正式證明相比,o1-mini通常表現(xiàn)出「試錯(cuò)法」:進(jìn)行了一系列嘗試,偶爾通過非正式推理和啟發(fā)式猜測(cè)得出正確答案,這種非正式的推理缺乏數(shù)學(xué)證明所期望的嚴(yán)謹(jǐn)性和正式性。

下圖展示了一個(gè)例子,o1-mini通過驗(yàn)證一些只涉及小自然數(shù)的情況來「猜測(cè)」答案。

圖片

基于o1-mini的這種特性,下面就不再要求正式的證明,而側(cè)重于評(píng)估模型展示正確直覺并通過推理得出正確結(jié)果的能力。

新的評(píng)價(jià)標(biāo)準(zhǔn)根據(jù)性質(zhì)將問題分為兩種不同的類型:

1. 搜索類型:這類問題需要找到特定類型的數(shù)字、整數(shù)或基于表達(dá)式的解決方案,比如下面這個(gè)例子:

圖片

2. 解決類型:這類問題涉及尋找方程或優(yōu)化問題的解決方案。

評(píng)分過程由精通相關(guān)數(shù)學(xué)領(lǐng)域的人工評(píng)估員負(fù)責(zé)。所有問題集、等級(jí)和相應(yīng)的標(biāo)簽都可應(yīng)要求進(jìn)行審查,從而確保評(píng)估結(jié)果的透明度和可訪問性。

結(jié)果評(píng)估

下表展示了兩個(gè)數(shù)據(jù)集(IMO和CNT)上不同類型問題的分布情況。

圖片

實(shí)驗(yàn)的關(guān)鍵評(píng)估指標(biāo)是,檢查o1-mini能否在Search和Solve類型的問題中提供正確的答案,結(jié)果如表2中所示。

圖片

第一列展示了o1-mini在搜索類型問題上的實(shí)際準(zhǔn)確率(包括23個(gè)IMO問題和27個(gè)CNT問題),最后一行統(tǒng)計(jì)量t的計(jì)算公式如下:

圖片

對(duì)于「Search」和「Solve」類型的問題,統(tǒng)計(jì)量t都非常接近0,這表明公共數(shù)據(jù)集(IMO)和私有數(shù)據(jù)集(CNT)之間,o1-mini模型的性能沒有統(tǒng)計(jì)學(xué)上的顯著差異。

也就是說,o1-mini的能力不是來自簡(jiǎn)單地記住解決方案,而是源于其推理能力。

案例研究

o1通常以敘述風(fēng)格編寫的思維過程和以數(shù)學(xué)嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言編寫的最終解決方案。

在某些情況下,思考過程中提供的直覺可能是關(guān)鍵的一步。此外,在最終解決方案部分突出的邏輯錯(cuò)誤也很普遍,例如在回答搜索類型的問題時(shí)未能論證其他解決方案不存在。

圖片

第一個(gè)例子題目如上圖所示,兩人輪流占位,對(duì)Amy的額外要求是兩點(diǎn)之間的距離不能等于√5,求Amy最多能占多少個(gè)位置。

首先,o1-mini分析了√5的限制(即兩點(diǎn)的坐標(biāo)差為(1,2)或(2,1)),可以等效成下圖黑白點(diǎn)的站位,此時(shí)相同顏色的點(diǎn)距離都不會(huì)等于√5。

圖片

于是,O1-mini得出結(jié)論,Amy應(yīng)該將她的石頭放在相同顏色的點(diǎn)上。

在這個(gè)例子中,o1-mini提供了有用的直覺,并給出了正確答案,但 模型也沒有解釋為什么Amy不能占更多的點(diǎn)。

圖片

對(duì)于上圖的問題,o1-mini測(cè)試了從1到18的整數(shù),然后選擇了幾個(gè)較大的數(shù)字。通過分析滿足條件的數(shù)字,它發(fā)現(xiàn)了只有質(zhì)數(shù)的冪才可行的模式。

然后,o1-mini正確地證明了為什么質(zhì)數(shù)的冪通常是可行的。然而,對(duì)于其他合數(shù),o1-mini只提供了一些例子來說明。

在這個(gè)問題中,o1-mini堅(jiān)持測(cè)試小的、易于計(jì)算的案例,這種方法在大多數(shù)搜索類型的問題中很常用,而且一般能拿到大部分分?jǐn)?shù)。

下一個(gè)問題,找出所有符合條件的實(shí)數(shù):

圖片

對(duì)此,人類的推理過程一般首先考慮α是整數(shù)的情況,然后分別評(píng)估奇數(shù)和偶數(shù)兩個(gè)子情況,可以使用求和公式寫出結(jié)果并進(jìn)行推斷。

實(shí)驗(yàn)中,o1-mini以類似的方式開始,幾乎完美地復(fù)制人工解的步驟。對(duì)比細(xì)節(jié)可以發(fā)現(xiàn)模型的推理存在疏忽,比如沒有考慮整數(shù)分量的奇偶校驗(yàn)(奇偶性不會(huì)影響實(shí)際答案)。

圖片

最后一個(gè)例子的推理稍微復(fù)雜一些,o1-mini終于做錯(cuò)了。它這次選擇了暴力破解:遍歷每一列,直到找到怪物或到達(dá)最后一行。

雖然o1-mini正確識(shí)別出有一個(gè)安全的列,但它沒有認(rèn)識(shí)到探索怪物下方以到達(dá)最后一行的重要性。

這表明o1-mini缺乏強(qiáng)大的空間推理能力(即使是在二維空間中),并且與人類相比缺乏解決問題的策略。它無法解決問題可能是由于缺乏公式化的分步方法,或是用來確定最有效算法的規(guī)則。

參考資料:https://arxiv.org/abs/2411.06198

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱