OpenAI o1是真有實(shí)力！港大權(quán)威AB測(cè)試，國(guó)家隊(duì)奧數(shù)題照樣拿下

新智元·2024-12-22

OpenAI o1的數(shù)學(xué)推理能力是否真的那么強(qiáng)？近日，來(lái)自港大的研究人員對(duì)模型進(jìn)行了嚴(yán)格的AB測(cè)試，在非公開(kāi)的國(guó)家隊(duì)奧數(shù)題面前，o1證明了自己的實(shí)力。

編者按：本文來(lái)自微信公眾號(hào) 新智元（ID：AI_era），編輯：alan，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

國(guó)際奧數(shù)題手到擒來(lái)，OpenAI o1是靠死記硬背還是真的實(shí)力超群？

近日，來(lái)自港大的研究人員對(duì)o1進(jìn)行了嚴(yán)格的AB測(cè)試：

論文地址：https://arxiv.org/pdf/2411.06198

如何判斷LLM是否真正具有強(qiáng)大的數(shù)學(xué)推理能力？

考兩張卷子：一張是有可能提前背題的，另一張是不太可能提前背題的，兩張卷子難度一致。

如果LLM兩次考試的分?jǐn)?shù)差不多，就證明人家是真會(huì)；要是后者的成績(jī)明顯低于前者，那就有作弊嫌疑了。

本文中，OpenAI Orion-1模型面對(duì)的兩張?jiān)嚲?，分別取自國(guó)際數(shù)學(xué)奧林匹克（IMO）和中國(guó)國(guó)家隊(duì)訓(xùn)練營(yíng)（CNT）的試題。

IMO的題目很容易獲得，而CNT的題目則無(wú)法公開(kāi)訪問(wèn)，通過(guò)比較o1模型在兩個(gè)數(shù)據(jù)集之間的性能，作者得出結(jié)論：o1是真有實(shí)力！

論文細(xì)節(jié)

OpenAI o1的亮相直接掀起了推理模型的風(fēng)潮。

o1采用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練token-wise獎(jiǎng)勵(lì)模型，模擬了推理和反思過(guò)程，從而在token生成中培養(yǎng)了一種內(nèi)在的思維鏈風(fēng)格。

從本質(zhì)上講，o1的推理是一個(gè)制定和執(zhí)行計(jì)劃的過(guò)程。

OpenAI曾表示，o1-mini在美國(guó)高中AIME數(shù)學(xué)競(jìng)賽中的分?jǐn)?shù)可以排進(jìn)全美前500，但也有一些評(píng)測(cè)表示o1的效果并不理想。

上奧數(shù)題

為了公平測(cè)試o1的數(shù)學(xué)推理能力，本文的研究者編譯了兩個(gè)數(shù)據(jù)集進(jìn)行分析。

第一個(gè)數(shù)據(jù)集包含來(lái)自過(guò)去十年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽（IMO）的60個(gè)問(wèn)題；第二個(gè)數(shù)據(jù)集包含來(lái)自中國(guó)國(guó)家隊(duì)（CNT）訓(xùn)練營(yíng)的60個(gè)問(wèn)題（非公開(kāi)）。

注：CNT訓(xùn)練營(yíng)旨在為學(xué)生在中國(guó)的IMO比賽做好準(zhǔn)備。中國(guó)國(guó)家隊(duì)的選拔過(guò)程涉及多次測(cè)試（通常為8-10次），每次持續(xù)4個(gè)半小時(shí)，與實(shí)際IMO比賽的形式相同。

針對(duì)測(cè)試事先作出假設(shè)：

原假設(shè)：o1-mini的問(wèn)題解決能力是基于推理能力的；
備擇假設(shè)：o1-mini的性能可能來(lái)源于對(duì)問(wèn)題和解決方案的記憶，或?qū)︻A(yù)訓(xùn)練模式的模仿。

對(duì)于原假設(shè)，可以預(yù)計(jì)模型在IMO和CNT數(shù)據(jù)集中表現(xiàn)出類似的性能水平。相反，在備擇假設(shè)下，o1在兩個(gè)數(shù)據(jù)集之間將存在顯著的性能差異（IMO數(shù)據(jù)集的得分更高）。

另外，原假設(shè)還表明o1-mini能夠?qū)⑵渫评砑寄芡茝V到不同的問(wèn)題集中，而不管它們的來(lái)源或復(fù)雜性如何。

實(shí)驗(yàn)測(cè)試

latex是編寫數(shù)學(xué)問(wèn)題和編輯軟件的標(biāo)準(zhǔn)格式，這里將三個(gè)數(shù)據(jù)集從PDF轉(zhuǎn)換為latex文件，以便o1可以輕松讀取和處理。

o1不需要CoT這種額外的提示，實(shí)驗(yàn)中直接將latex問(wèn)題文件提供給 o1-mini模型。

評(píng)測(cè)采用IMO或CNT數(shù)學(xué)競(jìng)賽中采用的標(biāo)準(zhǔn)評(píng)分方法：每道題最多7分；當(dāng)問(wèn)題需要數(shù)字答案時(shí)，提供正確的數(shù)字將獲得1分；如果解決問(wèn)題的直觀方法是正確的，則獲得2分；其余4分保留用于展示細(xì)致準(zhǔn)確的推理步驟。

在嚴(yán)格數(shù)學(xué)領(lǐng)域，推理的復(fù)雜性和邏輯步驟的精確性非常重要，而LLM所擅長(zhǎng)的整體概念理解在評(píng)分過(guò)程中受到的重視相對(duì)較低。

對(duì)于以證明為導(dǎo)向的問(wèn)題，評(píng)分系統(tǒng)將2分分配給基本正確的思維鏈（表明解決方案的邏輯路徑）；其余5分取決于LLM能否給出詳細(xì)而嚴(yán)格的論點(diǎn)，強(qiáng)調(diào)數(shù)學(xué)證明中連貫推理的必要性。

修改標(biāo)準(zhǔn)

在評(píng)估o1-mini的響應(yīng)時(shí)，作者觀察到模型難以始終如一地提供嚴(yán)格的證明步驟。

與正式證明相比，o1-mini通常表現(xiàn)出「試錯(cuò)法」：進(jìn)行了一系列嘗試，偶爾通過(guò)非正式推理和啟發(fā)式猜測(cè)得出正確答案，這種非正式的推理缺乏數(shù)學(xué)證明所期望的嚴(yán)謹(jǐn)性和正式性。

下圖展示了一個(gè)例子，o1-mini通過(guò)驗(yàn)證一些只涉及小自然數(shù)的情況來(lái)「猜測(cè)」答案。

基于o1-mini的這種特性，下面就不再要求正式的證明，而側(cè)重于評(píng)估模型展示正確直覺(jué)并通過(guò)推理得出正確結(jié)果的能力。

新的評(píng)價(jià)標(biāo)準(zhǔn)根據(jù)性質(zhì)將問(wèn)題分為兩種不同的類型：

1. 搜索類型：這類問(wèn)題需要找到特定類型的數(shù)字、整數(shù)或基于表達(dá)式的解決方案，比如下面這個(gè)例子：

2. 解決類型：這類問(wèn)題涉及尋找方程或優(yōu)化問(wèn)題的解決方案。

評(píng)分過(guò)程由精通相關(guān)數(shù)學(xué)領(lǐng)域的人工評(píng)估員負(fù)責(zé)。所有問(wèn)題集、等級(jí)和相應(yīng)的標(biāo)簽都可應(yīng)要求進(jìn)行審查，從而確保評(píng)估結(jié)果的透明度和可訪問(wèn)性。

結(jié)果評(píng)估

下表展示了兩個(gè)數(shù)據(jù)集（IMO和CNT）上不同類型問(wèn)題的分布情況。

實(shí)驗(yàn)的關(guān)鍵評(píng)估指標(biāo)是，檢查o1-mini能否在Search和Solve類型的問(wèn)題中提供正確的答案，結(jié)果如表2中所示。

第一列展示了o1-mini在搜索類型問(wèn)題上的實(shí)際準(zhǔn)確率（包括23個(gè)IMO問(wèn)題和27個(gè)CNT問(wèn)題），最后一行統(tǒng)計(jì)量t的計(jì)算公式如下：

對(duì)于「Search」和「Solve」類型的問(wèn)題，統(tǒng)計(jì)量t都非常接近0，這表明公共數(shù)據(jù)集（IMO）和私有數(shù)據(jù)集（CNT）之間，o1-mini模型的性能沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異。

也就是說(shuō)，o1-mini的能力不是來(lái)自簡(jiǎn)單地記住解決方案，而是源于其推理能力。

案例研究

o1通常以敘述風(fēng)格編寫的思維過(guò)程和以數(shù)學(xué)嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言編寫的最終解決方案。

在某些情況下，思考過(guò)程中提供的直覺(jué)可能是關(guān)鍵的一步。此外，在最終解決方案部分突出的邏輯錯(cuò)誤也很普遍，例如在回答搜索類型的問(wèn)題時(shí)未能論證其他解決方案不存在。

第一個(gè)例子題目如上圖所示，兩人輪流占位，對(duì)Amy的額外要求是兩點(diǎn)之間的距離不能等于√5，求Amy最多能占多少個(gè)位置。

首先，o1-mini分析了√5的限制（即兩點(diǎn)的坐標(biāo)差為（1，2）或（2，1）），可以等效成下圖黑白點(diǎn)的站位，此時(shí)相同顏色的點(diǎn)距離都不會(huì)等于√5。

于是，O1-mini得出結(jié)論，Amy應(yīng)該將她的石頭放在相同顏色的點(diǎn)上。

在這個(gè)例子中，o1-mini提供了有用的直覺(jué)，并給出了正確答案，但模型也沒(méi)有解釋為什么Amy不能占更多的點(diǎn)。

對(duì)于上圖的問(wèn)題，o1-mini測(cè)試了從1到18的整數(shù)，然后選擇了幾個(gè)較大的數(shù)字。通過(guò)分析滿足條件的數(shù)字，它發(fā)現(xiàn)了只有質(zhì)數(shù)的冪才可行的模式。

然后，o1-mini正確地證明了為什么質(zhì)數(shù)的冪通常是可行的。然而，對(duì)于其他合數(shù)，o1-mini只提供了一些例子來(lái)說(shuō)明。

在這個(gè)問(wèn)題中，o1-mini堅(jiān)持測(cè)試小的、易于計(jì)算的案例，這種方法在大多數(shù)搜索類型的問(wèn)題中很常用，而且一般能拿到大部分分?jǐn)?shù)。

下一個(gè)問(wèn)題，找出所有符合條件的實(shí)數(shù)：

對(duì)此，人類的推理過(guò)程一般首先考慮α是整數(shù)的情況，然后分別評(píng)估奇數(shù)和偶數(shù)兩個(gè)子情況，可以使用求和公式寫出結(jié)果并進(jìn)行推斷。

實(shí)驗(yàn)中，o1-mini以類似的方式開(kāi)始，幾乎完美地復(fù)制人工解的步驟。對(duì)比細(xì)節(jié)可以發(fā)現(xiàn)模型的推理存在疏忽，比如沒(méi)有考慮整數(shù)分量的奇偶校驗(yàn)（奇偶性不會(huì)影響實(shí)際答案）。

最后一個(gè)例子的推理稍微復(fù)雜一些，o1-mini終于做錯(cuò)了。它這次選擇了暴力破解：遍歷每一列，直到找到怪物或到達(dá)最后一行。

雖然o1-mini正確識(shí)別出有一個(gè)安全的列，但它沒(méi)有認(rèn)識(shí)到探索怪物下方以到達(dá)最后一行的重要性。

這表明o1-mini缺乏強(qiáng)大的空間推理能力（即使是在二維空間中），并且與人類相比缺乏解決問(wèn)題的策略。它無(wú)法解決問(wèn)題可能是由于缺乏公式化的分步方法，或是用來(lái)確定最有效算法的規(guī)則。

參考資料：https://arxiv.org/abs/2411.06198

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。