編者按:本文來自微信公眾號 來源:新智元(ID:AI_era),編輯:編輯部,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
就在昨天,OpenAI憋出個大招,放出了o3和o4-mini。
據(jù)稱,這些模型首次實現(xiàn)了「用圖像思考」,堪稱視覺推理巔峰之作。
而有這樣一類圖像推理題,讓國內(nèi)每年都有幾百萬考生受盡折磨。
看到下面這些熟悉的題,參加過國考或省考的你,是不是DNA動了?
圖形推理題,在公務(wù)員考試中常常被考生吐槽:題難、奇葩,邏輯怪異,套路滿滿,甚至十分「反人類」!
既然如今的AI這么強,讓人類考生直呼變態(tài)的圖形推理,它們做得出嗎?
CMU的研究者,這次就用公務(wù)員考試真題來實測了一把!
他們建立了一個將多模態(tài)推理與領(lǐng)域知識分離的新基準——VisualPuzzles,來考驗AI的視覺拼圖解決能力。
具體來說,研究者從多個來源精心挑選或改編了1168道圖文邏輯題,其中一個重要來源便是中國國家公務(wù)員考試行測中的邏輯推理題(沒錯,真·考公難度)。
論文鏈接:https://arxiv.org/abs/2504.10342
項目鏈接:https://neulab.github.io/VisualPuzzles/
而測試結(jié)果,可以說令人震驚:
最強模型的正確率也只有57.5%,都低于人類5%最差水平
普通開源模型的正確率更慘淡,僅有約30%~40%
相比之下,人類頂尖選手的正確率可以接近滿分,可見在純邏輯推理方面,模型與人仍有明顯鴻溝
看來,模型們還是上不了岸了啊……
此次研究的其他發(fā)現(xiàn)如下。
知識≠推理:在像MMMU這樣的知識密集型基準上,推理與知識有很強的相關(guān)性,但在VisualPuzzles上則不然
更大的模型=更好的知識,但不一定有更好的推理能力
「思考」模式并不總是有效。更多的token=更好的知識回憶≠更好的推理
不同模型在VisualPuzzles上的表現(xiàn),成績從高到低排列;其中前3行為人類前5%,前50%和倒數(shù)5%
模型 vs 人類
如何測試多模態(tài)大模型的能力?
即便取得好成績,AI到底是學會了推理,還是說只是記下了特定領(lǐng)域知識?
現(xiàn)有的多模態(tài)基準測試,往往將推理能力與領(lǐng)域?qū)I(yè)知識混為一談,難以單獨評估通用推理能力。
CMU提出的VisualPuzzles,目的就是針對視覺推理的基準,同時故意減少對專業(yè)知識的依賴。
VisualPuzzles包含五大類題型:算法推理、類比推理、演繹推理、歸納推理和空間推理。
實驗表明,與像MMMU等過去的基準相比,VisualPuzzles需要的領(lǐng)域特定知識明顯更少,而對復(fù)雜推理的要求更高,從而能更準確地評估真正的多模態(tài)推理能力。
評估結(jié)果顯示,最先進的多模態(tài)大語言模型在VisualPuzzles上的表現(xiàn),始終落后于人類水平。
而且在知識密集型基準上表現(xiàn)強勁的模型,在專注推理且依賴較少知識的任務(wù)上,未必能夠取得成功。
圖1:模型在VisualPuzzles上的準確率與人類表現(xiàn)百分位數(shù)的比較。所有評估的模型都低于人類5百分位數(shù)(57.5%)
有趣的是,具有顯式「思考」(think)模式的模型并不總是比基礎(chǔ)版本好。
此外,增強推理的技術(shù)手段,在不同模型和任務(wù)類型中收效參差不齊。
研究者并未發(fā)現(xiàn)模型規(guī)模與性能存在明確關(guān)聯(lián)。
這說明當前的推理策略還不能很好地泛化到VisualPuzzles。
大模型「顯眼包」解題大賞
下面,我們來看一看o1、Gemini-2.5 Pro、Claude-3.7-Sonnet這些頂尖的明星大模型,在做公務(wù)員考試行測中的邏輯推理題時,都會是什么樣子。
(人類選手們也可以試試,看這些題自己能不能做得出。)
下面這道題中,給出了一對按特定角度排列的椅子,答題人需要選擇與題干中椅子角度相匹配的選項。
Claude-3.7-Sonnet針對這道題開啟了思考模型,一通操作猛如虎——
「這些椅子相隔180度,它們是以側(cè)面視角展示的。從角度來看,任何一個選項都是正確的。然而,更仔細地觀察它們的具體方向:原始椅子以完美的側(cè)面視角展示。選項A展示了與問題中的排列最匹配的最干凈的側(cè)面視圖,所以我選A?!?/p>
然而,這道題的正確答案是C。
下面這道題,要求數(shù)出圖中的三角形比正方形多幾個,看起來是小學數(shù)學題的級別。
Claude-3.7-Sonnet-Thinking經(jīng)過一番長長的思考,給出答案D,然而正確答案是C。
下圖中有幾個左手?Claude-3.7-Sonnet-Thinking表示答案是B,然而正確答案是C。
以上這幾道,只是小試牛刀而已。接下來,就要上讓人類考生都瑟瑟發(fā)抖的公考行測題了,準備好。
Claude-3.7-Sonnet-Thinking給出的答案是C,然而正確答案是A。
然而這次不能怪它做錯了,我們自己也沒做出來……
而接下來這道題,Claude-3.7-Sonnet-Thinking的表現(xiàn)就十分亮眼了。
這次,模型經(jīng)過一番推理后,給出了正確答案——C!
這道判斷村莊道路圖的題,有一定難度。
模型給出了答案D,然而正確答案是C。
下面這道題,對人類來說是很簡單的,但Claude-3.7-Sonnet-Thinking依然做錯了,它給出的答案是A。
而有時對人類看起來并不直觀、有一定難度的題,模型卻反而能做對,比如下面這道。
Claude-3.7-Sonnet-Thinking給出了正確答案——C。
總體而言,行測中這類找規(guī)律的歸納題,模型偶爾能做對。
在空間題中,模型也有一定概率能得出正確答案。
有趣的是,有些對人類很簡單的題,它反而不行,證明了AI模型的空間推理能力跟人腦還是有差距。
最后,想問問人類讀者:你做對了幾道題,贏過AI了嗎?
三個不等式
正如前文所言,新研究主要揭示了3個「不等式」:
1. 知識≠推理
2. 更大的模型=更好的知識≠更好的推理
3. 更多的token≠更好的推理
知識≠推理
在非專業(yè)場景中評估通用推理能力的核心在于,厘清推理能力與領(lǐng)域?qū)I(yè)知識的邊界。
為此,研究人員提出了一個專注視覺推理、并有意弱化對專業(yè)知識依賴的基準數(shù)據(jù)集——VisualPuzzles。
下面,我們就來看看這個VisualPuzzles,到底有多難:
題型多樣:包括算法類、類比類、邏輯類、歸納類、空間類五大推理類型,覆蓋了常見的邏輯與思維模式。
難度分布:Easy/Medium/Hard分別占比46%/39%/15%,涵蓋從入門到骨灰級的思維挑戰(zhàn)。
多模態(tài)選項:57%是圖片選項,43%是文字選項,這樣可以測試模型對不同模態(tài)信息的推理整合。
語言要求低:題干大部分使用基礎(chǔ)英文詞匯,以降低閱讀障礙,突出對視覺和邏輯本身的考察。
其中,五大推理類別具體為:
1. 算法推理:涉及對算法規(guī)則進行推理。
2. 類比推理:需要分析一對實體之間的關(guān)系。
3. 演繹推理:通過已知前提推理得出邏輯結(jié)論。
4. 歸納推理:側(cè)重于從觀察到的模式中概括出規(guī)則。
5. 空間推理:需要解釋和操作空間關(guān)系。
表1:VisualPuzzles的題型和難度分布等統(tǒng)計數(shù)據(jù)
除了難度極高之外,VisualPuzzles相比于現(xiàn)有的基準,還更能反映模型的推理能力,而不是對知識的記憶能力。
為了證明這一點,研究者特意做了一波驗證:
首先,讓GPT-4o為兩類數(shù)據(jù)集各50道隨機選題生成「知識概念檢查清單」。
其中,每份清單包含針對原始問題所需背景知識的具體提問。比如說,如果某題需理解兩條物理定律,那么清單會要求分別解釋這兩條定律。通過統(tǒng)計每道題對應(yīng)的檢查清單條目數(shù)量,可量化問題的知識密集程度。
結(jié)果顯示,對于單道題平均需要的知識點:MMMU是3.9個,VisualPuzzles是1.1個。
表3:每個實例在MMMU與VisualPuzzles上生成的平均知識概念問題數(shù)量
接著,測量模型在兩個基準測試上的知識準確率(即正確回答知識檢查清單問題的能力)。
其中,知識準確率和推理能力無關(guān),反映了模型在不依賴推理的情況下,已經(jīng)掌握的所需知識量。
結(jié)果顯示:
VisualPuzzles:多數(shù)模型知識準確率超過90%
MMMU:大多數(shù)模型準確率不足60%,較小模型常低于50%
只有最大規(guī)模的模型在MMMU上接近80%準確率
也就是說,MMMU對領(lǐng)域?qū)I(yè)知識的強依賴性,而VisualPuzzles所需知識儲備已普遍存在于現(xiàn)有模型中——基本沒有「超綱題」。
如果推理成績和知識掌握程度的相關(guān)性高更高,那么可以說知識=推理。
但下圖描述了知識準確率和推理準確率的相關(guān)性:
在MMMU中(左圖),知識掌握程度和推理成績相關(guān)性高達0.8
在VisualPuzzles中(右圖),這一相關(guān)性降至0.4
也就是說,在VisualPuzzles中模型無法只靠自己學過的知識點,答出實際需要推理的題目。
圖2(下):推理準確率與知識準確率之間的關(guān)系散點圖及趨勢線
更大的模型≠能答對題
現(xiàn)在,我們已經(jīng)有了不「超綱」且很難通過「背題」答出來的測試集,接下來就可以測測模型的表現(xiàn)了。
圖2(上)繪制了推理準確率和模型參數(shù)規(guī)模的關(guān)系,可以看到:
MMMU:模型參數(shù)規(guī)模越大,知識準確率越高,更大的參數(shù)規(guī)模通常轉(zhuǎn)化為更高的整體基準表現(xiàn)。
VisualPuzzles:與MMMU不同,如果只擴大參數(shù)數(shù)量,那并不能保證在VisualPuzzles上的表現(xiàn)更好。
換句話說,需要知識時,大模型參數(shù)規(guī)模越大、預(yù)訓練知識越多,可能推理越出色。
但在不需要專業(yè)知識、只考察純邏輯思維等推理能力的時候,大模型就開始力不從心了。
圖2(上):MMMU和VisualPuzzles上準確率與模型規(guī)模之間的關(guān)系散點圖及趨勢線
長文本≠好推理
按道理說,像是o1,Claude-3.7-Sonnet-Thinking,Gemini-2.0-Flash-Thinking這些看起來「更會思考」的推理模型,應(yīng)該在邏輯難題上表現(xiàn)更好。
然而在實際的測試中,它們雖然確實會輸出更長、更詳細的回答,但正確率并沒有顯著提高。
表4:解決基準問題時所需的邏輯推理步驟百分比
圖3:推理模型與其通用對照模型在VisualPuzzles上的準確率和平均完成token數(shù)的比較
究其原因,可能有以下幾點:
1. 更多文字≠更深入的邏輯推理
模型往往只是在其輸出中添加了許多「推理裝飾」,但缺乏真正的推理深度。本質(zhì)上,它仍然在沿用與非思維增強版相同的推理模式。
2. 在知識型題目上有效,但在純邏輯題上收效甚微
在需要調(diào)用大量專業(yè)知識(如醫(yī)學、法律、物理定律)的題目上,長文本有助于「回憶」相關(guān)知識。
但在VisualPuzzles這樣依賴邏輯推理(而非記憶庫)的測試中,它們就顯得力不從心。
推理套路不一定管用
為了更好地理解這種差異,研究者分析了模型在長思維鏈中,常用的兩種推理策略:
Branching(分支推理)
Revalidation(回溯驗證)
如圖4所示,分析揭示了基準之間的顯著對比,其中:
左圖比較了Claude-3.7-Sonnet和Claude-3.7-Sonnet-Thinking在MMMU和VisualPuzzles上的準確率
中圖顯示了每種推理模式的頻率
右圖展示了這些推理模式與基準準確率的相關(guān)性
可以看到,在對知識依賴更強的任務(wù)(如MMMU)中,這些策略可以幫助模型回憶更多事實,從而提高正確率。
然而在VisualPuzzles上,這些行為雖然出現(xiàn)得更為頻繁,但成效卻幾乎為零。
也就是說,模型可能只是走個過場,并沒有真推理。
圖4:Claude-3.7-Sonnet-Thinking推理模式在MMMU和VisualPuzzles上的比較
值得一提的是,模型在MMMU和VisualPuzzles中的回答策略,是有明顯差異的。
在MMMU中,模型傾向于采用基于選項的策略——即利用提供的選項早期排除不太可能的答案,并選擇最相關(guān)的選項,通常在不顯式解決問題的情況下進行。
相反,在VisualPuzzles中,模型更頻繁地采用「回答優(yōu)先」策略,即在比較結(jié)果與選項之前,獨立嘗試解決問題。
表5:回答策略
模型為何「一路滑鐵盧」?
對此,研究者分析認為:
模型對空間信息理解仍不穩(wěn)定:視覺感知環(huán)節(jié)常出錯,尤其涉及物體位置、形狀與角度等
最大且最致命的問題依然是:缺乏深層邏輯推理能力
圖7:Claude-3.7-Sonnet-Thinking的錯誤分布
推理能力可以「遷移」嗎?
對于人類而言,每個推理類別可能涉及不同的認知或心理過程,因此一個類別的表現(xiàn)可能無法遷移到另一個類別。
但對于模型來說,其相關(guān)性熱圖講述了一個不同的故事。
研究者觀察到推理類別之間存在顯著的強相關(guān)性,相關(guān)值從0.11到高達0.94不等。
特別是,算法推理和演繹推理之間的相關(guān)性很高(0.94),而算法-類比和演繹-類比等其他組合也表現(xiàn)出較強的關(guān)聯(lián)。這表明模型的表現(xiàn)傾向于在不同類別之間進行泛化。
然而,這種泛化可能只是因為模型正在利用某些通用的「表面模式」或捷徑,并不代表具備了真正多樣化的推理能力。
圖6:推理類別之間的相關(guān)性熱圖(所有評估模型的平均值)
總結(jié)
VisualPuzzles的出現(xiàn)揭示了一個重要的事實:
依靠記憶力(大規(guī)模訓練中的知識)不足以讓模型在真正的推理題中表現(xiàn)出色;
大模型的推理能力仍與人類存在顯著差距,尤其在不依賴專業(yè)知識、純邏輯思維的場景中。
這也為未來的多模態(tài)大模型發(fā)展指明了努力方向:
如何在訓練過程中強化推理結(jié)構(gòu)而非單純依賴知識?
如何設(shè)計出兼具復(fù)雜邏輯與通用認知的新型網(wǎng)絡(luò)或推理模塊?
是否還能擴展到多圖、多步驟或動態(tài)場景的推理?
總之,在不斷擴大規(guī)模、補充知識的同時,也別忘了走向真正的理解與推理。
畢竟,上岸不光要背知識點,更要有「硬核邏輯」做支撐!
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。