AI跑分越來(lái)越?jīng)]意義，谷歌說(shuō)不如讓AI一起玩游戲

三易生活·2025-08-12

AI能打好游戲這件事，其實(shí)還有極高的商業(yè)化前景。

編者按：本文來(lái)自微信公眾號(hào) “三易生活”（ID：IT-3eLife），作者：三易菌，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

時(shí)隔八年，在生成式人工智能問(wèn)世之后，谷歌又搞了一次“AI棋王爭(zhēng)霸賽”，OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美兩國(guó)AI業(yè)界的頂流模型，將捉對(duì)廝殺。

據(jù)谷歌方面介紹，此次比賽旨在通過(guò)策略游戲中的正面交鋒，評(píng)估并推動(dòng)AI模型在復(fù)雜推理和決策能力上的進(jìn)步，從而解決現(xiàn)有基準(zhǔn)測(cè)試難以跟上模型發(fā)展速度的問(wèn)題。同時(shí)他們此次賽事也是為了宣傳自己的Kaggle Game Arena平臺(tái)，而后者則是谷歌推出的一個(gè)全新的、公開(kāi)的基準(zhǔn)測(cè)試平臺(tái)。

與目前常規(guī)的AI基準(zhǔn)測(cè)試不同，Kaggle Game Arena的測(cè)試題目是“策略游戲”。谷歌之所以推出一個(gè)讓AI玩游戲的平臺(tái)，是因?yàn)楫?dāng)下傳統(tǒng)的AI基準(zhǔn)測(cè)試已經(jīng)陷入瓶頸，難以反映旗艦?zāi)Ｐ偷恼鎸?shí)能力。簡(jiǎn)單來(lái)說(shuō)，或?yàn)槊⒒驗(yàn)槔腁I廠商，已經(jīng)將各種AI基準(zhǔn)測(cè)試給玩壞了，所以作為業(yè)界巨頭，谷歌選擇站出來(lái)正本清源。

其實(shí)在這一輪AI浪潮中，“錢(qián)不值錢(qián)了”是一個(gè)很特別的現(xiàn)象。以往獨(dú)角獸通常指的是成立時(shí)間較短，估值超過(guò)10億美元、且未上市的科技創(chuàng)新企業(yè)。可現(xiàn)在只要?jiǎng)?chuàng)始人有一定的技術(shù)背景，一家AI初創(chuàng)企業(yè)拿到10億美元的估值幾乎像吃飯喝水一樣簡(jiǎn)單。

甚至出現(xiàn)了Builder.ai這種宣稱(chēng)人工智能編程，實(shí)際上全靠印度程序員手寫(xiě)代碼的騙子公司。對(duì)于這一現(xiàn)象，金融業(yè)給出的答案是他們對(duì)AI革命可能會(huì)帶來(lái)的機(jī)遇“錯(cuò)失恐懼”（FOMO），并促使其揮舞著鈔票投向一切像模像樣的AI公司，因此也造就了圍繞AI的非理性繁榮。

如此一來(lái)，創(chuàng)業(yè)者利用彌漫在投資市場(chǎng)的AI FOMO情緒推高公司估值也在情理之中。那么，要如何讓自己的AI初創(chuàng)公司變得更有價(jià)值呢？由于當(dāng)下的AI技術(shù)實(shí)在過(guò)于高深，投資者們判斷一家AI公司實(shí)力的方法很簡(jiǎn)單，跑分高的就是好標(biāo)的。

“不服跑個(gè)分”順勢(shì)也就成為了一眾AI企業(yè)宣傳自己產(chǎn)品的核心手段，如果有經(jīng)常關(guān)注AI相關(guān)消息，想必就會(huì)對(duì)LMArena基準(zhǔn)測(cè)試、大模型競(jìng)技場(chǎng)Chatbot Arena等榜單不陌生。當(dāng)跑分成績(jī)與融資捆綁在一起，一個(gè)讓數(shù)碼愛(ài)好者、手游玩家熟悉的操作也開(kāi)始浮出水面，那就是“刷榜”。

目前市面上評(píng)測(cè)大模型能力的基準(zhǔn)測(cè)試可謂五花八門(mén)，主要包括知識(shí)推理、數(shù)學(xué)和編程。以知名AI開(kāi)源社區(qū)HuggingFace出品的榜單為例，其主要是評(píng)測(cè)大模型遵循指令的能力，以及AI模型在長(zhǎng)文本中進(jìn)行多步驟推理能力等方面。

與PC上的3DMark、手機(jī)上的安兔兔一樣，AI基準(zhǔn)測(cè)試也是通過(guò)設(shè)定一系列客觀且可復(fù)現(xiàn)的場(chǎng)景，來(lái)測(cè)試AI模型在不同領(lǐng)域的能力。然而為了可復(fù)現(xiàn)和一致性，AI基準(zhǔn)測(cè)試自然就會(huì)缺乏靈活性，所以也就有了“刷榜”的空間。AI模型通過(guò)自身的記憶能力在一次次測(cè)試中記下基準(zhǔn)測(cè)試數(shù)據(jù)集中的題目，然后再針對(duì)性的進(jìn)行訓(xùn)練，最終就可以跑出高分。

例如在GSM8K、MATH等測(cè)試AI模型數(shù)學(xué)能力的測(cè)試集中，GPT-4o、Gemini 1.5 Pro等模型動(dòng)輒就能獲得80%以上的超高正確率，甚至還出現(xiàn)了基準(zhǔn)測(cè)試一方主動(dòng)配合AI廠商刷榜的情況。此前在今年春季，Meta的新一代開(kāi)源模型Llama 4史詩(shī)級(jí)翻車(chē)，出現(xiàn)了跑分力壓群雄，實(shí)際表現(xiàn)卻一言難盡的情況。對(duì)此就有AI研究人員發(fā)現(xiàn)，Llama4在發(fā)布前針對(duì)大模型競(jìng)技場(chǎng)Chatbot Arena測(cè)試了27個(gè)不同版本，卻只公開(kāi)了最佳成績(jī)。

由此不難發(fā)現(xiàn)，基準(zhǔn)測(cè)試已經(jīng)變得越來(lái)越難以衡量AI模型，特別是擁有目前最高水平的“State-of-the-Art”模型。因此谷歌就開(kāi)發(fā)了Kaggle Game Arena，搞了場(chǎng)“AI國(guó)際象棋棋王爭(zhēng)霸賽”來(lái)作為擂臺(tái)，讓各大廠商的旗艦?zāi)Ｐ陀行愠錾舷薜臋C(jī)會(huì)。

那么為何谷歌會(huì)選擇游戲來(lái)作為測(cè)試大模型能力的場(chǎng)景呢？按照他們的說(shuō)法，游戲這種在既定規(guī)則下的隨機(jī)，非常適合衡量AI的智能，有明確的規(guī)則約束AI，就使得它不會(huì)放飛自我，足夠強(qiáng)的隨機(jī)性又能讓其展現(xiàn)出能力上限。此外，游戲也具備結(jié)果可衡量、過(guò)程可視化、推理可驗(yàn)證，以及零和博弈的特點(diǎn)。

事實(shí)上，游戲與AI業(yè)界有著密不可分的關(guān)系。以O(shè)penAI為例，對(duì)于普通人而言，這個(gè)名字走入視野是因?yàn)閯潟r(shí)代的ChatGPT，而對(duì)于《DOTA2》的玩家來(lái)說(shuō)，OpenAI在2019年就給他們留下了難以磨滅的印象。彼時(shí)，OpenAI的OpenAI Five程序輕而易舉地?fù)魯×斯谲姂?zhàn)隊(duì)OG，初步向外界證明了AI不僅征服了棋類(lèi)對(duì)弈，在更復(fù)雜的電子競(jìng)技游戲中也能壓倒人類(lèi)。

根據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對(duì)話時(shí)的說(shuō)法，通過(guò)為《DOTA2》開(kāi)發(fā)OpenAI Five，OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)榱恕盎谌祟?lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）”，而后者就正是ChatGPT表現(xiàn)出比以往AI產(chǎn)品更為智能的關(guān)鍵。

如果AI能打好游戲，不僅可以證明智能水平，而且會(huì)有極高的商業(yè)化前景。要知道游戲廠商可是做夢(mèng)都想要獲得更智能的NPC，用來(lái)提升玩家體驗(yàn)的。

本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。