編者按:本文來(lái)自微信公眾號(hào) “三易生活”(ID:IT-3eLife),作者:三易菌,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
時(shí)隔八年,在生成式人工智能問(wèn)世之后,谷歌又搞了一次“AI棋王爭(zhēng)霸賽”,OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美兩國(guó)AI業(yè)界的頂流模型,將捉對(duì)廝殺。
據(jù)谷歌方面介紹,此次比賽旨在通過(guò)策略游戲中的正面交鋒,評(píng)估并推動(dòng)AI模型在復(fù)雜推理和決策能力上的進(jìn)步,從而解決現(xiàn)有基準(zhǔn)測(cè)試難以跟上模型發(fā)展速度的問(wèn)題。同時(shí)他們此次賽事也是為了宣傳自己的Kaggle Game Arena平臺(tái),而后者則是谷歌推出的一個(gè)全新的、公開(kāi)的基準(zhǔn)測(cè)試平臺(tái)。
與目前常規(guī)的AI基準(zhǔn)測(cè)試不同,Kaggle Game Arena的測(cè)試題目是“策略游戲”。谷歌之所以推出一個(gè)讓AI玩游戲的平臺(tái),是因?yàn)楫?dāng)下傳統(tǒng)的AI基準(zhǔn)測(cè)試已經(jīng)陷入瓶頸,難以反映旗艦?zāi)P偷恼鎸?shí)能力。簡(jiǎn)單來(lái)說(shuō),或?yàn)槊⒒驗(yàn)槔腁I廠商,已經(jīng)將各種AI基準(zhǔn)測(cè)試給玩壞了,所以作為業(yè)界巨頭,谷歌選擇站出來(lái)正本清源。
其實(shí)在這一輪AI浪潮中,“錢(qián)不值錢(qián)了”是一個(gè)很特別的現(xiàn)象。以往獨(dú)角獸通常指的是成立時(shí)間較短,估值超過(guò)10億美元、且未上市的科技創(chuàng)新企業(yè)。可現(xiàn)在只要?jiǎng)?chuàng)始人有一定的技術(shù)背景,一家AI初創(chuàng)企業(yè)拿到10億美元的估值幾乎像吃飯喝水一樣簡(jiǎn)單。
甚至出現(xiàn)了Builder.ai這種宣稱(chēng)人工智能編程,實(shí)際上全靠印度程序員手寫(xiě)代碼的騙子公司。對(duì)于這一現(xiàn)象,金融業(yè)給出的答案是他們對(duì)AI革命可能會(huì)帶來(lái)的機(jī)遇“錯(cuò)失恐懼”(FOMO),并促使其揮舞著鈔票投向一切像模像樣的AI公司,因此也造就了圍繞AI的非理性繁榮。
如此一來(lái),創(chuàng)業(yè)者利用彌漫在投資市場(chǎng)的AI FOMO情緒推高公司估值也在情理之中。那么,要如何讓自己的AI初創(chuàng)公司變得更有價(jià)值呢?由于當(dāng)下的AI技術(shù)實(shí)在過(guò)于高深,投資者們判斷一家AI公司實(shí)力的方法很簡(jiǎn)單,跑分高的就是好標(biāo)的。
“不服跑個(gè)分”順勢(shì)也就成為了一眾AI企業(yè)宣傳自己產(chǎn)品的核心手段,如果有經(jīng)常關(guān)注AI相關(guān)消息,想必就會(huì)對(duì)LMArena基準(zhǔn)測(cè)試、大模型競(jìng)技場(chǎng)Chatbot Arena等榜單不陌生。當(dāng)跑分成績(jī)與融資捆綁在一起,一個(gè)讓數(shù)碼愛(ài)好者、手游玩家熟悉的操作也開(kāi)始浮出水面,那就是“刷榜”。
目前市面上評(píng)測(cè)大模型能力的基準(zhǔn)測(cè)試可謂五花八門(mén),主要包括知識(shí)推理、數(shù)學(xué)和編程。以知名AI開(kāi)源社區(qū)HuggingFace出品的榜單為例,其主要是評(píng)測(cè)大模型遵循指令的能力,以及AI模型在長(zhǎng)文本中進(jìn)行多步驟推理能力等方面。
與PC上的3DMark、手機(jī)上的安兔兔一樣,AI基準(zhǔn)測(cè)試也是通過(guò)設(shè)定一系列客觀且可復(fù)現(xiàn)的場(chǎng)景,來(lái)測(cè)試AI模型在不同領(lǐng)域的能力。然而為了可復(fù)現(xiàn)和一致性,AI基準(zhǔn)測(cè)試自然就會(huì)缺乏靈活性,所以也就有了“刷榜”的空間。AI模型通過(guò)自身的記憶能力在一次次測(cè)試中記下基準(zhǔn)測(cè)試數(shù)據(jù)集中的題目,然后再針對(duì)性的進(jìn)行訓(xùn)練,最終就可以跑出高分。
例如在GSM8K、MATH等測(cè)試AI模型數(shù)學(xué)能力的測(cè)試集中,GPT-4o、Gemini 1.5 Pro等模型動(dòng)輒就能獲得80%以上的超高正確率,甚至還出現(xiàn)了基準(zhǔn)測(cè)試一方主動(dòng)配合AI廠商刷榜的情況。此前在今年春季,Meta的新一代開(kāi)源模型Llama 4史詩(shī)級(jí)翻車(chē),出現(xiàn)了跑分力壓群雄,實(shí)際表現(xiàn)卻一言難盡的情況。對(duì)此就有AI研究人員發(fā)現(xiàn),Llama4在發(fā)布前針對(duì)大模型競(jìng)技場(chǎng)Chatbot Arena測(cè)試了27個(gè)不同版本,卻只公開(kāi)了最佳成績(jī)。
由此不難發(fā)現(xiàn),基準(zhǔn)測(cè)試已經(jīng)變得越來(lái)越難以衡量AI模型,特別是擁有目前最高水平的“State-of-the-Art”模型。因此谷歌就開(kāi)發(fā)了Kaggle Game Arena,搞了場(chǎng)“AI國(guó)際象棋棋王爭(zhēng)霸賽”來(lái)作為擂臺(tái),讓各大廠商的旗艦?zāi)P陀行愠錾舷薜臋C(jī)會(huì)。
那么為何谷歌會(huì)選擇游戲來(lái)作為測(cè)試大模型能力的場(chǎng)景呢?按照他們的說(shuō)法,游戲這種在既定規(guī)則下的隨機(jī),非常適合衡量AI的智能,有明確的規(guī)則約束AI,就使得它不會(huì)放飛自我,足夠強(qiáng)的隨機(jī)性又能讓其展現(xiàn)出能力上限。此外,游戲也具備結(jié)果可衡量、過(guò)程可視化、推理可驗(yàn)證,以及零和博弈的特點(diǎn)。
事實(shí)上,游戲與AI業(yè)界有著密不可分的關(guān)系。以O(shè)penAI為例,對(duì)于普通人而言,這個(gè)名字走入視野是因?yàn)閯潟r(shí)代的ChatGPT,而對(duì)于《DOTA2》的玩家來(lái)說(shuō),OpenAI在2019年就給他們留下了難以磨滅的印象。彼時(shí),OpenAI的OpenAI Five程序輕而易舉地?fù)魯×斯谲姂?zhàn)隊(duì)OG,初步向外界證明了AI不僅征服了棋類(lèi)對(duì)弈,在更復(fù)雜的電子競(jìng)技游戲中也能壓倒人類(lèi)。
根據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對(duì)話時(shí)的說(shuō)法,通過(guò)為《DOTA2》開(kāi)發(fā)OpenAI Five,OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)榱恕盎谌祟?lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)”,而后者就正是ChatGPT表現(xiàn)出比以往AI產(chǎn)品更為智能的關(guān)鍵。
如果AI能打好游戲,不僅可以證明智能水平,而且會(huì)有極高的商業(yè)化前景。要知道游戲廠商可是做夢(mèng)都想要獲得更智能的NPC,用來(lái)提升玩家體驗(yàn)的。
本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。