剛剛，馬斯克發(fā)布Grok 4！全榜第一，年費(fèi)飚到2萬(wàn)+

機(jī)器之心·2025-07-10

所有學(xué)科都是博士后水平。

編者按：本文來(lái)自微信公眾號(hào) 機(jī)器之心（ID：almosthuman2014），作者：機(jī)器之心，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

醞釀良久的 xAI 下一代大模型——Grok 4 終于發(fā)布了！能力超乎我們想象。

北京時(shí)間今天中午 12 點(diǎn)左右，我們期待已久的 xAI 發(fā)布會(huì)終于開始，馬斯克現(xiàn)身直播間，他上來(lái)就說(shuō)：「這是世界上最好的 AI，讓我們來(lái)展示一下。」

馬斯克表示，Grok 4 每次都能在 SAT 考試（美國(guó)高考）中獲得滿分，無(wú)需事先查看題目，它也可以做到 GRE 任何學(xué)科接近滿分，超過(guò)了全世界所有研究生的水平。Grok 4 最強(qiáng)大的地方是其推理能力，它已經(jīng)實(shí)現(xiàn)了超越人類的推理水平。

馬斯克相信，Grok 4 可以在今年內(nèi)實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。

得益于計(jì)算能力的增強(qiáng)、強(qiáng)化學(xué)習(xí)的訓(xùn)練，Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4，采用的技術(shù)范式不同，分別為下一個(gè) token 預(yù)測(cè)、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練 + RL、RL 計(jì)算。

其中，Grok 2 到 Grok 3 預(yù)訓(xùn)練階段的計(jì)算量提升了 10 倍，Grok 3 reasoning 首次引入了 RL 微調(diào)，帶來(lái)了深度推理能力。Grok 4 reasoning 的強(qiáng)化學(xué)習(xí)再度提升了 10 倍的計(jì)算量，這意味著顯著的推理能力提升。

另外因?yàn)檎{(diào)用工具能力的提升，Grok 4 進(jìn)一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實(shí)現(xiàn)遠(yuǎn)超 SOTA 的成績(jī)。

接下來(lái)是重頭戲：Grok 4 的基準(zhǔn)測(cè)試結(jié)果。

首先是 HLE（Humanities Last Exam，人類最后的考試），包括數(shù)學(xué)、化學(xué)和邏輯學(xué)。在上周六泄露的基準(zhǔn)測(cè)試結(jié)果中，Grok 4 在 HLE（Humanities Last Exam，人類最后考試）上的標(biāo)準(zhǔn)得分是 35%，使用推理技術(shù)后提高到 45%，但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。

在今天的直播中，xAI 研究人員表示，以往的 SOTA 模型在使用工具（with tool）的情況下，成績(jī)最高可以達(dá)到 41.0%。

如今，Grok 4 進(jìn)一步提升了這一基準(zhǔn)測(cè)試成績(jī)。

具體來(lái)講，與其他 SOTA 模型（o3、Gemini 2.5 Pro）相比，在使用工具的情況下，Grok 4 的成績(jī)?yōu)?38.6%，Grok 4 Heavy 的成績(jī)飆升到了 44.4%。如果讓大模型在測(cè)試時(shí)花費(fèi)更多時(shí)間思考，并恰當(dāng)?shù)氖褂酶嗤獠抗ぞ?，則 HLE 的分?jǐn)?shù)還能進(jìn)一步提升到 50.7%。

關(guān)于其他更多基準(zhǔn)測(cè)試結(jié)果，包括 GPQA（研究生級(jí)別的 Google 驗(yàn)證問(wèn)答基準(zhǔn)測(cè)試）、AIME25（美國(guó)數(shù)學(xué)競(jìng)賽邀請(qǐng)賽）、LCB（Jan-May）（編程競(jìng)賽 / 在線算法競(jìng)賽）、HMMT25（高中生團(tuán)隊(duì)數(shù)學(xué)競(jìng)賽）和 USAMO25（美國(guó)頂級(jí)高中生數(shù)學(xué)競(jìng)賽）。從下圖可以看到，Grok 4 Heavy 均取得了最新 SOTA。

相比之下，人類面對(duì) HLE 測(cè)試也幾乎答不上幾個(gè)題。馬斯克多遍強(qiáng)調(diào)：Grok 現(xiàn)在在所有學(xué)科都達(dá)到了博士后水平，沒(méi)有例外。它沒(méi)有發(fā)現(xiàn)新科學(xué)或是新的物理定律，但這只是一個(gè)時(shí)間問(wèn)題。

「如果 Grok 在今年內(nèi)沒(méi)有發(fā)現(xiàn)實(shí)用的新科學(xué)技術(shù)，我會(huì)感覺(jué)很意外，」馬斯克表示。

大模型性能評(píng)估平臺(tái) Artificial Analysis 的全套基準(zhǔn)測(cè)試成績(jī)表明，Grok 4 已經(jīng)成為當(dāng)前領(lǐng)先的 AI 模型，總成績(jī)達(dá)到了 73 分，領(lǐng)先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。

想象一下我們現(xiàn)在處在的位置，我們正處于智能發(fā)展的大爆炸過(guò)程中，這是人類歷史上前所未見(jiàn)的。是時(shí)候看看 Grok 4 具體能做些什么了。

我們來(lái)看一兩個(gè) demo，比如「基于物理原理的 HTML 動(dòng)畫，模擬兩個(gè)黑洞碰撞并產(chǎn)生引力波的 30 秒可視化效果」：

Grok 4 幾乎完整地呈現(xiàn)了從兩個(gè)黑洞接近到最后合并結(jié)束的引力波模擬效果。動(dòng)圖的一邊是推理過(guò)程和計(jì)算的步驟和代碼，查閱的論文每一篇都有鏈接。

Grok 4 的多面手屬性更強(qiáng)了

除了各大語(yǔ)言基準(zhǔn)成績(jī)的提升，Grok 4 在其他方面同樣得到了加強(qiáng)。

其中，Grok 4 的語(yǔ)音能力相較于上代速度快了 2 倍，端到端延遲更低；支持 5 種語(yǔ)音；單日用戶總停留時(shí)長(zhǎng)提升了 10 倍。

新增的 Grok 角色 Eve 和 Sal 現(xiàn)已可在 iOS 版 Grok 中使用，Sal 支持多種性格，Eve 可以唱歌和低語(yǔ)。

在 ARC-AGI 基準(zhǔn)測(cè)試集中，它專門設(shè)計(jì)用于評(píng)估人工智能系統(tǒng)通用推理能力，被視為通向 AGI 的重要試金石，旨在檢驗(yàn)?zāi)Ｐ褪欠衲芟袢祟愐粯屿`活解決從未見(jiàn)過(guò)的新問(wèn)題。

在這個(gè)直指 AGI 核心能力的超難基準(zhǔn)上，Grok 4 同樣取得了最新 SOTA，其中在 ARC-AGI-2 上達(dá)到 15.9%，幾乎將之前的商業(yè) SOTA 翻了一番，并超越了當(dāng)前的 Kaggle 競(jìng)賽 SOTA。

在 Vending-Bench 基準(zhǔn)測(cè)試中，它專注于評(píng)估智能體在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力，其核心目標(biāo)是解決傳統(tǒng)模擬環(huán)境（如 Habitat、AI2-THOR）與真實(shí)世界間的「Sim2Real Gap」（仿真到現(xiàn)實(shí)的鴻溝），推動(dòng)機(jī)器人技術(shù)在開放場(chǎng)景中的實(shí)際應(yīng)用能力。

可以看到，Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領(lǐng)先。

Grok 4 可通過(guò) API 調(diào)用，提供 256K tokens 的上下文窗口。目前已經(jīng)開放使用，版本號(hào)為 grok-4-0709，價(jià)格與 Grok 3 相同。

根據(jù) Artificial Analysis 的測(cè)試，xAI 的 API 當(dāng)前以每秒 75 個(gè) token 的速度提供 Grok 4 服務(wù)，速度雖不及 o3（每秒 188 個(gè) token），但優(yōu)于 Claude 4 Opus Thinking（每秒 66 個(gè) token）。

最后是游戲體驗(yàn)，DannyLimanseta 在 4 小時(shí)內(nèi)用 Grok 4 制作了一款 FPS 射擊游戲，Grok 不僅可以用于制作游戲，還能實(shí)際運(yùn)行游戲，洞察優(yōu)秀游戲的要素并提出改進(jìn)建議?？粗Ч娴耐Σ诲e(cuò)。

下一步，xAI 預(yù)計(jì)還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型，看起來(lái)新產(chǎn)品發(fā)布要達(dá)到月更的速度。

目前，Grok 4 已經(jīng)上線，不過(guò)需要付費(fèi)使用，而且價(jià)格相當(dāng)昂貴。其付費(fèi)模式分為年付和月付兩種，其中 SuperGrok 是每年 300 美元（折合人民幣約 2154 元），SuperGrok Heavey 則是每年 3000 美元（折合人民幣 21540 元）。

官網(wǎng)鏈接：https://grok.com/

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。