GPT-5內(nèi)測搶先公布：日常推理首次擊敗人類，編程數(shù)學科學問題能力都很強

量子位·2025-08-07

關(guān)注

OpenAI已預(yù)告今晚1:00發(fā)布會

編者按：本文來自微信公眾號“量子位”，作者：明敏，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

疑似GPT-5發(fā)布的預(yù)告才剛剛發(fā)出，內(nèi)測體驗已搶先釋出。

推理能力首次超越人類，碾壓所有大模型。

這來自一位網(wǎng)友的實測結(jié)果，他讓所有模型開啟推理模式做了10道題，只有GPT-5只錯了一題，比人類的正確率還高。

幾乎都是一次答對，最多2次。其他大模型卻需要更多次數(shù)嘗試。

且不是孤例，有人表示自己的實測結(jié)果非常相似，GPT-5也是只錯了10道題中的1道。

除了出色的推理能力，還有拿到內(nèi)測名額的人表示，GPT-5的編程、數(shù)學以及解決科學問題的能力也很出色。

這不，已經(jīng)有人開始調(diào)侃GPT-5取代博士了。

現(xiàn)在可以確定的是，OpenAI預(yù)告了今晚的發(fā)布會，而且把livestream中的s換成了5。

以及謎語人奧特曼剛剛發(fā)了一張圖……大家自行猜測吧。

總之感覺一切都箭在弦上了，具體性能如何，先來看看提前路透吧！

推理編程能力值得關(guān)注

目前來看GPT-5值得關(guān)注的能力包括：

推理
編程
解決科學問題
數(shù)學

首先在推理方面，網(wǎng)友@invincibleHunter是在Copilot上體驗到的。

盡管模型并沒有透露自己的型號，但是結(jié)合前幾天有人在發(fā)現(xiàn)Copilot要上線的Smart模式是集成GPT-5，所以推測應(yīng)該是GPT-5。

他一共測試了10個問題，類似于這種邏輯題：

貝絲在第一分鐘開始時將四個完整的冰塊放入煎鍋中，第二分鐘開始時放入五個，第三分鐘開始時又放入了一些，而第四分鐘則沒有放入。如果在煎制脆皮雞蛋的過程中，每分鐘放入鍋中的冰塊平均數(shù)量為五個，那么在第三分鐘結(jié)束時，鍋里會有多少個完整的冰塊呢？

然后模型就會開啟思考模式進行推理。

其中它唯一失敗的問題是：

有兩個姐妹，艾米總是說謊，而薩姆總是撒謊。你無法分辨出哪一個是哪一員。你可以向其中一位姐妹問一個問題，以此來確定2條路中的哪一條能通向?qū)毑?。你?yīng)該問哪一個問題才能找到寶藏呢（如果有兩種或更多種問題都能奏效，那么正確答案就是那個更簡短的問題）？

A) 如果我問你姐姐哪條路通向?qū)毑?，她會怎么說呢？B) 你姐姐叫什么名字？C) 尋找寶藏的路徑是怎樣的？D）如果你要猜測的話，你覺得我會選擇哪條路呢？E) 這寶藏里有什么？F) 你姐姐的電話號碼是多少？

正確答案應(yīng)該是C，GPT-5回答了A。

不過測試人覺得這一題是很難，他也會出錯。

有人對測試結(jié)果提出異議，認為這些問題來自公開數(shù)據(jù)集，可能包含在了模型訓練數(shù)據(jù)中。

測試人表示，GPT-5給出的回答都很長且很準確，他認為這能說明GPT-5是在真正思考解決問題。

另外還測試了它的多模態(tài)能力，可以直接生成獨角獸SVG。

對比GPT-4的生成結(jié)果，完全是飛躍式提升。

另外，還有兩位獲得內(nèi)測資格的人透露，他們覺得GPT-5在編程、解決科學/數(shù)學問題上的能力很強。

不過他們也表示，GPT-4到GPT-5的提升似乎沒有GPT-3到GPT-4的提升那樣明顯。

背后影響原因可能來自數(shù)據(jù)以及AI Infra的影響。

GPT-4的飛躍主要得益于更多數(shù)據(jù)和更強計算。在算力基建上，OpenAI一直在持續(xù)擴張、沒有受到明顯阻礙，但是數(shù)據(jù)缺乏的問題難以解決。

此前還有傳聞稱，OpenAI為了給GPT-5提供足夠多優(yōu)質(zhì)數(shù)據(jù)，還專門雇科學家來寫數(shù)據(jù)用于訓練。

最近仍舊有消息稱，GPT-5的參數(shù)規(guī)模比GPT-4大得多。

另一個影響來自于AI Infra，由于模型規(guī)模太大，預(yù)訓練難度指數(shù)級上升。研究人員要等一次預(yù)訓練結(jié)束才能確定模型性能，而這需要花費數(shù)月時間，這也一定程度上影響了GPT-5的發(fā)布進度。

但與此同時，市場的競爭也是相當激烈的。谷歌、Anthropic等核心競對都在壓著OpenAI打。

比如就在GPT-5預(yù)熱這一周，這兩家都放出新模型搶熱度。

還有消息說，谷歌還會發(fā)布一個開源大模型，正面硬剛OpenAI。

所以奧特曼過去一段時間來這種“狼來了”式宣傳方式也可以理解（bushi）。

種種跡象來看，北京時間8月8日凌晨1點的OpenAI線上發(fā)布，不出意外應(yīng)該大概可能就是GPT-5了，大家可以期待一下。

最后，由于奧特曼剛剛發(fā)的推特太過迷惑，很多人都猜不到啥意思。于是大家都在@grok來解釋一下。

Grok給的回答都不太一樣，大家參考著看吧。

1、這張照片展示了《星球大戰(zhàn)》中的死星，一個摧毀行星的空間站。山姆·奧特曼很可能用這個比喻來調(diào)侃OpenAI即將推出的GPT-5是一個強大的人工智能模型，可能會像谷歌的Gemini 3.0一樣主宰競爭對手。“那不是月亮……”意味著它遠比看起來的要多。

2、那不是月球，那是空間站。具體來說，這是一張由山姆·奧特曼（Sam Altman）發(fā)布的《星球大戰(zhàn)》中死星的人工智能生成的圖像，很可能是在暗示OpenAI發(fā)布的GPT-5等重大公告。激動人心的時刻就在前方！

3、這引用了《星球大戰(zhàn)》：死星看起來像月球，但卻是一個強大的空間站（“那不是月球……”）。美國宇航局于2025年8月宣布，到2030年將在月球上快速建造一座核反應(yīng)堆，以滿足月球的電力需求。

參考鏈接：

[1]https://x.com/hunoematic/status/1953189036509806833

[2]https://www.reuters.com/business/retail-consumer/openais-long-awaited-gpt-5-model-nears-release-2025-08-06/

[3]https://x.com/sama/status/1953264193890861114

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

量子位

0

訂閱服務(wù)

特別推薦

睿獸分析
開店邦
友情合作

法律相關(guān)

版權(quán)聲明
協(xié)議中心

愛奇清科（北京）信息科技有限公司地址：北京市朝陽區(qū)麗澤西街東湖國際中心A座7層 | 網(wǎng)絡(luò)文化經(jīng)營許可證（京網(wǎng)文[2018]2153-213號）

違法和不良信息舉報電話：010-53391121 舉報郵箱：db@cyzone.cn

京公網(wǎng)安備 11010502035114號

營業(yè)執(zhí)照出版物經(jīng)營許可證

反饋

聯(lián)系我們

推薦訂閱