五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

ChatGPT首次帶圖深度思考:OpenAI連發(fā)o3/o4 mini,比前代性能更強(qiáng)價(jià)格更低

OpenAI表示,o3是他們目前最強(qiáng)大的推理模型,在編程、數(shù)學(xué)、科學(xué)、視覺感知等多個(gè)維度的基準(zhǔn)測試中都刷新了SOTA,在分析圖像、圖表和圖形等視覺任務(wù)中表現(xiàn)尤為出色。

編者按:本文來自微信公眾號 “量子位”(ID:QbitAI),作者:魚羊,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

僅隔一天,OpenAI再次突然放大招:

一口氣,o3o4 mini同步上線。

圖片

依然是最熱門推理模型,并且這一次,它們終于能夠調(diào)用ChatGPT里的各種工具了,包括網(wǎng)絡(luò)搜索、Python、圖像分析、文件解釋和圖像生成。

也就是說,你現(xiàn)在可以也用o3來生成吉卜力風(fēng)格的奧特曼抱子圖了(doge)。

圖片

還不只是能看懂、生成圖像,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考,be like:

OpenAI表示,o3是他們目前最強(qiáng)大的推理模型,在編程、數(shù)學(xué)、科學(xué)、視覺感知等多個(gè)維度的基準(zhǔn)測試中都刷新了SOTA,在分析圖像、圖表和圖形等視覺任務(wù)中表現(xiàn)尤為出色。

在外部專家評估中,o3在困難現(xiàn)實(shí)任務(wù)中,能比o1少犯20%的重大錯(cuò)誤。

o4-mini則是一款專為快速、經(jīng)濟(jì)高效的推理而優(yōu)化的小模型。

在專家評估中,o4-mini在非STEM任務(wù)以及數(shù)據(jù)科學(xué)領(lǐng)域都超過了前代的o3-mini。

在AIME 2024和AIME 2025中,甚至有超過o3的表現(xiàn)。

圖片

即日起,ChatGPT的Plus、Pro會(huì)員以及Team用戶,都能直接體驗(yàn)o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

圖片

實(shí)測o3/o4-mini

所以,在基準(zhǔn)測試上表現(xiàn)如此強(qiáng)勢的o3和o4-mini,具體能帶來哪些體驗(yàn)上的改變?

Talk is cheap,來看實(shí)測案例。

在OpenAI的官方直播中,研究員們展示了這樣一個(gè)用法:

讓o3直接讀一份未完成的學(xué)術(shù)海報(bào),讓它根據(jù)其中的研究線索,幫忙估算質(zhì)子的同位旋矢量標(biāo)量電荷,并搜索相關(guān)最新研究成果,對比新成果跟估算值的不同。

圖片

思考了不到3分鐘,o3完全沒有被難住,吐出了這樣的結(jié)果:

圖片

網(wǎng)友們也第一時(shí)間給o3和o4-mini上了小球測試:

圖片

圖源:x@flavioAd

還有醫(yī)學(xué)教授在搶先體驗(yàn)后表示:完全停不下來。

我覺得o3的智能程度已經(jīng)達(dá)到或接近天才水平了!

圖片

這位醫(yī)學(xué)專家表示,他在向o3提出一些頗具挑戰(zhàn)的臨床或醫(yī)學(xué)問題時(shí),o3能給出像直接來自頂級??漆t(yī)生的回答。

我們也簡單測試了一下,比如讓o3和o4-mini分別解讀一下“洛就完了”表情包。

o3:

圖片

o4-mini:

圖片

你pick哪個(gè)答案?

強(qiáng)化學(xué)習(xí)的Scaling Law

值得注意的是,在OpenAI o3的開發(fā)過程中,研究人員觀察到:

大規(guī)模強(qiáng)化學(xué)習(xí)呈現(xiàn)出與預(yù)訓(xùn)練一樣的“更大計(jì)算量=更好性能”的趨勢。

而o3正是通過在強(qiáng)化學(xué)習(xí)中踐行Scaling Law,得到了明顯的性能提升。

OpenAI表示:

這證明了模型性能會(huì)隨著思考時(shí)間的增加而持續(xù)提升。

在延遲和成本與OpenAI o1相同的條件下,o3實(shí)現(xiàn)了更強(qiáng)的性能——而且我們已經(jīng)驗(yàn)證,如果讓它思考更長時(shí)間,它的性能還會(huì)持續(xù)提升。

不過自打DeepSeek成了攪動(dòng)大模型格局的鯰魚,OpenAI也是越來越強(qiáng)調(diào)“性價(jià)比”了:

相比o1和o3-mini,o3和o4-mini更強(qiáng)了,但卻更經(jīng)濟(jì)了!

比如,在AIME 2025中,o4-mini比之o3-mini、o3比之o1,都能在同樣的推理成本下拿到更高的分?jǐn)?shù)。

圖片

圖片

API定價(jià)方面,拉上1天前剛剛亮相的GPT-4.1,具體價(jià)格如下:

圖片

One More Thing

OpenAI再次開源了!發(fā)布一款一款本地代碼智能體Codex CLI。

可將自然語言轉(zhuǎn)化為可運(yùn)行的代碼,兼容所有OpenAI模型,包括剛剛發(fā)布的o3、o4-mini和GPT-4.1。

圖片

Codex CLI為已經(jīng)習(xí)慣使用終端,并希望擁有ChatGPT級別推理能力以及實(shí)際運(yùn)行代碼、操作文件和迭代能力的開發(fā)者打造。

它是一種聊天驅(qū)動(dòng)的開發(fā)方式 ,能夠理解并執(zhí)行本地代碼庫。

圖片

GitHub項(xiàng)目:
https://github.com/openai/codex

參考資料:

[1]https://openai.com/index/introducing-o3-and-o4-mini/

[2]https://x.com/sama/status/1912558064739459315

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱