OpenAI發(fā)布o(jì)3，更強也更貴了，仨月更新一代只為證明AGI還有戲

硅星人·2024-12-21

關(guān)注

最早明年1月底能用

編者按：本文來自微信公眾號硅星人Pro（ID：Si-Planet），作者：Jessica，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

今天是“12 Days of OpenAI”活動的最后一天。無論從前幾天發(fā)布節(jié)奏還是時間點來看，都到了必須拿出真家伙的時候。

果然，正如Sam Altman“oh oh oh”啞謎暗示的那樣，OpenAI終于官宣了推理模型系列的最新旗艦成員：o3和o3 mini。

團隊稱，這兩款模型在性能上實現(xiàn)了重大突破。能夠處理日益復(fù)雜的推理任務(wù)，標(biāo)志著”AI技術(shù)邁入了一個全新階段?！?/p>

有意思的是，作為 o1 的下一代模型，OpenAI 在命名時越過“o2”，直接跳到了o3。以此防止與英國電信運營商O2的商標(biāo)沖突，避開潛在的法律糾紛。

o3模型：推理性能飆升，多項超人類專家

作為OpenAI當(dāng)前性能最強的推理模型， o3在多項基準(zhǔn)測試中表現(xiàn)卓越，特別是編程和數(shù)學(xué)領(lǐng)域顯著提升。

? 編程能力：在真實世界軟件任務(wù)評估（HumanEval-Verified）中，o3以71.7%的準(zhǔn)確率刷新記錄，相比前代模型o1提升超過20%；在競爭性代碼編程平臺（Competition Code）上的ELO評分高達(dá)2727，遠(yuǎn)超o1的1891。

直播中， Sam問同時在教授競技編程的研究主管Mark能拿多少分，Mark回答自己在類似平臺的最好成績大概是2500分。Sam隨即透露，o3的分?jǐn)?shù)甚至超過了首席科學(xué)家Yakov。

當(dāng)?shù)弥纠镉腥四苣玫?3000 多分后，Sam 調(diào)侃道：“他還能享受這優(yōu)勢幾個月吧，o3在編程方面的表現(xiàn)確實不可思議?！?/p>

? 數(shù)學(xué)推理：o3在美國數(shù)學(xué)奧林匹克考試（AIME）中獲得前所未有的96.7%準(zhǔn)確率，在博士級科學(xué)問題測試（GPQA Diamond）上準(zhǔn)確率達(dá)到87.7%，顯著超過人類專家平均水平的 70%。

? 前沿測試五年來首次被攻克

Mark提到，在現(xiàn)有的傳統(tǒng)基準(zhǔn)測試中，o3已接近飽和，突顯了更難測試的必要性。

最近，Epic AI的前沿數(shù)學(xué)基準(zhǔn)測試脫穎而出，被認(rèn)為是眼下最難的數(shù)學(xué)評估。該數(shù)據(jù)集包含全新、未發(fā)表且極端復(fù)雜的問題，即使專業(yè)數(shù)學(xué)家解決一道題也可能需數(shù)小時甚至數(shù)天時間。

目前市面上的所有產(chǎn)品在該測試中的準(zhǔn)確率都低于2%，而o3在嚴(yán)格設(shè)置下準(zhǔn)確率卻達(dá)到了25%以上，展現(xiàn)出強大的數(shù)學(xué)推理能力。

而更大的驚喜來自o3在Arc AGI測試中的表現(xiàn)。

Arc AGI是由Fran?ois Chollet在2019年設(shè)計的一個獨特基準(zhǔn)測試，旨在評估AI系統(tǒng)的通用智能水平。其特別之處在于，它不考察已學(xué)習(xí)的知識，而是要求模型通過觀察幾個示例，推斷新任務(wù)規(guī)則并即時學(xué)習(xí)。例如：

推斷規(guī)則 “在空格處放置深藍(lán)色方塊”；

或 “數(shù)出黃色方塊中的彩色方塊數(shù)量，再以此為寬度圍住黃色方塊”。

這些規(guī)則對人類來說直觀，但對 AI 系統(tǒng)卻極具挑戰(zhàn)性。

在這項五年來未被攻克的測試中，o3實現(xiàn)了歷史性突破：在低算力配置下，其準(zhǔn)確率達(dá)到75.7%，創(chuàng)下公開記錄新高；在高算力下表現(xiàn)更是提升至87.5%，高于人類平均水平的85%。

這是AI系統(tǒng)首次在需要即時理解和學(xué)習(xí)新規(guī)則的任務(wù)中超越了人類表現(xiàn)，驗證了AI在新穎性適應(yīng)方面的實質(zhì)性進展。

不過，負(fù)責(zé)該測試的組織ARC Prize也表示，這并不代表已經(jīng)實現(xiàn)了AGI。o3在某些簡單任務(wù)上仍有失誤，表明它與人類智能仍存在本質(zhì)差異。他們會繼續(xù)舉辦大獎賽，直到出現(xiàn)一個取得85% 成績的高效開源的解決方案（圖中可見，高算力下的o3執(zhí)行每個任務(wù)需要耗費1千美元）。

o3 mini：性能超o1，高效低成本的理想之選

針對需要在性能與成本之間取得平衡的應(yīng)用場景，OpenAI推出了o3 mini。它繼承了此前o1 mini在數(shù)學(xué)和編碼方面的優(yōu)勢，并在性價比上實現(xiàn)了更大突破。

最引人注目的是其創(chuàng)新的"自適應(yīng)思考時間"功能，提供低、中、高三種推理強度選項，讓用戶能根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時間，就像給大腦切換不同的工作模式。

在實際的編程測試中，o3 mini在中等推理時間下性能已超越o1，而成本和延遲僅為其一小部分。意味者它能以更經(jīng)濟的方式完成高難度的編程任務(wù)，為開發(fā)者提供了一個理想選擇。

研究科學(xué)家 Hongyu 通過幾個案例，演示了o3 mini在高、中、低三種強度模式下的真實世界優(yōu)異表現(xiàn)：

1. 代碼生成與執(zhí)行：

在高強度模式下，o3 mini被要求用Python編寫一個智能編程助手。該助手配備一個簡單的輸入框界面，用戶只需輸入需求，它就能生成并執(zhí)行代碼。這一復(fù)雜任務(wù)充分展現(xiàn)了模型在編程場景中的高效性和精準(zhǔn)性。

2. 自我評估能力：

在中強度模式下，o3 mini被要求評估自身在復(fù)雜 GPQA 數(shù)據(jù)集上的表現(xiàn)。模型生成了評估腳本，快速完成了數(shù)據(jù)集解析、問題分類、答案生成和結(jié)果評分，在1分鐘內(nèi)取得了61.62%的成績。這樣的表現(xiàn)對人類專家而言也具有較大挑戰(zhàn)。

3. 效率測試與數(shù)學(xué)推理：

在低強度模式下，o3 mini的響應(yīng)速度幾乎與 GPT-4 持平，用戶按下發(fā)送鍵后幾乎立即得到回復(fù)。即使在中等模式下，其速度也比o1快了一倍，而這一高性能是在大幅降低成本的情況下實現(xiàn)的。

在美國數(shù)學(xué)奧林匹克 2024 數(shù)據(jù)集測試中，o3 mini 在中等推理時間設(shè)置下表現(xiàn)已與o1相當(dāng)，而在高推理時間下，其表現(xiàn)更是超越了o1。

此外，o3 mini還支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出等開發(fā)者所需的API特性。

開放測試與部署時間線

OpenAI計劃在2025年1月底發(fā)布o(jì)3 mini，隨后推出完整版o3。

即日起，研究人員和開發(fā)者可以到OpenAI官網(wǎng)（https://openai.com/index/early-access-for-safety-testing/#how-to-apply）申請安全測試，以獲得早期訪問權(quán)限。申請將持續(xù)至2025年1月10日。

本次發(fā)布會還特別提到， o3和o3 mini引入了全新的深度對齊（Deliberative Alignment）技術(shù)。

該技術(shù)通過推理用戶的輸入意圖，大幅提升了模型對潛在不安全請求的識別能力，即使用戶嘗試使用隱晦語言繞過限制，模型也能準(zhǔn)確判斷危險意圖。測試結(jié)果顯示，o3 在安全性評估中的表現(xiàn)卓越，拒絕不安全請求的準(zhǔn)確率和靈敏度均有顯著提升。

華人研究員嶄露頭角

在o3 mini的官宣過程中，除了出鏡介紹的研究科學(xué)家Hongyu Ren外，還出現(xiàn)了同樣負(fù)責(zé)模型訓(xùn)練的Kevin Lu、Shengjia Zhao等年輕華人研究員面孔。

Hongyu Ren本科畢業(yè)于北京大學(xué)，并于斯坦福大學(xué)取得計算機科學(xué)博士學(xué)位。加入OpenAI以前曾在Apple、Google、NVIDIA和Microsoft擔(dān)任實習(xí)研究員。

作為OpenAI o1-mini 的creator和o1的foundational contributor，Hongyu還擔(dān)任了GPT-4o mini 的負(fù)責(zé)人，深度參與了 GPT-4o 的開發(fā)工作，專注于讓模型思考得更快速、更深刻、更精準(zhǔn)。

Kevin Lu畢業(yè)于加州大學(xué)伯克利分校電子信息工程與計算機科學(xué)專業(yè)，曾在Berkeley AI Research做研究工作。

Shengjia Zhao本科畢業(yè)于清華大學(xué)，同樣擁有斯坦福大學(xué)計算機科學(xué)專業(yè)博士學(xué)位，是GPT-4的核心貢獻(xiàn)者。

OpenAI要放棄GPT，全力投入o系列了嗎？

從今天的壓軸發(fā)布來看，OpenAI正在經(jīng)歷一次重大的戰(zhàn)略轉(zhuǎn)向。

在近期的NeurIPS 2024大會上， OpenAI曾經(jīng)的聯(lián)合創(chuàng)始人Ilya Sutskever以《預(yù)訓(xùn)練時代終結(jié)》為題發(fā)表了演講。他指出，AI模型的預(yù)訓(xùn)練方法正面臨數(shù)據(jù)瓶頸，互聯(lián)網(wǎng)可用數(shù)據(jù)如同“化石燃料”，具有不可持續(xù)性。表明傳統(tǒng)的“更多數(shù)據(jù)和算力等于更好性能”的擴展法則正在失效，AI技術(shù)需要尋找新的發(fā)展路徑。

Ilya預(yù)測，未來的AI系統(tǒng)將更加“agentic”。不僅僅是完成任務(wù)，更能通過推理能力像人類一樣逐步解決問題。這種新范式可能是突破當(dāng)前技術(shù)瓶頸的關(guān)鍵，也會帶來更高的不確定性。

OpenAI從傳統(tǒng)GPT大語言模型轉(zhuǎn)向“o”系列推理模型，或許正是意識到僅依賴預(yù)訓(xùn)練的GPT模型已難以滿足未來AI發(fā)展的需求。希望通過整合推理能力，為實現(xiàn)更高水平的智能尋找突破口。

除了OpenAI，類似的趨勢也體現(xiàn)在競爭對手Google的布局中。其剛發(fā)布的Gemini 2.0 Flash Thinking被視為AI推理模型的開端，未來可能與主要語言模型深度整合。

各家技術(shù)公司的舉措都表明，推理能力正成為行業(yè)發(fā)展的新焦點，而如何將其與通用大語言模型有機結(jié)合，可能是下一階段AI競爭的核心方向。OpenAI開始在這個技術(shù)方向上使用GPT階段同樣的策略——快速的迭代，哪怕是期貨也先展示出來再說，然后把AGI和Scaling law這些對整個行業(yè)的思考和發(fā)展以及宣傳上都最重要的概念牢牢握在自己手中，由它定義。

在o3發(fā)布后，OpenAI的明星研究員Jason Wei就表示，更重要的是o1到o3只用了三個月，證明了新的范式下進步可以有多快。

比預(yù)訓(xùn)練的一兩年更新一次的范式快多了。