五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

OpenAI發(fā)布o(jì)3,更強(qiáng)也更貴了,仨月更新一代只為證明AGI還有戲

最早明年1月底能用

編者按:本文來自微信公眾號 硅星人Pro(ID:Si-Planet),作者:Jessica,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

今天是“12 Days of OpenAI”活動的最后一天。無論從前幾天發(fā)布節(jié)奏還是時間點(diǎn)來看,都到了必須拿出真家伙的時候。

果然,正如Sam Altman“oh oh oh”啞謎暗示的那樣,OpenAI終于官宣了推理模型系列的最新旗艦成員:o3和o3 mini。

團(tuán)隊(duì)稱,這兩款模型在性能上實(shí)現(xiàn)了重大突破。能夠處理日益復(fù)雜的推理任務(wù),標(biāo)志著”AI技術(shù)邁入了一個全新階段。”

有意思的是,作為 o1 的下一代模型,OpenAI 在命名時越過“o2”,直接跳到了o3。以此防止與英國電信運(yùn)營商O2的商標(biāo)沖突,避開潛在的法律糾紛。

圖片

o3模型:推理性能飆升,多項(xiàng)超人類專家

作為OpenAI當(dāng)前性能最強(qiáng)的推理模型, o3在多項(xiàng)基準(zhǔn)測試中表現(xiàn)卓越,特別是編程和數(shù)學(xué)領(lǐng)域顯著提升。

? 編程能力:在真實(shí)世界軟件任務(wù)評估(HumanEval-Verified)中,o3以71.7%的準(zhǔn)確率刷新記錄,相比前代模型o1提升超過20%;在競爭性代碼編程平臺(Competition Code)上的ELO評分高達(dá)2727,遠(yuǎn)超o1的1891。

圖片

直播中, Sam問同時在教授競技編程的研究主管Mark能拿多少分,Mark回答自己在類似平臺的最好成績大概是2500分。Sam隨即透露,o3的分?jǐn)?shù)甚至超過了首席科學(xué)家Yakov。

當(dāng)?shù)弥纠镉腥四苣玫?3000 多分后,Sam 調(diào)侃道:“他還能享受這優(yōu)勢幾個月吧,o3在編程方面的表現(xiàn)確實(shí)不可思議。”

? 數(shù)學(xué)推理:o3在美國數(shù)學(xué)奧林匹克考試(AIME)中獲得前所未有的96.7%準(zhǔn)確率,在博士級科學(xué)問題測試(GPQA Diamond)上準(zhǔn)確率達(dá)到87.7%,顯著超過人類專家平均水平的 70%。

圖片

? 前沿測試五年來首次被攻克

Mark提到,在現(xiàn)有的傳統(tǒng)基準(zhǔn)測試中,o3已接近飽和,突顯了更難測試的必要性。

最近,Epic AI的前沿?cái)?shù)學(xué)基準(zhǔn)測試脫穎而出,被認(rèn)為是眼下最難的數(shù)學(xué)評估。該數(shù)據(jù)集包含全新、未發(fā)表且極端復(fù)雜的問題,即使專業(yè)數(shù)學(xué)家解決一道題也可能需數(shù)小時甚至數(shù)天時間。

目前市面上的所有產(chǎn)品在該測試中的準(zhǔn)確率都低于2%,而o3在嚴(yán)格設(shè)置下準(zhǔn)確率卻達(dá)到了25%以上,展現(xiàn)出強(qiáng)大的數(shù)學(xué)推理能力。

圖片

而更大的驚喜來自o3在Arc AGI測試中的表現(xiàn)。

Arc AGI是由Fran?ois Chollet在2019年設(shè)計(jì)的一個獨(dú)特基準(zhǔn)測試,旨在評估AI系統(tǒng)的通用智能水平。其特別之處在于,它不考察已學(xué)習(xí)的知識,而是要求模型通過觀察幾個示例,推斷新任務(wù)規(guī)則并即時學(xué)習(xí)。例如:

推斷規(guī)則 “在空格處放置深藍(lán)色方塊”;

圖片

或 “數(shù)出黃色方塊中的彩色方塊數(shù)量,再以此為寬度圍住黃色方塊”。

圖片

這些規(guī)則對人類來說直觀,但對 AI 系統(tǒng)卻極具挑戰(zhàn)性。

在這項(xiàng)五年來未被攻克的測試中,o3實(shí)現(xiàn)了歷史性突破:在低算力配置下,其準(zhǔn)確率達(dá)到75.7%,創(chuàng)下公開記錄新高;在高算力下表現(xiàn)更是提升至87.5%,高于人類平均水平的85%。

這是AI系統(tǒng)首次在需要即時理解和學(xué)習(xí)新規(guī)則的任務(wù)中超越了人類表現(xiàn),驗(yàn)證了AI在新穎性適應(yīng)方面的實(shí)質(zhì)性進(jìn)展。

不過,負(fù)責(zé)該測試的組織ARC Prize也表示,這并不代表已經(jīng)實(shí)現(xiàn)了AGI。o3在某些簡單任務(wù)上仍有失誤,表明它與人類智能仍存在本質(zhì)差異。他們會繼續(xù)舉辦大獎賽,直到出現(xiàn)一個取得85% 成績的高效開源的解決方案(圖中可見,高算力下的o3執(zhí)行每個任務(wù)需要耗費(fèi)1千美元)。

圖片

o3 mini:性能超o1,高效低成本的理想之選

針對需要在性能與成本之間取得平衡的應(yīng)用場景,OpenAI推出了o3 mini。它繼承了此前o1 mini在數(shù)學(xué)和編碼方面的優(yōu)勢,并在性價比上實(shí)現(xiàn)了更大突破。

最引人注目的是其創(chuàng)新的"自適應(yīng)思考時間"功能,提供低、中、高三種推理強(qiáng)度選項(xiàng),讓用戶能根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時間,就像給大腦切換不同的工作模式。

在實(shí)際的編程測試中,o3 mini在中等推理時間下性能已超越o1,而成本和延遲僅為其一小部分。意味者它能以更經(jīng)濟(jì)的方式完成高難度的編程任務(wù),為開發(fā)者提供了一個理想選擇。

圖片

研究科學(xué)家 Hongyu 通過幾個案例,演示了o3 mini在高、中、低三種強(qiáng)度模式下的真實(shí)世界優(yōu)異表現(xiàn):

圖片

1. 代碼生成與執(zhí)行:

在高強(qiáng)度模式下,o3 mini被要求用Python編寫一個智能編程助手。該助手配備一個簡單的輸入框界面,用戶只需輸入需求,它就能生成并執(zhí)行代碼。這一復(fù)雜任務(wù)充分展現(xiàn)了模型在編程場景中的高效性和精準(zhǔn)性。

2. 自我評估能力:

在中強(qiáng)度模式下,o3 mini被要求評估自身在復(fù)雜 GPQA 數(shù)據(jù)集上的表現(xiàn)。模型生成了評估腳本,快速完成了數(shù)據(jù)集解析、問題分類、答案生成和結(jié)果評分,在1分鐘內(nèi)取得了61.62%的成績。這樣的表現(xiàn)對人類專家而言也具有較大挑戰(zhàn)。

3. 效率測試與數(shù)學(xué)推理:

在低強(qiáng)度模式下,o3 mini的響應(yīng)速度幾乎與 GPT-4 持平,用戶按下發(fā)送鍵后幾乎立即得到回復(fù)。即使在中等模式下,其速度也比o1快了一倍,而這一高性能是在大幅降低成本的情況下實(shí)現(xiàn)的。

在美國數(shù)學(xué)奧林匹克 2024 數(shù)據(jù)集測試中,o3 mini 在中等推理時間設(shè)置下表現(xiàn)已與o1相當(dāng),而在高推理時間下,其表現(xiàn)更是超越了o1。

此外,o3 mini還支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出等開發(fā)者所需的API特性。

圖片

開放測試與部署時間線

OpenAI計(jì)劃在2025年1月底發(fā)布o(jì)3 mini,隨后推出完整版o3。

即日起,研究人員和開發(fā)者可以到OpenAI官網(wǎng)(https://openai.com/index/early-access-for-safety-testing/#how-to-apply)申請安全測試,以獲得早期訪問權(quán)限。申請將持續(xù)至2025年1月10日。

本次發(fā)布會還特別提到, o3和o3 mini引入了全新的深度對齊(Deliberative Alignment)技術(shù)。

該技術(shù)通過推理用戶的輸入意圖,大幅提升了模型對潛在不安全請求的識別能力,即使用戶嘗試使用隱晦語言繞過限制,模型也能準(zhǔn)確判斷危險(xiǎn)意圖。測試結(jié)果顯示,o3 在安全性評估中的表現(xiàn)卓越,拒絕不安全請求的準(zhǔn)確率和靈敏度均有顯著提升。

華人研究員嶄露頭角

在o3 mini的官宣過程中,除了出鏡介紹的研究科學(xué)家Hongyu Ren外,還出現(xiàn)了同樣負(fù)責(zé)模型訓(xùn)練的Kevin Lu、Shengjia Zhao等年輕華人研究員面孔。

圖片

Hongyu Ren本科畢業(yè)于北京大學(xué),并于斯坦福大學(xué)取得計(jì)算機(jī)科學(xué)博士學(xué)位。加入OpenAI以前曾在Apple、Google、NVIDIA和Microsoft擔(dān)任實(shí)習(xí)研究員。

作為OpenAI o1-mini 的creator和o1的foundational contributor,Hongyu還擔(dān)任了GPT-4o mini 的負(fù)責(zé)人,深度參與了 GPT-4o 的開發(fā)工作,專注于讓模型思考得更快速、更深刻、更精準(zhǔn)。

圖片

Kevin Lu畢業(yè)于加州大學(xué)伯克利分校電子信息工程與計(jì)算機(jī)科學(xué)專業(yè),曾在Berkeley AI Research做研究工作。

圖片

Shengjia Zhao本科畢業(yè)于清華大學(xué),同樣擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位,是GPT-4的核心貢獻(xiàn)者。

圖片

OpenAI要放棄GPT,全力投入o系列了嗎?

從今天的壓軸發(fā)布來看,OpenAI正在經(jīng)歷一次重大的戰(zhàn)略轉(zhuǎn)向。

在近期的NeurIPS 2024大會上, OpenAI曾經(jīng)的聯(lián)合創(chuàng)始人Ilya Sutskever以《預(yù)訓(xùn)練時代終結(jié)》為題發(fā)表了演講。他指出,AI模型的預(yù)訓(xùn)練方法正面臨數(shù)據(jù)瓶頸,互聯(lián)網(wǎng)可用數(shù)據(jù)如同“化石燃料”,具有不可持續(xù)性。表明傳統(tǒng)的“更多數(shù)據(jù)和算力等于更好性能”的擴(kuò)展法則正在失效,AI技術(shù)需要尋找新的發(fā)展路徑。

Ilya預(yù)測,未來的AI系統(tǒng)將更加“agentic”。不僅僅是完成任務(wù),更能通過推理能力像人類一樣逐步解決問題。這種新范式可能是突破當(dāng)前技術(shù)瓶頸的關(guān)鍵,也會帶來更高的不確定性。

OpenAI從傳統(tǒng)GPT大語言模型轉(zhuǎn)向“o”系列推理模型,或許正是意識到僅依賴預(yù)訓(xùn)練的GPT模型已難以滿足未來AI發(fā)展的需求。希望通過整合推理能力,為實(shí)現(xiàn)更高水平的智能尋找突破口。

除了OpenAI,類似的趨勢也體現(xiàn)在競爭對手Google的布局中。其剛發(fā)布的Gemini 2.0 Flash Thinking被視為AI推理模型的開端,未來可能與主要語言模型深度整合。

各家技術(shù)公司的舉措都表明,推理能力正成為行業(yè)發(fā)展的新焦點(diǎn),而如何將其與通用大語言模型有機(jī)結(jié)合,可能是下一階段AI競爭的核心方向。OpenAI開始在這個技術(shù)方向上使用GPT階段同樣的策略——快速的迭代,哪怕是期貨也先展示出來再說,然后把AGI和Scaling law這些對整個行業(yè)的思考和發(fā)展以及宣傳上都最重要的概念牢牢握在自己手中,由它定義。

在o3發(fā)布后,OpenAI的明星研究員Jason Wei就表示,更重要的是o1到o3只用了三個月,證明了新的范式下進(jìn)步可以有多快。

比預(yù)訓(xùn)練的一兩年更新一次的范式快多了。

圖片

附帶OpenAI 12天技術(shù)發(fā)布總結(jié)


第1天:o1正式版和ChatGPT Pro

發(fā)布o(jì)1正式版,性能提升34%,思考速度提高50%,新增多模態(tài)輸入支持;推出ChatGPT Pro,訂閱者可無限制使用o1 Pro模式及高級語音功能,每月費(fèi)用200美元。

第2天:強(qiáng)化微調(diào)研究計(jì)劃

強(qiáng)化微調(diào)計(jì)劃擴(kuò)展至研究機(jī)構(gòu)和企業(yè),幫助用戶用少量數(shù)據(jù)創(chuàng)建領(lǐng)域?qū)<夷P汀?/p>

第3天:Sora正式版

推出文生視頻工具Sora,可創(chuàng)建最長20秒、分辨率1080p的視頻,支持圖生視頻及多種編輯,對Plus和 Pro用戶開放。

第4天:Canvas

發(fā)布 Canvas 協(xié)作界面,支持Python代碼運(yùn)行和并行編輯,提升寫作和編程體驗(yàn)。

第5天:ChatGPT與蘋果智能集成

與蘋果智能系統(tǒng)集成,增強(qiáng)Siri的任務(wù)處理能力,支持文檔總結(jié)、翻譯等高級功能,適配最新iOS、iPadOS和macOS系統(tǒng)。

第6天:高級語音添加視頻功能、圣誕老人模式

高級語音模式新增視頻聊天和圣誕老人語音,增強(qiáng)交互趣味性和用戶體驗(yàn)。

第7天:Projects功能

上線Projects功能,允許用戶組織文件夾、上傳內(nèi)容、設(shè)定指令,并追溯過往對話,為個人與團(tuán)隊(duì)協(xié)作帶來更精準(zhǔn)回答。

第8天:搜索功能全線免費(fèi),新增地圖功能

ChatGPT 搜索向所有用戶免費(fèi)開放,支持實(shí)時信息查詢和地圖交互。

第9天:開發(fā)者工具與o1 API

發(fā)布OpenAI o1 API,優(yōu)化實(shí)時API和微調(diào)工具,為開發(fā)者提供更靈活、更高效的模型構(gòu)建能力。

第10天:1-800-CHATGPT

推出語音通話服務(wù),用戶可通過電話撥打“1-800-CHATGPT”與AI進(jìn)行實(shí)時語音對話。

第11天:應(yīng)用程序集成功能

增強(qiáng) ChatGPT與部分應(yīng)用程序的集成功能,實(shí)現(xiàn)直接交互與控制,提升跨平臺工作效率和生產(chǎn)力。

第12天:下一代推理模型o3和o3 mini

發(fā)布迄今最強(qiáng)推理模型o3及其高效版本o3 mini。其中o3在Arc AGI測試中首次超越人類平均水平,o3 mini則通過創(chuàng)新的"自適應(yīng)思考時間"功能,以低成本實(shí)現(xiàn)接近頂級模型的性能。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱