編程革命徹底爆發(fā)！剛剛，OpenAI最強(qiáng)智能體上線ChatGPT

新智元·2025-05-17

關(guān)注

OpenAI最強(qiáng)AI編程智能體真的來了！Codex震撼上線，由o3優(yōu)化版codex-1加持，多任務(wù)并行，半小時(shí)干完數(shù)天軟件工程任務(wù)。

編者按：本文來自微信公眾號新智元（ID：AI_era），編輯：編輯部 YXH，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

從今天起，AI編程正式開啟新時(shí)代！

剛剛，Greg Brockman帶隊(duì)與OpenAI六人團(tuán)隊(duì)開啟線上直播，震撼發(fā)布了一款云端AI編程智能體——Codex。

用奧特曼的話來說就是，一個(gè)人就能打造無數(shù)爆款應(yīng)用的時(shí)代來了！

Codex由新模型codex-1加持，這是o3的一個(gè)特調(diào)版本，專為軟件工程量身打造。

它不僅能在云端沙盒環(huán)境中安全地并行處理多項(xiàng)任務(wù)，而且通過與GitHub無縫集成，還可以直接調(diào)用你的代碼庫。

它不僅僅是一款工具，更是一位「10x工程師」，能夠同時(shí)做到：

快速構(gòu)建功能模塊
深入解答代碼庫問題
精準(zhǔn)修復(fù)代碼漏洞
提交PR
自動執(zhí)行測試驗(yàn)證

過去，這些任務(wù)或許耗費(fèi)開發(fā)者數(shù)小時(shí)乃至數(shù)日，如今Codex最多在30分鐘內(nèi)高效完成。

點(diǎn)擊ChatGPT側(cè)邊欄，輸入提示后，直接點(diǎn)擊「代碼」分配任務(wù)，或「提問」咨詢代碼庫相關(guān)問題

通過強(qiáng)化學(xué)習(xí)，Codex基于真實(shí)世界的編碼任務(wù)和多樣化環(huán)境訓(xùn)練，生成的代碼不僅符合人類偏好，還能無縫融入標(biāo)準(zhǔn)工作流。

基準(zhǔn)測試顯示，codex-1在SWE-bench上拿下72.1%的高分，一舉擊敗了Claude 3.7以及o3-high。

從今天起，Codex將向全球ChatGPT Pro、Enterprise和Team用戶正式開放，Plus和Edu用戶很快就能上手了。

可以說，AI編程智能體Codex的橫空出世，或?qū)⒅厮苘浖_發(fā)的底層邏輯，徹底點(diǎn)燃了編程革命的火種。

Codex多任務(wù)并行，AI編程超級加速器

早在2021年，OpenAI首次發(fā)布了CodeX模型，開啟了「氛圍編程」（vibe coding）的時(shí)代。

這種編程方式讓開發(fā)者與AI協(xié)同工作，代碼生產(chǎn)變得更加直觀、高效。

幾周前，OpenAI又推出了CodeX CLI，一款可在本地終端運(yùn)行的智能體。

但這只是開始！

OpenAI今天推出全新的Codex智能體，再次將軟件工程推向一個(gè)全新的高度。

接下來，一睹Codex編碼的驚艷表現(xiàn)吧。

連接GitHub賬戶后，OpenAI研究員Thibault Sottiaux選擇了一個(gè)開源倉庫preparedness repo。

然后，他收到了三個(gè)任務(wù)：

第一個(gè)是提問：讓代碼智能體Codex解釋代碼庫，說明整體結(jié)構(gòu)
第二個(gè)是代碼任務(wù)：要求在代碼庫中查找并修復(fù)某個(gè)地方bug
第三個(gè)任務(wù)是提問：遍歷代碼庫，主動提出自己可以執(zhí)行的任務(wù)建議

接下來演示中，Thibault向Codex下達(dá)多個(gè)任務(wù)，比如拼寫和語法糾錯(cuò)、智能任務(wù)委派、多倉庫適配。

在糾錯(cuò)方面，他故意在指令中加入拼寫錯(cuò)誤，Codex不僅理解了意圖，還主動找出了代碼庫中的拼寫和語法問題并修復(fù)，細(xì)致到令人驚嘆。

當(dāng)Thibault提出希望代碼庫「易維護(hù)、無bug」的目標(biāo)時(shí)，Codex遍歷代碼庫后，主動發(fā)現(xiàn)了可變默認(rèn)值、不一致的超時(shí)設(shè)置等問題，并自行生成了修復(fù)任務(wù)。

這種「自我委派」能力，堪稱智能體的巔峰表現(xiàn)。

值得注意的是，Codex智能體運(yùn)行在OpenAI計(jì)算基礎(chǔ)設(shè)施上，與強(qiáng)化學(xué)習(xí)共享同一套久經(jīng)考驗(yàn)的系統(tǒng)。

每個(gè)任務(wù)都在獨(dú)立的虛擬沙盒中運(yùn)行，配備專屬的文件系統(tǒng)、CPU、內(nèi)存、和網(wǎng)絡(luò)策略，確保了高效安全。

除了preparedness倉庫，Codex還無縫處理了CodeX CLI庫，展現(xiàn)其在不同項(xiàng)目中的泛化能力。

不論是開源項(xiàng)目，還是內(nèi)部代碼庫，Codex都游刃有余。

Codex接收到了用戶反饋的bug，因?yàn)樘厥庾址募麑?dǎo)致了diff命令報(bào)錯(cuò)。

在解決過程中，它不僅能復(fù)現(xiàn)問題，還可以編寫測試腳本、運(yùn)行l(wèi)inter檢查，并生成PR，整個(gè)過程僅需幾分鐘。

Thibault直言，「這原本可能花費(fèi)我30分鐘，甚至幾個(gè)小時(shí)完成」。

此外，OpenAI研究員Katy Shi演示中強(qiáng)調(diào)，Codex的PR包含了詳細(xì)的摘要，清晰說明了修改內(nèi)容和引用的代碼，測試結(jié)果一目了然。

一番演示下來，Greg表示，Codex讓自己深刻感受到了AGI！

對齊人類偏好，實(shí)戰(zhàn)4個(gè)開源庫

OpenAI訓(xùn)練codex-1的一個(gè)主要目標(biāo)，是確保其輸出能高度符合人類的編碼偏好與標(biāo)準(zhǔn)。

與OpenAI o3相比，codex-1能穩(wěn)定生成更為簡潔的代碼修改補(bǔ)丁，可以直接供人工審查并集成到標(biāo)準(zhǔn)工作流程中。

為了體現(xiàn)Codex生成代碼的簡潔和高效，OpenAI提供了Codex和o3對比的4個(gè)開源庫實(shí)戰(zhàn)實(shí)例：

astropy

astropy是一個(gè)用于天文學(xué)的Python開源庫。

第一個(gè)問題是astropy/astropy的倉庫中，Modeling模塊中的separability_matrix無法正確計(jì)算嵌套CompoundModels的可分離性。

可以看到，在修改前后的代碼版本對比中，使用Codex修改生成了十分簡潔的代碼。

相比之下，o3修改的代碼就顯得有些冗長了，甚至還將一些「不必要」的注釋加入了源代碼中。

matplotlib

Matplotlib是一個(gè)用于創(chuàng)建靜態(tài)、動畫和交互式可視化的Python綜合性庫。

這次問題是修復(fù)Bug：在mlab._spectral_helper中的窗口校正（windows correction）不正確。

同樣可以看到，Codex修改代碼的過程更為簡潔。

django

Django是基于Python的Web框架，這個(gè)問題是修復(fù)僅包含duration（時(shí)長）的表達(dá)式在SQLite和MySQL上無法正常工作。

Codex的修復(fù)過程依然優(yōu)雅，并且相比o3，還首先補(bǔ)上了缺少的依賴調(diào)用。

expensify

expensify是一個(gè)圍繞聊天的財(cái)務(wù)協(xié)作的開源軟件。

OpenAI給出的問題是「dd [HOLD for payment 2024-10-14] [$250] LHN - 刪除緩存后，成員聊天室名稱在LHN中未更新」。

同樣可以看到Codex的問題定位和修改更為精準(zhǔn)和有效，o3甚至進(jìn)行了一次無效的代碼的修改。

OpenAI團(tuán)隊(duì)已經(jīng)用上了

OpenAI的技術(shù)團(tuán)隊(duì)已經(jīng)開始將Codex作為他們?nèi)粘９ぞ甙囊徊糠帧?/p>

OpenAI的工程師最常使用Codex來執(zhí)行重復(fù)且范圍明確的任務(wù)，如重構(gòu)、重命名和編寫測試，這些任務(wù)會打斷他們的專注。

它同樣適用于搭建新功能、連接組件、修復(fù)錯(cuò)誤和起草文檔。

團(tuán)隊(duì)正在圍繞Codex建立新的習(xí)慣：處理值班問題、在一天開始時(shí)規(guī)劃任務(wù)，以及執(zhí)行后臺工作以保持進(jìn)度。

通過減少上下文切換和提醒被遺忘的待辦事項(xiàng)，Codex幫助工程師更快地交付并專注于最重要的事情。

在正式發(fā)布前，OpenAI與少數(shù)外部測試者合作，評估Codex在不同代碼庫、開發(fā)流程與團(tuán)隊(duì)環(huán)境中的實(shí)際表現(xiàn)：

Cisco作為早期設(shè)計(jì)合作伙伴，探索Codex在加速工程團(tuán)隊(duì)構(gòu)思落地方面的潛力，并通過評估真實(shí)用例向OpenAI提供反饋，助力模型優(yōu)化。
Temporal借助Codex實(shí)現(xiàn)功能開發(fā)、問題調(diào)試、測試編寫與執(zhí)行的加速，并用于重構(gòu)大型代碼庫。Codex還能在后臺處理復(fù)雜任務(wù)，幫助工程師保持專注與高效迭代。
Superhuman利用Codex自動處理小型重復(fù)任務(wù)，如提高測試覆蓋率和修復(fù)集成故障；還使產(chǎn)品經(jīng)理能夠無需工程介入（除代碼審查外）完成輕量級代碼更改，提升配對效率。
Kodiak在Codex支持下加速調(diào)試工具開發(fā)、測試覆蓋和代碼重構(gòu)，推進(jìn)其自動駕駛系統(tǒng)Kodiak Driver的研發(fā)。Codex也作為參考工具，幫助工程師理解陌生代碼棧，提供相關(guān)上下文與歷史更改。

根據(jù)目前的使用經(jīng)驗(yàn)來看，OpenAI建議：可同時(shí)向多個(gè)代理分配邊界清晰的任務(wù)，并嘗試多種任務(wù)類型與提示方式，以更全面地發(fā)掘模型能力。