新版DeepSeek-R1正式開源！直逼o3編程強(qiáng)到離譜，一手實(shí)測(cè)來了

新智元·2025-05-29

關(guān)注

新版DeepSeek-R1重磅開源，凌晨已放出權(quán)重！此次模型性能幾乎與o4-mini（Medium）相當(dāng)，編程實(shí)測(cè)超越Claude 4 Sonnet。網(wǎng)友紛紛驚嘆：開源又一次勝利了。

編者按：本文來自微信公眾號(hào) 新智元（ID：AI_era），編輯：編輯部 YXZH，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

臨近端午假期，DeepSeek果然又開始搞事。

就在今天凌晨，新版DeepSeek-R1正式開源了！

DeepSeek-R1-0528模型權(quán)重已上傳到HuggingFace，不過模型卡暫未更新。

項(xiàng)目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時(shí)隔4個(gè)月，DeepSeek-R1完成了超進(jìn)化，編碼能力強(qiáng)到離譜，而且思考時(shí)間更長(zhǎng)了。

據(jù)稱，新模型基于DeepSeek-V3-0324訓(xùn)練（參數(shù)為660B）。

經(jīng)典物理模擬測(cè)試中，DeepSeek-R1新舊版本的對(duì)比

在LiveCodeBench基準(zhǔn)上，DeepSeek-R1-0528性能幾乎與o3-mini（High）和o4-mini（Medium)實(shí)力相當(dāng)，一舉超越了Gemini 2.5 Flash。

有網(wǎng)友稱贊，DeepSeek-R1能夠像o3一樣糾正思維鏈，并且像Claude一樣創(chuàng)造性進(jìn)行世界構(gòu)建。

可以說，這是屬于開源模型的巨大勝利！

不用R2，直接對(duì)標(biāo)SOTA

此次，DeepSeek-R1-0528更新核心亮點(diǎn)，網(wǎng)友做了一個(gè)濃縮版的總結(jié)：

能像谷歌模型一樣深度推理
文本生成優(yōu)化：更自然，格式更佳
獨(dú)特的推理風(fēng)格：不僅快，而且更縝密
支持長(zhǎng)時(shí)思考：?jiǎn)稳蝿?wù)處理時(shí)長(zhǎng)可達(dá)30-60分鐘

思考時(shí)間更長(zhǎng)，成為了全網(wǎng)討論最多的一點(diǎn)。有網(wǎng)友實(shí)測(cè)后，R1思考時(shí)長(zhǎng)超過了25分鐘。

另外，這似乎是唯一一個(gè)能持續(xù)正確做對(duì)「9.9 - 9.11是多少」的模型。

編程能力強(qiáng)到爆

網(wǎng)友實(shí)測(cè)顯示，新版DeepSeek-R1在編程方面簡(jiǎn)直不可思議！

AI圈大佬「karminski-牙醫(yī)」用同一個(gè)prompt測(cè)試了DeepSeek-R1-0528和Claude 4 Sonnet后發(fā)現(xiàn)。

不管是光線照射在墻上形成的漫反射，還是球在撞擊后的運(yùn)動(dòng)方向，亦或是控制面板的美觀程度，這一把R1穩(wěn)贏。

網(wǎng)友Alex的測(cè)試也顯示出，DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

網(wǎng)友Haider.則是讓模型構(gòu)建一個(gè)單詞評(píng)分系統(tǒng)。R1簡(jiǎn)要思考后，就立刻出了關(guān)于代碼和工作測(cè)試的兩個(gè)文件，第一次運(yùn)行就完美無瑕。

此前，o3是唯一能完成這個(gè)任務(wù)的模型。而如今，R1堪稱是完成這個(gè)任務(wù)的最佳模型。

注意，R1的表現(xiàn)之所以如此驚人，是因?yàn)樗祷氐膬蓚€(gè)文件在第一次都能運(yùn)行良好，不用編輯，不用重試，這極其少見。

因?yàn)榇饲暗拇蠖鄶?shù)模型，要么會(huì)在邊緣情況下終端，要么會(huì)做得太復(fù)雜，要么缺少適當(dāng)?shù)臏y(cè)試覆蓋率。

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進(jìn)行了對(duì)標(biāo)。同一個(gè)提示下，它們各自的表現(xiàn)如何？

首先是深度研究的能力，給出「研究微劑量服用裸蓋菇素對(duì)長(zhǎng)期認(rèn)知的影響，需引用學(xué)術(shù)來源」提示。

這一把Gemini的響應(yīng)更快，引用了可靠的研究文獻(xiàn)，并且答案結(jié)構(gòu)清晰。

再來看看它們搜索+對(duì)比能力如何？提示模型用實(shí)時(shí)來源列出全民基本收入（UBI）的五大優(yōu)點(diǎn)和缺點(diǎn)。

這時(shí)，Gemini 2.5 Pro和DeepSeek R1表現(xiàn)都不錯(cuò)，打成平手。

Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

再讓模型為AI SaaS工具制定TikTok增長(zhǎng)策略，兩款模型再次打成平局。

在智能體任務(wù)規(guī)劃方面，讓Gemini和DeepSeek一同設(shè)計(jì)一個(gè)完整的市場(chǎng)調(diào)研智能體，包含工具鏈、用戶角色和流程交接，結(jié)果是Gemini生成一張信息圖，而DeepSeek稍遜一籌。

由此，大家對(duì)DeepSeek-R2的期待值也是拉滿了。

一手實(shí)測(cè)來了

新版DeepSeek-R1的能力經(jīng)過我們實(shí)測(cè)，雖然是一次「小版本」更新，但是性能得到了「史詩(shī)級(jí)」的加強(qiáng)。

尤其是編程能力，感覺已經(jīng)超過或者足以媲美Claude 4和Gemini 2.5 Pro，可以說所有提示都是「一把過」，不需要任何修改！并且可以在網(wǎng)頁(yè)端直接運(yùn)行，展示效果。

首先是制作一個(gè)「新智元」字體在宇宙中旋轉(zhuǎn)的3D動(dòng)畫，完成度相當(dāng)之高。

對(duì)于簡(jiǎn)單任務(wù)，DeepSeek-R1的思考時(shí)間明顯縮短，不再像以前對(duì)簡(jiǎn)單任務(wù)也瘋狂思考。

設(shè)計(jì)一個(gè)新智元的官方網(wǎng)站，對(duì)于這種相對(duì)容易的任務(wù)，DeepSeek-R1-0528只需要10s的思考時(shí)間。

能夠明顯感覺到，這次DeepSeek-R1新版本的思考過程更加穩(wěn)定。

以模擬一個(gè)太陽(yáng)系運(yùn)行為例，還要求行星比例大小與實(shí)際相同，能看到DeepSeek-R1-0528的思考過程已經(jīng)趨近于「完美」。

最后，再給DeepSeek-R1-0528上點(diǎn)強(qiáng)度，要求演示籃球落地后的彈跳過程，并且要完美遵循現(xiàn)實(shí)中物理規(guī)律。

最終DeepSeek的成果還貼心的設(shè)計(jì)了參數(shù)控制面板，以及速度方向指示，是真的很強(qiáng)，以上所有代碼都是提示之后一遍過，沒有任何的Debug過程。

對(duì)于類似「華容道」的多步驟思考問題，DeepSeek-R1-0528的表現(xiàn)也非常完美，

比如「一位農(nóng)夫要帶一只狐貍、一只鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農(nóng)夫不在場(chǎng)，狐貍會(huì)吃掉鵝，鵝會(huì)吃掉豆子。請(qǐng)問農(nóng)夫該如何安排過河，才能確保所有物品安全？」這種復(fù)雜推理問題，DeepSeek-R1還可以給出核心問題所在。

最令我感到震驚的是，這次的「思考」能力似乎進(jìn)行了秘密加強(qiáng)。

我給他了一個(gè)非常無厘頭的族譜問題：「我的媽媽的爸爸的兒子的侄女的孫子的爺爺?shù)木司说耐鈱O女的姑姑，是我的誰(shuí)，你能畫出關(guān)系族譜圖嗎?」

以下過程經(jīng)過3倍加速，可以看到DeepSeek-R1真的在通過數(shù)學(xué)的符號(hào)化方式在進(jìn)行思考。

并且最后還真讓他分析出了結(jié)果，簡(jiǎn)直震驚！這么長(zhǎng)的思考鏈條都沒有斷。

另外值得一提的是，這次的思考過程并沒有遇到服務(wù)算力不夠的情況，看來DeepSeek有針對(duì)性的提高了算力，畢竟現(xiàn)在是模型剛發(fā)布后的高峰「測(cè)評(píng)」期。

參考資料：

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問，請(qǐng)聯(lián)系editor@cyzone.cn。