五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

新版DeepSeek-R1正式開(kāi)源!直逼o3編程強(qiáng)到離譜,一手實(shí)測(cè)來(lái)了

新版DeepSeek-R1重磅開(kāi)源,凌晨已放出權(quán)重!此次模型性能幾乎與o4-mini(Medium)相當(dāng),編程實(shí)測(cè)超越Claude 4 Sonnet。網(wǎng)友紛紛驚嘆:開(kāi)源又一次勝利了。

編者按:本文來(lái)自微信公眾號(hào) 新智元(ID:AI_era),編輯:編輯部 YXZH,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

臨近端午假期,DeepSeek果然又開(kāi)始搞事。

就在今天凌晨,新版DeepSeek-R1正式開(kāi)源了!

DeepSeek-R1-0528模型權(quán)重已上傳到HuggingFace,不過(guò)模型卡暫未更新。

圖片

項(xiàng)目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時(shí)隔4個(gè)月,DeepSeek-R1完成了超進(jìn)化,編碼能力強(qiáng)到離譜,而且思考時(shí)間更長(zhǎng)了。

據(jù)稱,新模型基于DeepSeek-V3-0324訓(xùn)練(參數(shù)為660B)。

經(jīng)典物理模擬測(cè)試中,DeepSeek-R1新舊版本的對(duì)比

在LiveCodeBench基準(zhǔn)上,DeepSeek-R1-0528性能幾乎與o3-mini(High)和o4-mini(Medium)實(shí)力相當(dāng),一舉超越了Gemini 2.5 Flash。

圖片

有網(wǎng)友稱贊,DeepSeek-R1能夠像o3一樣糾正思維鏈,并且像Claude一樣創(chuàng)造性進(jìn)行世界構(gòu)建。

圖片

可以說(shuō),這是屬于開(kāi)源模型的巨大勝利!

不用R2,直接對(duì)標(biāo)SOTA

此次,DeepSeek-R1-0528更新核心亮點(diǎn),網(wǎng)友做了一個(gè)濃縮版的總結(jié):

  • 能像谷歌模型一樣深度推理

  • 文本生成優(yōu)化:更自然,格式更佳

  • 獨(dú)特的推理風(fēng)格:不僅快,而且更縝密

  • 支持長(zhǎng)時(shí)思考:?jiǎn)稳蝿?wù)處理時(shí)長(zhǎng)可達(dá)30-60分鐘

圖片

思考時(shí)間更長(zhǎng),成為了全網(wǎng)討論最多的一點(diǎn)。有網(wǎng)友實(shí)測(cè)后,R1思考時(shí)長(zhǎng)超過(guò)了25分鐘。

圖片

另外,這似乎是唯一一個(gè)能持續(xù)正確做對(duì)「9.9 - 9.11是多少」的模型。

圖片

編程能力強(qiáng)到爆

網(wǎng)友實(shí)測(cè)顯示,新版DeepSeek-R1在編程方面簡(jiǎn)直不可思議!

AI圈大佬「karminski-牙醫(yī)」用同一個(gè)prompt測(cè)試了DeepSeek-R1-0528和Claude 4 Sonnet后發(fā)現(xiàn)。

不管是光線照射在墻上形成的漫反射,還是球在撞擊后的運(yùn)動(dòng)方向,亦或是控制面板的美觀程度,這一把R1穩(wěn)贏。

圖片

圖片

網(wǎng)友Alex的測(cè)試也顯示出,DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

圖片

圖片

圖片

網(wǎng)友Haider.則是讓模型構(gòu)建一個(gè)單詞評(píng)分系統(tǒng)。R1簡(jiǎn)要思考后,就立刻出了關(guān)于代碼和工作測(cè)試的兩個(gè)文件,第一次運(yùn)行就完美無(wú)瑕。

圖片

此前,o3是唯一能完成這個(gè)任務(wù)的模型。而如今,R1堪稱是完成這個(gè)任務(wù)的最佳模型。

注意,R1的表現(xiàn)之所以如此驚人,是因?yàn)樗祷氐膬蓚€(gè)文件在第一次都能運(yùn)行良好,不用編輯,不用重試,這極其少見(jiàn)。

因?yàn)榇饲暗拇蠖鄶?shù)模型,要么會(huì)在邊緣情況下終端,要么會(huì)做得太復(fù)雜,要么缺少適當(dāng)?shù)臏y(cè)試覆蓋率。

圖片

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進(jìn)行了對(duì)標(biāo)。同一個(gè)提示下,它們各自的表現(xiàn)如何?

圖片

首先是深度研究的能力,給出「研究微劑量服用裸蓋菇素對(duì)長(zhǎng)期認(rèn)知的影響,需引用學(xué)術(shù)來(lái)源」提示。

這一把Gemini的響應(yīng)更快,引用了可靠的研究文獻(xiàn),并且答案結(jié)構(gòu)清晰。

再來(lái)看看它們搜索+對(duì)比能力如何?提示模型用實(shí)時(shí)來(lái)源列出全民基本收入(UBI)的五大優(yōu)點(diǎn)和缺點(diǎn)。

這時(shí),Gemini 2.5 Pro和DeepSeek R1表現(xiàn)都不錯(cuò),打成平手。

圖片

圖片

Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

再讓模型為AI SaaS工具制定TikTok增長(zhǎng)策略,兩款模型再次打成平局。

在智能體任務(wù)規(guī)劃方面,讓Gemini和DeepSeek一同設(shè)計(jì)一個(gè)完整的市場(chǎng)調(diào)研智能體,包含工具鏈、用戶角色和流程交接,結(jié)果是Gemini生成一張信息圖,而DeepSeek稍遜一籌。

由此,大家對(duì)DeepSeek-R2的期待值也是拉滿了。

一手實(shí)測(cè)來(lái)了

新版DeepSeek-R1的能力經(jīng)過(guò)我們實(shí)測(cè),雖然是一次「小版本」更新,但是性能得到了「史詩(shī)級(jí)」的加強(qiáng)。

尤其是編程能力,感覺(jué)已經(jīng)超過(guò)或者足以媲美Claude 4和Gemini 2.5 Pro,可以說(shuō)所有提示都是「一把過(guò)」,不需要任何修改!并且可以在網(wǎng)頁(yè)端直接運(yùn)行,展示效果。

首先是制作一個(gè)「新智元」字體在宇宙中旋轉(zhuǎn)的3D動(dòng)畫(huà),完成度相當(dāng)之高。

圖片

對(duì)于簡(jiǎn)單任務(wù),DeepSeek-R1的思考時(shí)間明顯縮短,不再像以前對(duì)簡(jiǎn)單任務(wù)也瘋狂思考。

設(shè)計(jì)一個(gè)新智元的官方網(wǎng)站,對(duì)于這種相對(duì)容易的任務(wù),DeepSeek-R1-0528只需要10s的思考時(shí)間。

圖片

能夠明顯感覺(jué)到,這次DeepSeek-R1新版本的思考過(guò)程更加穩(wěn)定。

以模擬一個(gè)太陽(yáng)系運(yùn)行為例,還要求行星比例大小與實(shí)際相同,能看到DeepSeek-R1-0528的思考過(guò)程已經(jīng)趨近于「完美」。

圖片

最后,再給DeepSeek-R1-0528上點(diǎn)強(qiáng)度,要求演示籃球落地后的彈跳過(guò)程,并且要完美遵循現(xiàn)實(shí)中物理規(guī)律。

圖片

最終DeepSeek的成果還貼心的設(shè)計(jì)了參數(shù)控制面板,以及速度方向指示,是真的很強(qiáng),以上所有代碼都是提示之后一遍過(guò),沒(méi)有任何的Debug過(guò)程。

對(duì)于類似「華容道」的多步驟思考問(wèn)題,DeepSeek-R1-0528的表現(xiàn)也非常完美,

比如「一位農(nóng)夫要帶一只狐貍、一只鵝和一袋豆子過(guò)河。船每次只能載他和一樣物品。如果農(nóng)夫不在場(chǎng),狐貍會(huì)吃掉鵝,鵝會(huì)吃掉豆子。請(qǐng)問(wèn)農(nóng)夫該如何安排過(guò)河,才能確保所有物品安全?」這種復(fù)雜推理問(wèn)題,DeepSeek-R1還可以給出核心問(wèn)題所在。

圖片

最令我感到震驚的是,這次的「思考」能力似乎進(jìn)行了秘密加強(qiáng)。

我給他了一個(gè)非常無(wú)厘頭的族譜問(wèn)題:「我的媽媽的爸爸的兒子的侄女的孫子的爺爺?shù)木司说耐鈱O女的姑姑,是我的誰(shuí),你能畫(huà)出關(guān)系族譜圖嗎?」

以下過(guò)程經(jīng)過(guò)3倍加速,可以看到DeepSeek-R1真的在通過(guò)數(shù)學(xué)的符號(hào)化方式在進(jìn)行思考。

圖片

并且最后還真讓他分析出了結(jié)果,簡(jiǎn)直震驚!這么長(zhǎng)的思考鏈條都沒(méi)有斷。

圖片

另外值得一提的是,這次的思考過(guò)程并沒(méi)有遇到服務(wù)算力不夠的情況,看來(lái)DeepSeek有針對(duì)性的提高了算力,畢竟現(xiàn)在是模型剛發(fā)布后的高峰「測(cè)評(píng)」期。

參考資料:

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱