編者按:本文來自微信公眾號“鳳凰網(wǎng)科技”(ID:ifeng_tech),作者:姜凡,編輯:董雨晴,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
5月29日凌晨,DeepSeek再度有了新動作——DeepSeek-R1-0528模型于Hugging Face平臺正式開源。
在發(fā)布之前幾個小時,DeepSeek小助手在官方交流群中發(fā)布低調(diào)發(fā)布了一則通知:DeepSeek R1模型已完成小版本的試升級,用戶可前往官方網(wǎng)頁、App以及小程序進行測試體驗(開啟深度思考功能)。值得一提的是,此次升級后,API接口及使用方式均維持原狀,未作改動。
對的,沒看錯,官方說的還是“小版本”升級,不是人們期待已久的大版本R2發(fā)布。
相似的情況在今年3月也發(fā)生過,DeepSeek對V3模型開展過小版本升級。當(dāng)時,官方率先在交流群內(nèi)發(fā)布相關(guān)消息,而后才公布具體的更新詳情。
實際上,關(guān)于DeepSeek-R1-0528,DeepSeek官方暫未發(fā)布基準測試成績。不過,大家可別單純地認為它真如官方所言,只是一次“小”迭代。
在代碼測試平臺Live CodeBench中,DeepSeek-R1-0528取得了73.1分的成績,排名第四。其得分接近OpenAI的o3(75.8分)和o4-mini(80.2分),在性能表現(xiàn)上可直接與OpenAI的o3相媲美。社區(qū)推測可能是原計劃中的R2模型提前以R1升級版形式推出。
另外在一些行業(yè)人士看來,參數(shù)量攀升至685B,上下文達到164K,是大幅增加,“應(yīng)該是原本的R2,但效果不及內(nèi)部預(yù)期沒升級版本號”,AI博主Orange AI稱。
而從實際體驗效果來看,經(jīng)過多方用戶的反饋,普遍表明DeepSeek - R1 - 0528在編程能力、邏輯推理能力以及交互能力等多個方面都取得了很大的進步。
在X平臺上,有網(wǎng)友總結(jié)了更新后的幾個亮點:
1、可以像谷歌模型一樣進行深度推理
2、文本生成優(yōu)化:更自然,格式更好
3、獨特的推理風(fēng)格:不僅快速,而且更深度
4、長時思考:單任務(wù)處理時長可達30-60分鐘
值得一提的是,這可是能是唯一一個目前能正確做對「9.9 - 9.11」誰更大“難題”的模型。
鳳凰網(wǎng)科技也嘗試著讓DeepSeek跑了兩個程序試試。
第一個prompt:生成一個天氣預(yù)報卡片,選中單個卡片時有動態(tài)效果,如下雨、晴天等等。
圖|來源于鳳凰網(wǎng)科技
第二個prompt:設(shè)計一個飲食記錄卡,記錄每天的食品攝入,并標記相應(yīng)的卡路里,以及建議的運動計劃,可以設(shè)計一些扁平化的按鈕。
圖|來源于鳳凰網(wǎng)科技
不過也有行業(yè)從業(yè)者反饋,由于prompt輸入的不同,不同使用者生成的效果差異較大,一些人將其代碼能力類比Claude3.7,還有更廣泛層面用戶反饋稱“感覺幻覺率下降了”、“文字水平有一些提升”。
從這次更新來看,DeepSeek還在往越來越好用的路上走,留給其他國產(chǎn)閉源大模型的時間真的不太多了。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。