五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

梁文鋒不語,只是一味“小更新”

DeepSeek深夜發(fā)布小更新,新版本在編程、推理能力方面大幅提升。另有行業(yè)人士認為,本次無論模型尺寸還是支持的上下文長度都有大幅提升,猜測這可能意味著R2的上線時間又要推遲了。

編者按:本文來自微信公眾號“鳳凰網(wǎng)科技”(ID:ifeng_tech),作者:姜凡,編輯:董雨晴,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

5月29日凌晨,DeepSeek再度有了新動作——DeepSeek-R1-0528模型于Hugging Face平臺正式開源。

圖片

在發(fā)布之前幾個小時,DeepSeek小助手在官方交流群中發(fā)布低調(diào)發(fā)布了一則通知:DeepSeek R1模型已完成小版本的試升級,用戶可前往官方網(wǎng)頁、App以及小程序進行測試體驗(開啟深度思考功能)。值得一提的是,此次升級后,API接口及使用方式均維持原狀,未作改動。

圖片

對的,沒看錯,官方說的還是“小版本”升級,不是人們期待已久的大版本R2發(fā)布。

相似的情況在今年3月也發(fā)生過,DeepSeek對V3模型開展過小版本升級。當(dāng)時,官方率先在交流群內(nèi)發(fā)布相關(guān)消息,而后才公布具體的更新詳情。

實際上,關(guān)于DeepSeek-R1-0528,DeepSeek官方暫未發(fā)布基準測試成績。不過,大家可別單純地認為它真如官方所言,只是一次“小”迭代。

在代碼測試平臺Live CodeBench中,DeepSeek-R1-0528取得了73.1分的成績,排名第四。其得分接近OpenAI的o3(75.8分)和o4-mini(80.2分),在性能表現(xiàn)上可直接與OpenAI的o3相媲美。社區(qū)推測可能是原計劃中的R2模型提前以R1升級版形式推出。

圖片

另外在一些行業(yè)人士看來,參數(shù)量攀升至685B,上下文達到164K,是大幅增加,“應(yīng)該是原本的R2,但效果不及內(nèi)部預(yù)期沒升級版本號”,AI博主Orange AI稱。

而從實際體驗效果來看,經(jīng)過多方用戶的反饋,普遍表明DeepSeek - R1 - 0528在編程能力、邏輯推理能力以及交互能力等多個方面都取得了很大的進步。

在X平臺上,有網(wǎng)友總結(jié)了更新后的幾個亮點:

1、可以像谷歌模型一樣進行深度推理

2、文本生成優(yōu)化:更自然,格式更好

3、獨特的推理風(fēng)格:不僅快速,而且更深度

4、長時思考:單任務(wù)處理時長可達30-60分鐘

圖片

值得一提的是,這可是能是唯一一個目前能正確做對「9.9 - 9.11」誰更大“難題”的模型。

圖片

鳳凰網(wǎng)科技也嘗試著讓DeepSeek跑了兩個程序試試。

第一個prompt:生成一個天氣預(yù)報卡片,選中單個卡片時有動態(tài)效果,如下雨、晴天等等。

圖片

圖|來源于鳳凰網(wǎng)科技

第二個prompt:設(shè)計一個飲食記錄卡,記錄每天的食品攝入,并標記相應(yīng)的卡路里,以及建議的運動計劃,可以設(shè)計一些扁平化的按鈕。

圖片

圖|來源于鳳凰網(wǎng)科技

不過也有行業(yè)從業(yè)者反饋,由于prompt輸入的不同,不同使用者生成的效果差異較大,一些人將其代碼能力類比Claude3.7,還有更廣泛層面用戶反饋稱“感覺幻覺率下降了”、“文字水平有一些提升”。

從這次更新來看,DeepSeek還在往越來越好用的路上走,留給其他國產(chǎn)閉源大模型的時間真的不太多了。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱