編者按:本文來自微信公眾號 “鯨選AI”,作者:鯨哥,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
沒等到Deepseek R2,DeepSeek悄悄更新了V 3.1。
官方群放出的消息就提了一點,上下文長度拓展至128K。128K也是GPT-4o這一代模型的處理Token的長度。因此一開始,鯨哥以為從V3升級到V 3.1,以為是不大的升級,鯨哥體驗下來還有驚喜。
01
代碼能力與前端審美提升
從開源社區(qū)Huggingface上傳的模型版本看,模型尺寸達(dá)685B,支持 BF16、F8_E4M3、F32 等張量類型,平衡模型的計算精度和效率。
最驚喜的是代碼能力提升明顯,前端審美也有大幅度提升。我們先看V3.1在代碼測試中的變現(xiàn)。
請設(shè)計并開發(fā)一款結(jié)合日歷和待辦事項(To-Do)的產(chǎn)品,其核心功能應(yīng)包括:
任務(wù)分類與顏色標(biāo)記:用戶能夠創(chuàng)建不同類別的任務(wù),并為每個類別分配獨特的顏色。當(dāng)任務(wù)被歸類后,其在日歷視圖上應(yīng)以相應(yīng)的顏色進(jìn)行標(biāo)記,以便快速識別。短期任務(wù)管理:*完成標(biāo)記: 對于計劃在特定日期完成的任務(wù),用戶應(yīng)能將其標(biāo)記為“已完成”。已完成的任務(wù)應(yīng)在界面上以視覺方式(例如,劃掉、變灰或顯示完成圖標(biāo))清晰區(qū)分。*逾期處理: 如果任務(wù)未在計劃日期完成,系統(tǒng)應(yīng)提供明確的視覺提示(例如,顏色變化、閃爍或標(biāo)記為逾期),并允許用戶選擇將其延期至第二天或后續(xù)日期。長期任務(wù)可視化: 對于跨越多天的長期任務(wù),系統(tǒng)應(yīng)在日歷視圖上以連續(xù)的線條或色塊進(jìn)行標(biāo)記,清晰展示其持續(xù)時間,并支持用戶查看和編輯任務(wù)的起止日期。
說實話,整個產(chǎn)品的設(shè)計其實已經(jīng)達(dá)到了一定的水準(zhǔn),準(zhǔn)確理解Prompt,并且也沒有什么交互Bug。相比Claude 3.7也并不遜色。
Claude 3.7生成的日歷代辦事項
當(dāng)然相比Claude 4.0和4.1的前端還有審美差距。
PS:鯨哥正在利用Claude 4.0做日歷+To do的結(jié)合體,后續(xù)會發(fā)布出來,大家可以期待。
天氣卡片案例測試
第二個案例能看出來更明顯。這個案例是大家經(jīng)常做測試的天氣卡片Case。
創(chuàng)建一個包含 CSS 和 JavaScript 的單個 HTML 文件,以生成一個動畫天氣卡片??ㄆ瑧?yīng)通過不同的動畫直觀地表示以下天氣條件:風(fēng):(例如,移動的云朵、搖曳的樹木或風(fēng)線)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,閃耀的光線、明亮的背景)雪:(例如,落下的雪花、積雪)并排顯示所有天氣卡片。卡片應(yīng)具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應(yīng)包含一種在不同天氣條件之間切換的方法(例如,一個函數(shù)或一組按鈕),以演示每種天氣的動畫。
注:DeepSeek 新版 V3 模型的生成結(jié)果,右側(cè)為 R1 的生成結(jié)果
這是新版V3.1生成的效果,是不是已經(jīng)很美觀了,而且還有降雨和太陽等動圖效果,這就不只是拿得出手,還有些超出期待了。
我們看GPT-5的演示效果,其實也還行,但是雪花和大風(fēng)的演示圖形有點Bug,以及沒有很多天氣信息展示。
流程圖與復(fù)雜案例測試
接著我們測試一個考驗DPSK邏輯和構(gòu)圖的案例,要求V3.1創(chuàng)建一個流程圖,展示用戶、Agent、LLM和MCP Server之間的交互。
V3.1使用Mermaid流程圖來表示這一過程,大體過程展示出來了,但是仿佛又缺乏些細(xì)節(jié)。
不過好事就是有些流程圖、邏輯圖以后可以教給DeepSeek做了,沒有思維腦圖產(chǎn)品做的細(xì)節(jié),但勝在基礎(chǔ)作品直出和有美觀度渲染。
繼續(xù)來做一個更復(fù)雜的Case,這是馬斯克點贊的Grok 4案例:“3D線框網(wǎng)絡(luò)與能量脈沖動畫”。
DeepSeek V3.1使用了CSS 3D變換來模擬3D效果,純JavaScript處理交互邏輯,不需要任何外部庫。
但不得不說,V3.1在做這種更復(fù)雜的案例時,略微有些力不從心。沒有做出立體狀,效果也不太酷炫。
感覺還是上下文太短,現(xiàn)在很多大模型都已經(jīng)經(jīng)200K,V3.1現(xiàn)在處理復(fù)雜任務(wù)還有距離。
GPT-5生成分效果還可以,用能量球形式展現(xiàn),脈沖效果也有一定體現(xiàn)。
02
邏輯推理能力進(jìn)步
雖然是非推理模型,但V3.1的邏輯推理也有一定的進(jìn)步,這道題的回答中可以看到進(jìn)步:
單選題某辦公室甲、乙、丙、丁四人對本辦公室當(dāng)選先進(jìn)工作者的職工進(jìn)行如下預(yù)測:甲:乙和丙要么都當(dāng)選,要么都落選。乙:最多只有2人當(dāng)選。丙:我不可能當(dāng)選。?。耗銈冎锌隙ㄓ腥说念A(yù)測是錯的。結(jié)果發(fā)現(xiàn)四個人中只有一個人說對了,問以下哪項判斷是正確的?()A 甲當(dāng)選了B 乙當(dāng)選了C 丙未當(dāng)選D 丁未當(dāng)選
豆包這題思考過程對,但是給的答案選項錯了。
DeepSeek V 3.1的幻覺率依然很高,讓以吳曉波風(fēng)格寫大疆,引用了幾本不存在的書作為內(nèi)容源。
DeepSeek V3.1這波更新不是很大,勝在有進(jìn)步和又降價。
盡管目前關(guān)于DeepSeek R2的傳聞很多,其發(fā)布日期比傳言中的日子,已經(jīng)滯后很多,但DeepSeek每次更新還是有穩(wěn)定的進(jìn)步,R2仍然值得期待。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。