DeepSeek有點含蓄了，實測V3.1有進(jìn)步，編程等個別場景硬剛GPT-5

AI鯨選社·2025-08-21

關(guān)注

為V4和R2大更新做準(zhǔn)備？

編者按：本文來自微信公眾號 “鯨選AI”，作者：鯨哥，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

沒等到Deepseek R2，DeepSeek悄悄更新了V 3.1。

官方群放出的消息就提了一點，上下文長度拓展至128K。128K也是GPT-4o這一代模型的處理Token的長度。因此一開始，鯨哥以為從V3升級到V 3.1，以為是不大的升級，鯨哥體驗下來還有驚喜。

01 代碼能力與前端審美提升

從開源社區(qū)Huggingface上傳的模型版本看，模型尺寸達(dá)685B，支持 BF16、F8_E4M3、F32 等張量類型，平衡模型的計算精度和效率。

最驚喜的是代碼能力提升明顯，前端審美也有大幅度提升。我們先看V3.1在代碼測試中的變現(xiàn)。

請設(shè)計并開發(fā)一款結(jié)合日歷和待辦事項（To-Do）的產(chǎn)品，其核心功能應(yīng)包括：

任務(wù)分類與顏色標(biāo)記：用戶能夠創(chuàng)建不同類別的任務(wù)，并為每個類別分配獨特的顏色。當(dāng)任務(wù)被歸類后，其在日歷視圖上應(yīng)以相應(yīng)的顏色進(jìn)行標(biāo)記，以便快速識別。短期任務(wù)管理：*完成標(biāo)記：對于計劃在特定日期完成的任務(wù)，用戶應(yīng)能將其標(biāo)記為“已完成”。已完成的任務(wù)應(yīng)在界面上以視覺方式（例如，劃掉、變灰或顯示完成圖標(biāo)）清晰區(qū)分。*逾期處理：如果任務(wù)未在計劃日期完成，系統(tǒng)應(yīng)提供明確的視覺提示（例如，顏色變化、閃爍或標(biāo)記為逾期），并允許用戶選擇將其延期至第二天或后續(xù)日期。長期任務(wù)可視化：對于跨越多天的長期任務(wù)，系統(tǒng)應(yīng)在日歷視圖上以連續(xù)的線條或色塊進(jìn)行標(biāo)記，清晰展示其持續(xù)時間，并支持用戶查看和編輯任務(wù)的起止日期。

說實話，整個產(chǎn)品的設(shè)計其實已經(jīng)達(dá)到了一定的水準(zhǔn)，準(zhǔn)確理解Prompt，并且也沒有什么交互Bug。相比Claude 3.7也并不遜色。

Claude 3.7生成的日歷代辦事項

當(dāng)然相比Claude 4.0和4.1的前端還有審美差距。

PS：鯨哥正在利用Claude 4.0做日歷+To do的結(jié)合體，后續(xù)會發(fā)布出來，大家可以期待。

天氣卡片案例測試

第二個案例能看出來更明顯。這個案例是大家經(jīng)常做測試的天氣卡片Case。

創(chuàng)建一個包含 CSS 和 JavaScript 的單個 HTML 文件，以生成一個動畫天氣卡片?？ㄆ瑧?yīng)通過不同的動畫直觀地表示以下天氣條件：風(fēng)：（例如，移動的云朵、搖曳的樹木或風(fēng)線）雨：（例如，落下的雨滴、形成的水坑）晴：（例如，閃耀的光線、明亮的背景）雪：（例如，落下的雪花、積雪）并排顯示所有天氣卡片。卡片應(yīng)具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應(yīng)包含一種在不同天氣條件之間切換的方法（例如，一個函數(shù)或一組按鈕），以演示每種天氣的動畫。

注：DeepSeek 新版 V3 模型的生成結(jié)果，右側(cè)為 R1 的生成結(jié)果

這是新版V3.1生成的效果，是不是已經(jīng)很美觀了，而且還有降雨和太陽等動圖效果，這就不只是拿得出手，還有些超出期待了。

我們看GPT-5的演示效果，其實也還行，但是雪花和大風(fēng)的演示圖形有點Bug，以及沒有很多天氣信息展示。

流程圖與復(fù)雜案例測試

接著我們測試一個考驗DPSK邏輯和構(gòu)圖的案例，要求V3.1創(chuàng)建一個流程圖，展示用戶、Agent、LLM和MCP Server之間的交互。

V3.1使用Mermaid流程圖來表示這一過程，大體過程展示出來了，但是仿佛又缺乏些細(xì)節(jié)。

不過好事就是有些流程圖、邏輯圖以后可以教給DeepSeek做了，沒有思維腦圖產(chǎn)品做的細(xì)節(jié)，但勝在基礎(chǔ)作品直出和有美觀度渲染。

繼續(xù)來做一個更復(fù)雜的Case，這是馬斯克點贊的Grok 4案例：“3D線框網(wǎng)絡(luò)與能量脈沖動畫”。

DeepSeek V3.1使用了CSS 3D變換來模擬3D效果，純JavaScript處理交互邏輯，不需要任何外部庫。

但不得不說，V3.1在做這種更復(fù)雜的案例時，略微有些力不從心。沒有做出立體狀，效果也不太酷炫。

感覺還是上下文太短，現(xiàn)在很多大模型都已經(jīng)經(jīng)200K，V3.1現(xiàn)在處理復(fù)雜任務(wù)還有距離。

GPT-5生成分效果還可以，用能量球形式展現(xiàn)，脈沖效果也有一定體現(xiàn)。

02 邏輯推理能力進(jìn)步

雖然是非推理模型，但V3.1的邏輯推理也有一定的進(jìn)步，這道題的回答中可以看到進(jìn)步：

單選題某辦公室甲、乙、丙、丁四人對本辦公室當(dāng)選先進(jìn)工作者的職工進(jìn)行如下預(yù)測：甲：乙和丙要么都當(dāng)選，要么都落選。乙：最多只有2人當(dāng)選。丙：我不可能當(dāng)選。?。耗銈冎锌隙ㄓ腥说念A(yù)測是錯的。結(jié)果發(fā)現(xiàn)四個人中只有一個人說對了，問以下哪項判斷是正確的？（）A 甲當(dāng)選了B 乙當(dāng)選了C 丙未當(dāng)選D 丁未當(dāng)選