Deep Research Agent V2亮相背后：超級Agent進(jìn)入“iPhone倒計(jì)時(shí)”

產(chǎn)業(yè)家·2025-08-21

從多模態(tài)檢索能力到深度多模態(tài)瀏覽器智能體再到檢索底層能力的強(qiáng)化，從并行架構(gòu)到MCP多智能體協(xié)作機(jī)制，在昆侖萬維一系列模型動(dòng)作和更新的天工超級智能體背后能看到的也恰是一個(gè)在被悄然推進(jìn)的AI演進(jìn)路徑：智能體正在從AI辦公生產(chǎn)力工具到真正的超級AI助手，獨(dú)立檢索，獨(dú)立理解，獨(dú)立表達(dá)。

2025年，超級Agent的iPhone時(shí)刻，正在加速來臨。

作者|皮爺

出品|產(chǎn)業(yè)家

對于張小龍，《騰訊傳》里有句話是這樣描述的，即在騰訊內(nèi)部，張小龍的名氣主要來源于兩方面，一是公司某次運(yùn)動(dòng)會(huì)網(wǎng)球賽的冠軍，二是全廣州最大的KENT香煙消費(fèi)者之一。

而這個(gè)描述伴隨著2011年微信1.0版本的發(fā)布似乎開始不太準(zhǔn)確——微信成了張小龍的唯一代名詞。根據(jù)騰訊剛剛發(fā)布的第二季度財(cái)報(bào)數(shù)據(jù)顯示，迄今為止微信月活超14億，約等于中國總?cè)丝凇?/p>

微信做對了什么？在過去的多年時(shí)間里，關(guān)于這個(gè)問題一直是產(chǎn)品經(jīng)理們關(guān)注的焦點(diǎn)，從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到AI，微信的設(shè)計(jì)和發(fā)展路徑都可謂是一眾產(chǎn)品的絕對對標(biāo)。

一個(gè)相對共識的觀點(diǎn)是，微信是整個(gè)中國移動(dòng)互聯(lián)網(wǎng)時(shí)代的能力集大成者，從語音技術(shù)到社交通信的技術(shù)底層，從UI設(shè)計(jì)到需求滿足的產(chǎn)品表層和內(nèi)部信息流轉(zhuǎn)流程，每個(gè)完備的單點(diǎn)組件串聯(lián)到一起，構(gòu)成著這款超級APP應(yīng)用的從量變到質(zhì)變的全民接納和爆發(fā)。

歷史總是驚人的相似。如今，這樣的量變信號也正悄然出現(xiàn)Agent應(yīng)用熱潮里。

就在剛剛，昆侖萬維發(fā)布了Deep Research Agent，首次把多模態(tài)檢索理解和跨模態(tài)生成能力完整整合到深度研究工作里，以“Agent賦能Agent”，近一步強(qiáng)化天工超級智能體的能力。

被放到臺前的不僅這些。在過去的一周里，昆侖萬維已經(jīng)成為國內(nèi)AI市場的絕對焦點(diǎn)——從8月11日至8月15日，其每天都在發(fā)布一款新模型，從視頻生成模型、世界模型，到統(tǒng)一多模態(tài)模型、智能體模型，再到AI音樂創(chuàng)作模型。

這些模型在強(qiáng)化AI在各自領(lǐng)域場景表達(dá)的同時(shí)，也更在推動(dòng)著Agent infra一個(gè)個(gè)組件的日趨成熟。

2025年的如今，未來終極形態(tài)的Agent產(chǎn)品到底是怎樣？沒人可以給出定義，但在一個(gè)個(gè)產(chǎn)品動(dòng)作和模型信號背后，能清晰看到的是基座能力的量變正在愈發(fā)迅速。

如果說之前的Agent平臺更多的標(biāo)簽是AI基礎(chǔ)搜索的單點(diǎn)，那么如今在這個(gè)單點(diǎn)之上，對新需求拆解和滿足能力背后的底層技術(shù)體系也恰在成為更新的產(chǎn)品衡量標(biāo)準(zhǔn)，如多模態(tài)檢索生成，再如深度信息檢索等等。

看見新需求，解決真問題。Agent，正式進(jìn)入比拼下半場。

一、“真”多模態(tài)、“強(qiáng)”深度搜索，

再進(jìn)一步

在厘清Agent產(chǎn)品的更新標(biāo)準(zhǔn)之前，先來看一看昆侖萬維的最新Agent交卷： Deep Research Agent v2，從更大的視角來看，這個(gè)“To Agent的Agent”更等同于為天工超級智能體疊加了一層更強(qiáng)的技術(shù)基底。

首先看最基礎(chǔ)的檢索能力，如今在Manus之后，一個(gè)更新的需求恰是多模態(tài)檢索，換言之則是人們期待通過Agent助手不單純獲得文字層面的答案，而更多是來自圖像、文字的復(fù)合信息回答。

關(guān)于多模態(tài)，如今市面上大部分Agent產(chǎn)品能達(dá)到的能力更多是在生成側(cè)，而在檢索側(cè)也更多僅僅是基于最終的文字進(jìn)行圖表轉(zhuǎn)換呈現(xiàn)，在最前端的深度檢索方向很少有Agent產(chǎn)品很做到，這也恰是Skywork Deep Research Agent v2的最新亮點(diǎn)。

檢索“AI大模型對教育行業(yè)影響”的相關(guān)問題時(shí)，Skywork Deep Research Agent v2會(huì)自動(dòng)檢索對應(yīng)的圖片信息，并在理解圖片后將圖片內(nèi)容和文字內(nèi)容進(jìn)行綜合輸出

即在問題的檢索過程中，基于Skywork Deep Research Agent v2的加持，天工超級智能體將不再局限于文字，而突破性地把圖像信息也作為核心的信息檢索要素之一，通過對圖像、文字的綜合理解，最終輸出答案。

檢索房價(jià)相關(guān)問題時(shí)，會(huì)自動(dòng)把對應(yīng)網(wǎng)站的“城市房屋價(jià)格曲線”作為信息檢索源，將其與文字內(nèi)容結(jié)合進(jìn)行思考輸出；

檢索“K12在線教育產(chǎn)品”的相關(guān)問題時(shí)，會(huì)自動(dòng)檢索市面上對應(yīng)k12產(chǎn)品的用戶畫像圖片，理解圖片內(nèi)容的同時(shí)，更結(jié)合文字進(jìn)行圖文并貌的輸出；

如果說多模態(tài)檢索提升的是天工超級智能體在對象要素層面的檢索能力，那么深度信息檢索則提升的是其在檢索體系上的提升，拆解來看其中有兩大亮點(diǎn)：一是革命性推出深度多模態(tài)瀏覽器智能體，二是通過制定標(biāo)準(zhǔn)的方式，近一步強(qiáng)化深度信息檢索底層能力。

先來看深度多模態(tài)瀏覽器智能體，從整個(gè)AI市場來看，AI瀏覽器是炙手可熱的AI落地領(lǐng)域，其以用戶在移動(dòng)互聯(lián)網(wǎng)時(shí)代存留的搜索入口習(xí)慣為切入點(diǎn)，基于瀏覽器入口的形態(tài)進(jìn)行對應(yīng)AI技術(shù)的驗(yàn)證和落地，不僅在國內(nèi)，在國外也更有包括Perplexity、 OpenAI等紛紛下場，但就當(dāng)下而言，AI瀏覽器可謂是問題頻出。

比如強(qiáng)耗電和反應(yīng)慢，不少人對AI瀏覽器的反應(yīng)是慢，如果細(xì)看對應(yīng)的檢索思考過程，則是不難看到不少瀏覽器Agent容易陷入反復(fù)驗(yàn)證、反復(fù)“撞墻”的過程，由此對應(yīng)的是“三個(gè)任務(wù)運(yùn)算一天”的戲談。

問題還不僅這些。幾個(gè)其它問題還有，如AI瀏覽器很難繞過用戶的文檔、網(wǎng)頁權(quán)限，一旦觸碰到對應(yīng)的限制則會(huì)自動(dòng)停止思考推理；再如耗電，如最近熱議的某些AI瀏覽器運(yùn)行時(shí)會(huì)給用戶終端帶來極大的硬件損耗等等，以及最核心的能力層面，即對大部分AI瀏覽器而言，其更多仍然沒有逃脫瀏覽器的固有限制，僅是圍繞之前的瀏覽器頁面進(jìn)行檢索，增量極為有限。

這也是Skywork Deep Research Agent v2特殊設(shè)計(jì)的意義所在。即基于其中的深度多模態(tài)瀏覽器智能體，用戶不僅可以獲得互聯(lián)網(wǎng)上的相關(guān)信息，更可以獲得跨平臺的全體系內(nèi)容呈現(xiàn)，如推特、instagram、知乎、小紅書等，從內(nèi)容本身到圖像，從彈幕到底層評論區(qū)等等，一些客觀和主觀的要素都會(huì)被識別分析，共同成為天工超級智能體回答的檢索思考依據(jù)。

檢索“香港旅游攻略”，會(huì)自動(dòng)基于小紅書進(jìn)行信息檢索，結(jié)合小紅書內(nèi)容貼和評論區(qū)反饋等信息，綜合給出方案；

在對比 Grok4 與 GPT5 時(shí)，會(huì)自動(dòng)前往 Twitter、小紅書等平臺檢索相關(guān)信息，并整理匯總用戶的真實(shí)評價(jià)與反饋；

查詢相關(guān)球星信息時(shí)，智能體會(huì)自動(dòng)跨平臺抓取并整理球星最近推文的熱度指標(biāo)與代表性評論，快速呈現(xiàn)輿論全貌；

此外，基于深度多模態(tài)瀏覽器智能體的并行搜索、多動(dòng)作規(guī)劃機(jī)制，可以大大提升檢索生成效率，從而讓任務(wù)可以迅速執(zhí)行、迅速反饋；在涉及到需要用戶接入的環(huán)節(jié)（如驗(yàn)證碼等），智能體會(huì)自動(dòng)提醒用戶進(jìn)行接管操作。

在深度多模態(tài)瀏覽器智能體之外，Skywork Deep Research Agent v2還進(jìn)一步夯實(shí)了天工超級智能體的檢索基礎(chǔ)能力，通過一系列“標(biāo)準(zhǔn)”路徑的設(shè)定，讓其在進(jìn)行問題回答、檢索以及生成答案時(shí)，必須遵循對應(yīng)的思維鏈邏輯和生成更為優(yōu)質(zhì)的答案。

比如制定了嚴(yán)格的搜索問題構(gòu)造標(biāo)準(zhǔn)，明確定義了高質(zhì)量搜索問題及其答案應(yīng)具備的五大核心屬性：多樣性（覆蓋廣泛的主題和難度層次）、正確性（答案準(zhǔn)確無誤）、唯一性（答案具有確定性）、可驗(yàn)證性（答案可通過可靠來源驗(yàn)證）以及挑戰(zhàn)性（需要深度推理能力），這套標(biāo)準(zhǔn)也更同樣被用在智能體生成的答案驗(yàn)證中。

再比如端到端強(qiáng)化學(xué)習(xí)、并行推理等等方面，Skywork Deep Research Agent v2也都通過一系列特殊設(shè)計(jì)保障智能體能夠在輸出最終結(jié)果之前進(jìn)行多輪驗(yàn)證和優(yōu)化思考，最終快速高效準(zhǔn)確地輸出答案。

客觀來看，Skywork Deep Research Agent v2為天工超級智能體加持的三個(gè)突破點(diǎn)也恰對應(yīng)著當(dāng)下人們對于Agent產(chǎn)品的更新要求：即對問題的更多維度回答和理解、更快的問題解決速度、更跨平臺全方位的內(nèi)容呈現(xiàn)以及更符合人類思維鏈的真實(shí)邏輯文字。

也可以說，這些也恰是Skywork Deep Research Agent v2多模態(tài)檢索能力、深度多模態(tài)瀏覽器智能體、深度信息搜索能力的產(chǎn)品核心設(shè)計(jì)出發(fā)點(diǎn)，即把Agent infra中檢索推理思考回答的每個(gè)節(jié)點(diǎn)分別進(jìn)行完善放大，進(jìn)而為用戶提供更為契合的AI生產(chǎn)力加持。

二、“Agent賦能Agent”：

Agent集團(tuán)軍時(shí)代到來

在Skywork Deep Research Agent v2破圈之中，一個(gè)更大視角的思考是，如今的Agent到底走到哪了？

過去的兩年時(shí)間里，Agent已然成為人們對于AI大模型落地的共識，即基于Agent的形態(tài)，不論是在TO C的場景，還是在產(chǎn)業(yè)TO B的具體環(huán)節(jié)，AI技術(shù)都可以得到更大程度的價(jià)值釋放和表達(dá)。

這其中也更有一系列如Manus、Betteryeah、Dify等TO C或TO B的智能體產(chǎn)品出現(xiàn)。但共識之外，真實(shí)的答案卻并不算完美。

即除了前文所說的AI瀏覽器的問題之外，在即使如Manus等智能體產(chǎn)品上，一系列的幻覺、數(shù)據(jù)安全、反映遲緩以及“低價(jià)值”答案等等都在不斷讓人懷疑Agent的價(jià)值所在——Agent產(chǎn)品到底應(yīng)該如何進(jìn)化，才能成為真正的生產(chǎn)力工具？

從某種程度來說，Skywork Deep Research Agent v2在提供一個(gè)答案。即不論是Skywork Deep Research Agent v2所呈現(xiàn)出的多模態(tài)檢索，還是深度多模態(tài)瀏覽器智能體以及底層檢索基礎(chǔ)能力的強(qiáng)化，這些在特定節(jié)點(diǎn)可以取得更優(yōu)秀得分的“AI組件”如今都已經(jīng)被嵌入到天工超級智能體APP中，進(jìn)一步迭代天工超級智能體的infra底層邏輯，讓其可以一步步進(jìn)化。

具體來看，這些更優(yōu)秀的得分源自對對應(yīng)節(jié)點(diǎn)技術(shù)的優(yōu)化。

比如在升級的多模態(tài)檢索能力中，其采取的多模態(tài)爬取和長距離多模態(tài)信息收集，前者內(nèi)置了“視覺噪聲剪枝（Visual Noise Pruning）”，通俗來說就是識別篩選所有抓取元素中的有價(jià)值部分，將有價(jià)值的信息推進(jìn)后續(xù)處理，提高任務(wù)的推進(jìn)速度，節(jié)省計(jì)算資源。

后者則是Skywork Deep Research Agent v2仿照資深研究員的閱讀節(jié)奏，通過“先篩選、后精讀”的流程，模型在每一步推理時(shí)，不僅審視當(dāng)前動(dòng)作的結(jié)果，還會(huì)綜合前面幾十步數(shù)萬字的上下文，這種模式可以顯著降低計(jì)算開銷，同時(shí)確保關(guān)鍵視覺證據(jù)得到充分利用。

再比如在深度多模態(tài)瀏覽器智能體，其之所以能夠做到跨平臺和全要素識別，也恰是基于昆侖萬維AI團(tuán)隊(duì)對瀏覽器文檔對象模型（DOM）進(jìn)行的深度優(yōu)化，其結(jié)合瀏覽器原生特性，能夠更精準(zhǔn)、高效地提取網(wǎng)頁中的核心信息。

此外，團(tuán)隊(duì)還針對國內(nèi)外主流社交平臺進(jìn)行了大量的Action（動(dòng)作）優(yōu)化，確保在不同社交網(wǎng)絡(luò)平臺的兼容性與穩(wěn)定性，提升自動(dòng)化瀏覽的成功率和效率，規(guī)避傳統(tǒng)AI瀏覽器“撞墻”的問題。

同時(shí)也更有檢索基礎(chǔ)能力的突破，其也更是基于固有的AI檢索回答推進(jìn)流程，在每個(gè)節(jié)點(diǎn)都進(jìn)行了更為科學(xué)合理的強(qiáng)化，同時(shí)把市面上最流行的多智能體協(xié)作機(jī)制真正經(jīng)由Skywork Deep Research Agent v2嵌入到天工超級智能體產(chǎn)品中，進(jìn)一步強(qiáng)化后者的Agent infra底層建設(shè)，在原來的基礎(chǔ)上進(jìn)一步提高其智能化上限。

這些從模型和產(chǎn)品技術(shù)出發(fā)的真實(shí)突破也恰構(gòu)成著Skywork Deep Research Agent v2展現(xiàn)出來的對應(yīng)節(jié)點(diǎn)的Agent能力，而這些能力也更將無縫集成進(jìn)天工超級智能體的固有流程環(huán)節(jié)中，為用戶提供前端雖無感知但更智能化的回答。

這個(gè)結(jié)果背后也更折射出一個(gè)新的事實(shí)，即Agent不再是單純基于某項(xiàng)技術(shù)或節(jié)點(diǎn)的產(chǎn)品，其更在成為一個(gè)集團(tuán)軍組團(tuán)作戰(zhàn)的超級APP。

即當(dāng)用戶在進(jìn)行某個(gè)對應(yīng)的檢索和命令生成時(shí)，一個(gè)在天工超級智能體內(nèi)部運(yùn)轉(zhuǎn)的流程恰是把從問題提出到解析，到多模態(tài)檢索，到答案生成、驗(yàn)證中間的每個(gè)步驟都讓專門的智能體產(chǎn)品來完成，通過對每個(gè)環(huán)節(jié)的專項(xiàng)強(qiáng)化設(shè)計(jì)讓每個(gè)節(jié)點(diǎn)都高效、智能、可控，進(jìn)而傳導(dǎo)輸出一個(gè)最大程度契合用戶新需求的答案。

或者也可以說，在昆侖萬維的這張答卷背后，能清晰感受到，為了實(shí)現(xiàn)最前端的真正智能回答和價(jià)值回應(yīng)，Agent 產(chǎn)品正在逐漸被原子化、分子化甚至模塊化，這些原子化的組件通過集團(tuán)軍作戰(zhàn)的方式，最終成為決定Agent助手能否成為真正生產(chǎn)力工具的關(guān)鍵。

三、2025年，

等待超級Agent的iPhone時(shí)刻

在知乎上，有人曾經(jīng)問過這樣一個(gè)問題，即移動(dòng)互聯(lián)網(wǎng)開始的真正起點(diǎn)標(biāo)志性事件是什么？其中的高贊回答是iPhone的發(fā)布。即盡管是后續(xù)伴隨著App store等體系的成熟，iPhone手機(jī)是在4.0乃至5.0版本后才真正風(fēng)靡世界，但當(dāng)喬布斯拿出無鍵盤手機(jī)的那一刻，也更標(biāo)志著移動(dòng)互聯(lián)網(wǎng)時(shí)代的來臨。

實(shí)際上，在Skywork Deep Research Agent v2，也或者可以說在Skywork Deep Research Agent v2加持后的天工超級智能體背后，也恰能感受到這種時(shí)代起點(diǎn)的變遷氣息。

即如果說在2024年，人們對于Agent的想象力還僅停留在微信、支付寶等超級app的身上，即其可以完成近乎一切指令可以達(dá)到的任務(wù)，那么如今這些想象則是正在逐步區(qū)別化、具像化、實(shí)際化。

在如今的天工超級智能體APP上，一系列從工作到生活，再到信息獵奇等更為多維的任務(wù)都可以被加速推進(jìn)，Skywork將其模型能力與工具能力有機(jī)融合，構(gòu)建協(xié)同多智能體框架。該系統(tǒng)不僅能夠?qū)⒍鄠€(gè)Agent組織成高效協(xié)作團(tuán)隊(duì)，還可在線實(shí)時(shí)利用Agent的代碼能力動(dòng)態(tài)創(chuàng)建和管理MCP工具，從而顯著提升任務(wù)處理能力與環(huán)境適應(yīng)性。

任務(wù)在天工超級智能體中整體運(yùn)轉(zhuǎn)的流程體系：MCP Manager Agent

這也恰是不同以往任何產(chǎn)品運(yùn)行邏輯的AI時(shí)代超級app的雛形，客觀來看，盡管當(dāng)下以天工超級智能體APP為代表的產(chǎn)品仍然不能完成全部任務(wù)，不能代表終極形態(tài)，但一個(gè)清晰的信號是，在越來越聰明的它背后，這個(gè)超級app的底層基座正在愈發(fā)厚重，運(yùn)行機(jī)制也更愈發(fā)清晰合理。

幾個(gè)最新的成績是，在權(quán)威的搜索評測榜單BrowseComp上，Skywork Deep Research性能已超越大多數(shù)同類產(chǎn)品，正確率達(dá)到27.8%，而一旦開啟自主研發(fā)的“并行思考”（Parallel Thinking）模式，正確率更是躍升至38.7%，刷新了行業(yè)SOTA紀(jì)錄。

更值得一提的是，在并行思考模式下，Skywork Deep Research的正確率會(huì)隨著思考時(shí)間的增加而持續(xù)攀升。

此外，在GAIA測試集中，Skywork Deep Research Agent V2也更斬獲SOTA成績，后者是一個(gè)面向通用智能體（Agent）的綜合評測基準(zhǔn)，專為在真實(shí)環(huán)境中衡量AI智能體的多模態(tài)推理、網(wǎng)頁瀏覽、工具使用、長期規(guī)劃、環(huán)境交互與任務(wù)執(zhí)行等關(guān)鍵能力而設(shè)計(jì)。同時(shí)，其也更被視為衡量AI是否具備通用智能（AGI）的重要里程碑。

從多模態(tài)檢索能力到深度多模態(tài)瀏覽器智能體再到檢索底層能力的強(qiáng)化，從并行架構(gòu)到MCP多智能體協(xié)作機(jī)制，在昆侖萬維一系列模型動(dòng)作和更新的天工超級智能體背后能看到的也恰是一個(gè)在被悄然推進(jìn)的AI演進(jìn)路徑：智能體正在從AI辦公生產(chǎn)力工具到真正的超級AI助手，獨(dú)立檢索，獨(dú)立理解，獨(dú)立表達(dá)。

2025年，超級Agent的iPhone時(shí)刻，正在加速來臨。期待昆侖萬維在本周帶來更多的AGI驚喜。