編者按:本文來自微信公眾號(hào) 極客公園(ID:geekpark),作者:張勇毅,編輯:鄭玄,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
在昨天拿到 Manus AI 的測試碼、連續(xù)進(jìn)行了數(shù)個(gè)小時(shí)的測試之后,有不少在手機(jī)/PC 廠商的工程師/產(chǎn)品經(jīng)理朋友,來找我「打聽」Manus AI 的真正能力如何。
為什么硬件行業(yè)這么關(guān)注 Manus?這與當(dāng)下硬件行業(yè)最受關(guān)注的概念——LAM 有關(guān)。LAM 是一個(gè)從 LLM 延伸而來的名詞,全名為大型行動(dòng)模型 (Large Action Models),也稱為大型智能體模型。
與 LLM 致力于「超越人類」,因此在訓(xùn)練方法上也經(jīng)常突破人類經(jīng)驗(yàn)完全不同,現(xiàn)階段 LAM 想要做到的,是成為人類的手,去作為人類用戶在數(shù)字世界中的代理人。
這與 Manus 的核心理念有相通之處。目前而言,Manus AI 的體驗(yàn),圍繞在一個(gè)運(yùn)行在云端的 Ubuntu 操作系統(tǒng)虛擬機(jī)上,同時(shí)在操作系統(tǒng)中打開 Chrome 瀏覽器界面,在網(wǎng)頁中或是調(diào)用其他軟件,來完成各種用戶的請(qǐng)求。
為了完成這個(gè)要求,Manus 需求同時(shí)具備「自然語義理解和計(jì)算機(jī)視覺」,以及「用戶行為習(xí)慣學(xué)習(xí)與場景感知」,同時(shí)擁有「意圖識(shí)別自主決策」的能力,當(dāng)然最重要的,同時(shí)也是讓 Manus AI 與此前的 Computer Use 在體驗(yàn)上拉開明顯差距的,還是「跨應(yīng)用調(diào)用工具」的能力。
舉例來講,對(duì)于常見的「能不能用 Manus AI 生成一段視頻」這個(gè)問題,嚴(yán)格來講回答是「可以」,但 Manus AI 去生成一段視頻的方式,也是通過在網(wǎng)絡(luò)上搜索第三方 AI 視頻生成工具,并在這個(gè)過程中使用到各種工具,來完成用戶的請(qǐng)求。
01LAM 真正的未來
進(jìn)入 2025 年,Agent AI,或者說 LAM 在端側(cè)的落地,已經(jīng)是再明顯不過的趨勢。但怎么落地,以及最終呈現(xiàn)給用戶的會(huì)是怎樣的商業(yè)產(chǎn)品,仍然有很多問題。
早在 2024 年初,彼時(shí)發(fā)布的 Rabbit R1 硬件,以及對(duì)應(yīng)的 LAM 工具——Rabbit LAM Playground 其實(shí)已經(jīng)展現(xiàn)出了今天我們?cè)?Manus AI 中看到的能力雛形。
在官方的演示中,Rabbit R1 所搭載的 LAM Playground,能主動(dòng)幫助用戶完成類似音樂播放、打車等服務(wù),實(shí)際上背后的技術(shù)原理,就是通過使用 LAM 來訪問對(duì)應(yīng)服務(wù)的網(wǎng)站,通過模擬人類與網(wǎng)站的交互方式,完成用戶指令中的工作內(nèi)容。
Rabbit 發(fā)布的 LAM Playground,其實(shí)已經(jīng)具備今天 Manus AI 的初步能力 | 圖片來源:Rabbit
但彼時(shí)的 Rabbit Playground 受限于模型以及開發(fā)能力的限制,還并不能做到像人類一樣,在互聯(lián)網(wǎng)中暢通無阻。
在實(shí)際用戶的測試中,面對(duì)類似人機(jī)驗(yàn)證這樣的場景 Rabbit Playground 仍然難以通過,也無法使用第三方工具,來完成生成復(fù)雜表格、導(dǎo)出 PPT 這樣的用戶需求。
由于在實(shí)際使用中面臨著諸多挑戰(zhàn),Rabbit R1 作為一款明星 AI 硬件,很快就退出主流用戶的視野,AI 時(shí)代的熱點(diǎn)變化的是如此之快,以至于到了 2025 年年初,在互聯(lián)網(wǎng)上已經(jīng)很難找到關(guān)于這款產(chǎn)品討論的聲音。
但 LAM 這個(gè)概念,作為一個(gè)可能改變?nèi)祟愑脩襞c智能硬件設(shè)備交互的火種,留存了下來,仍然作為行業(yè)中一個(gè)重要的研究方向而存在。
Manus AI 的出現(xiàn),尤其是它在自然語義理解,以及在互聯(lián)網(wǎng)訪問網(wǎng)站時(shí),面對(duì)各種各樣的人機(jī)識(shí)別,都能「暢行無阻」的能力,讓不少仍然在致力于 LAM 產(chǎn)品開發(fā)、并希望在今年推出相關(guān)測試產(chǎn)品的人,再次看到了一個(gè)契機(jī),并希望通過 Manus AI 目前的能力以及展現(xiàn)出的短板,來進(jìn)一步完善自己的產(chǎn)品。
Manus AI 已經(jīng)能在遇到各種人機(jī)驗(yàn)證時(shí)成功通過,大幅提升了對(duì)互聯(lián)網(wǎng)的訪問能力 | 圖片來源:極客公園
目前,在致力于開發(fā) LAM 產(chǎn)品、來提升用戶對(duì)手機(jī)/電腦等產(chǎn)品使用體驗(yàn)的硬件廠商中,系統(tǒng)級(jí)廠商在做 LAM 中,有著最明顯的優(yōu)勢。
「Manus AI 這種命令執(zhí)行方式,對(duì)于算力要求非常高,但如果是瀏覽器或智能手機(jī)操作系統(tǒng)來做這件事,能通過獲得更多高質(zhì)量數(shù)據(jù)的方式,大幅降低算力成本與提升運(yùn)行速度」。
「做通用 LAM 并不用針對(duì)某些單一網(wǎng)站去適配,雖然在某些場景下可能」
「Manus AI中的一些簡單的場景,并不需要完全搬到(云端)上面去處理,反而是留在端側(cè)效果會(huì)更好」據(jù)這位面向桌面端開發(fā) LAM 應(yīng)用的開發(fā)者介紹,當(dāng)前的端側(cè)模型經(jīng)過針對(duì)性訓(xùn)練之后,目前也能實(shí)現(xiàn)簡單的通用網(wǎng)頁訪問并內(nèi)容識(shí)別能力,已經(jīng)能初步完成例如「訪問旅游相關(guān)網(wǎng)站并制定旅游計(jì)劃」這樣的需求。
此外由于端側(cè)有著更便捷的文件管理系統(tǒng),同時(shí)也有更強(qiáng)大的本地文件管理工具,遇到類似「整理并分析簡歷」這樣的需求,端側(cè) LAM 同樣能做到更好的效果。
在我的實(shí)際測試中,我想要讓 Manus AI 幫我生成一個(gè) PPT 文件,它就能自動(dòng)在電腦上安裝對(duì)應(yīng)的依賴環(huán)境,然后利用工具來自動(dòng)完成 PPT 生成,雖然最終仍然完成了用戶指令中的需求,但仍然因此大幅拉低了對(duì)請(qǐng)求的響應(yīng)時(shí)間。
02如何理解 Manus 的意義
當(dāng)前,Manus AI 展示出的邏輯中,已經(jīng)向外界展示了 LAM 在「生產(chǎn)力」領(lǐng)域能帶來怎樣的改變,但仍然有很多問題亟待解答。
其中最重要的,也是被問到最多的,或許就是商業(yè)化這件事:不少用戶對(duì)于 Manus AI 這樣的服務(wù),最終會(huì)定價(jià)多少有著諸多的猜測。
除了類似 Manus AI 這樣,完全交給云端運(yùn)行,用戶端只需要「輸入命令 - 返回成果」的模式,前面提到的不少硬件廠商,實(shí)際上是將端側(cè)/云端混合運(yùn)行的模式作為主流方案。
這其實(shí)也暗示了,未來 LAM 的發(fā)展,或許將分為兩個(gè)不同的主流方向;不僅有基于現(xiàn)有硬件算力,在端側(cè)實(shí)現(xiàn)性能稍差的 LAM,也有完全基于云端的「數(shù)字代理」服務(wù)。
但這樣的服務(wù),距離最終投向市場可能還有不小的距離?!窶anus AI 如果訂閱的話,這樣的服務(wù) 20 美元(訂閱費(fèi))顯然是完全不夠的?!挂晃荒壳熬吐氂谑謾C(jī)廠商,研發(fā) LAM 端側(cè)應(yīng)用的工程師對(duì)此評(píng)價(jià)道。
僅僅是全程虛擬機(jī)運(yùn)行以及以及實(shí)時(shí)顯示內(nèi)容串流的高昂成本,就足以成為此類服務(wù)現(xiàn)階段面向普通消費(fèi)級(jí)市場的最大阻力。
對(duì)于以 ChatGPT 為代表的 LLM 產(chǎn)品來講,過去幾年已經(jīng)迅速建立起一套行之有效的訂閱系統(tǒng),用戶也在「每個(gè)月 20 美元」的周期往復(fù)中,建立起了一個(gè)準(zhǔn)確的心理預(yù)期。
如果 LAM 未來想要以這種「前端硬件 + 后端云服務(wù)」的方式繼續(xù)存在,同樣也要經(jīng)歷這樣一個(gè)過程,同時(shí)在這個(gè)過程中將訂閱成本快速拉低,最終將這一商業(yè)模式跑通。
隨著完全在云端部署的 LAM 進(jìn)一步完善,我們大概率會(huì)再次看到像 Rabbit R1 這樣、有著更靈活形態(tài)的 AI 硬件設(shè)備出現(xiàn):它可以是智能手表、也可以是 AI 眼鏡,甚至都可能是完全不需要屏幕的智能耳機(jī)等設(shè)備。
到這個(gè)階段,LAM 實(shí)際上已經(jīng)進(jìn)化成了 Agent UI:用戶并不再需要傳統(tǒng)手機(jī)桌面、瀏覽器那樣的用戶交互界面,只需要一個(gè)供用戶輸入指令的方式,以及接受 LAM 最終交付成果的終端。
當(dāng)初 Rabbit R1 的展示場景中,就已經(jīng)出現(xiàn)了一些 Manus AI 的案例 | 圖片來源:Rabbit
它或許不如 LLM 那樣科幻,但它卻是在現(xiàn)有硬件的基礎(chǔ)上,短期內(nèi)我們能看到最明顯、最有能力給用戶與硬件的交互,帶來改變的方向。
隨著 Manus AI 進(jìn)一步將 LAM 以及 Agent AI 能做到什么,展現(xiàn)給更多普通用戶,這或許就是 Manus AI 在這場浪潮最終退去之后,給我們留下的最重要的收獲。
「即便最終贏家不是它,它也足夠意義重大?!挂晃?LAM 產(chǎn)品經(jīng)理這樣評(píng)價(jià) Manus AI 的行業(yè)價(jià)值。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。