編者按:本文來自微信公眾號 GenAI新世界(ID:gh_e06235300f0d),作者:遠川研究所,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
雖然我們每天都已經(jīng)習(xí)慣了用手機來完成簽到、回復(fù)、發(fā)信息等各種工作,但很多人還是時不時的會感慨,科技都已經(jīng)這么發(fā)達了,這些事手機就不能自己動手把工作干了嗎?
還真別說,這些事可能用不了多久就不需要我們親自動手了。
騰訊這兩天聯(lián)手德州大學(xué)達拉斯分校的研究團隊在 Arxiv上發(fā)布了一篇名為《AppAgent: Multimodal Agents as Smartphone Users》的論文,介紹了一個名為AppAgent的多模態(tài)模型應(yīng)用項目。論文表示,AppAgent可以學(xué)習(xí)用戶的手機操作習(xí)慣,在手機上自己執(zhí)行各種操作。
它可以模仿用戶的口吻在社交媒體APP上發(fā)帖,還可以按照人的口氣撰寫和發(fā)送郵件,還可以修圖、導(dǎo)航、給視頻進行評論,甚至是通過APP買東西。
AppAgent的操作分為兩個階段,分別稱為探索階段和部署階段。在探索階段,AppAgent觀察不同應(yīng)用程序用戶界面的交互情況,這就好像一個牙牙學(xué)語的孩子,只要通過充分觀察,AppAgent就能熟練使用某個應(yīng)用程序。而這些知識會被精心整理成文檔,放進AppAgent的知識庫中。
學(xué)習(xí)階段完成后,AppAgent就可以開始自己行動了。這個階段它可以處理任何支持的應(yīng)用程序操作任務(wù)。這種有條不紊的方法使AppAgent能夠高效地完成不同應(yīng)用程序中的各種復(fù)雜任務(wù)。
目前該研究團隊已經(jīng)對 Temu、Gmail、X、Youtube 等十款A(yù)PP進行多次測試,至少確保了50多種不同的任務(wù)。而在開放測試之后,AppAgent還將會學(xué)習(xí)到更多APP的操作方法,方便不同人群使用。
論文中還放出了一個案例,直接讓AppAgent 在 Gmail 中給人發(fā)一封郵件。在向AppAgent 發(fā)出要求之后,AppAgent 直接輕車熟路的打開 Gmail,找到相應(yīng)的聯(lián)系人,洋洋灑灑的寫了一封郵件給人發(fā)過去。全程根本不需要人類自己動手。
這聽上去是不是很酷,有了AppAgent,一些重復(fù)繁瑣的功能就可以自己完成。最典型的場景,就是拼多多的“砍一刀”。以后再面對家人朋友幫忙砍一刀的要求時,大家完全可以把這些無聊又繁瑣的復(fù)制、點擊操作交給 AppAgent來完成。
而對于很多上班族來說,AppAgent完全可以自己完成手機上下班打卡的工作需求,再也不用擔心因為忘記打卡而錯失全勤獎的問題。AppAgent還解決了安卓用戶無法借助Siri這樣的語音助手自己回復(fù)消息的問題,只要日后開放語音接口,就可以輕松實現(xiàn)解放雙手,動動嘴就可以讓手機自己回復(fù)消息的夢想。
AppAgent一經(jīng)公布,讓不少人對這款解放雙手的AI產(chǎn)品產(chǎn)生了興趣。
App Agent看上去很棒
不過也有些用戶在感慨AppAgent很酷的同時,也在擔心它的使用場景。
這也可能是個雙刃劍,它在提高工作效率的同時,也可以用于操縱社交媒體。
還有人在擔憂自己的數(shù)據(jù)安全。
有些擔憂也挺有道理的,畢竟誰也不能保證在AppAgent的幫助下手機會不會自己給自己安排一堆任務(wù)。
到時候一覺醒來人們發(fā)現(xiàn),手機自己給購物車清空了,恐怕很多人就要覺得這是一場噩夢了。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。