具身智能在2024年成為了距離上最接近AI大模型的概念。一時間,業(yè)內(nèi)多家公司競相宣布推出相關(guān)產(chǎn)品,要將AI機器人賦能日常生活。
作為機器人行業(yè)的老兵,王斌深諳AI算力對機器人的重要性,“算力已經(jīng)發(fā)展到了這么高的階段,其實還有大量的需求。因為物理世界的數(shù)字化還遠遠沒有完成,目前只是語音、圖片、生成式視頻,但是機器人服務(wù)所需要的是真正物理世界實時的數(shù)字孿生。這才是未來的AI。”
具身智能的發(fā)展前景、云端機器人如何搭建架構(gòu)體系、AI大模型的驅(qū)動作用,以及個性化智能與情感服務(wù)對機器人的重要性等等,在星際營25期“新銳AI之星融資加速計劃”上,達闥科技副總裁王斌就上述話題,進行了一場信息量拉滿的分享。
以下基于標題為《AI創(chuàng)業(yè)的技術(shù)和商業(yè)化場景突破及具身智能的未來》的演講,經(jīng)創(chuàng)業(yè)邦整理后發(fā)布。
機器人的“大腦、小腦、肢體”要協(xié)同工作
今后的機器人更多的應(yīng)該是工作、生活場景中為人提供服務(wù),但是機器人自己去服務(wù),有AI的驅(qū)動還不夠,一定要有一個運營的平臺,很好地讓機器人安全地工作,能力不斷提升,保證我們?nèi)祟悓C器人的可控,包括倫理方面的東西,所以我們現(xiàn)在做機器人一定是有一個運營平臺的。就像搞移動通信,有中國移動、中國聯(lián)通。沒有網(wǎng)絡(luò)運營,機器人直接給到用戶就不管了可以嗎?不可以。我們做機器人,不光是機器人的問題,還有AI的部分,這是個全棧的技術(shù),這個就不講了。簡單補充一下,機器人的“大腦、小腦、肢體”,是去年提出來的發(fā)展人形機器人指導(dǎo)意見,這個概念就是我在工信部開會的時候提出來的,我們是工信部人形機器人專家組的,以前大家注重機器人本體的東西,跟AI結(jié)合怎么結(jié)合?我們大模型的技術(shù)如何結(jié)合起來?機器人是不是像人一樣有一個超級大腦,同時還有個機器人的小腦,本體的這些算力,再加上機器人控制的問題,我們提出來這樣一個概念,具體從云端機器人架構(gòu)里可以給大家做一個分析。
機器人的發(fā)展大家已經(jīng)接觸了很多,傳統(tǒng)的機器人是工業(yè)機器人,實際上就是一個重復(fù)地完成固定的動作。進一步有一些感知的協(xié)作機器人,后面有移動能力,從植物到動物的發(fā)展,到爬行動物,這些都是大自然進化,生物體越來越有智能、智力和行動能力,AGV小車,也包括無人駕駛技術(shù)和汽車結(jié)合,未來肯定是一種像人一樣的有各種各樣的感知設(shè)備,感知器官,以及各種各樣的行動能力的機器人。當然人形機器人,我們希望未來成為通用的平臺。這樣架構(gòu)的發(fā)展,無論是我們之前做的機器人,可能在某一領(lǐng)域可以做,完成固定工作繼續(xù)使用,隨著通用性的提高,用戶需求的提高,一定是向云端機器人的架構(gòu)去發(fā)展。
簡單講云端機器人,機器人大腦肯定在云端,現(xiàn)在的技術(shù)不太可能把通用大模型放在機器人的設(shè)備里面,需要太大的算力以及能量的消耗,也不科學,也不經(jīng)濟。所以這個大腦在云端,通過網(wǎng)絡(luò)連接到機器人的本體,構(gòu)成了“云、網(wǎng)、端”架構(gòu),簡稱就是云端機器人。我們公司2015年成立開始就按照這樣的架構(gòu)去打造未來的智能機器人,好在我們現(xiàn)在的網(wǎng)絡(luò)通信技術(shù)已經(jīng)非常厲害了,在幾千公里之內(nèi)可以達到像人一樣的時延反應(yīng)速度,人的眼睛看到物體,到視網(wǎng)膜,到大腦的處理,30毫秒就可以完成。這些在4G、5G情況下,通過網(wǎng)絡(luò)傳輸也可以達到幾十毫秒的反應(yīng),跟我們?nèi)艘粯拥姆磻?yīng)速度,夠用了,對我們機器人來講,代替我們?nèi)祟惞ぷ骰緣蛴昧恕?/p>
人形機器人:人類的第三臺智能設(shè)備
我們知道做機器人,一直要構(gòu)建一個產(chǎn)業(yè)的生態(tài),我們把機器人定義成人類的第三臺計算設(shè)備,PC、智能手機,未來機器人就是第三個智能設(shè)備。這個智能設(shè)備能干什么?不是我們一家公司能夠全開發(fā)出來的,一定是生態(tài)來做的。手機能干什么?做硬件的,一批廠家做,做芯片的,做器件的。手機的應(yīng)用是靠手機的App,有大量的App開發(fā)商,讓我們時時刻刻離不開手機,覆蓋了衣食住行、工作,分分鐘都離不開它。未來機器人也一樣,我們打造未來開放的平臺,在這個平臺下所有機器人廠商硬件都可以接上來,所有機器人應(yīng)用的開發(fā)者都可以在上面開發(fā)應(yīng)用,一個機器人有眾多的應(yīng)用開發(fā)者在上面開發(fā)應(yīng)用,買回去一個家里的機器人幫我干活,你跟機器人說我今天想吃水煮牛肉,幫我做一個水煮牛肉的菜。誰會做水煮牛肉?你不會我也不會,我去編這個程序肯定不行的,是專門做水煮牛肉的廚師們來做這個App,他也不會寫代碼怎么做App?我們這個平臺給他提供工具,不用你寫代碼,你就把你做水煮牛肉做就完了,我們機器人在這兒看著。從備料開始,到切,到熱鍋,到下油,全拍下來,拍完以后機器人大模型把任務(wù)分解了,形成所有的機器人適配的代碼,這個機器人做水煮牛肉程序就生成了,你跟家里機器人說吃水煮牛肉,到我們平臺上一找相關(guān)的程序,有十多個,就看誰排名高,誰點贊高,就下載它,給一毛錢就完了,機器人下載下來就干,這就是平臺的作用。
不光是我們自己在搞機器人,通過這個平臺,還要接各種機器人進來,讓各種AI的服務(wù)提供商,各種應(yīng)用開發(fā)商都接進來,這就是達闥在做的事情。所以投資人投我們投什么?投的是這個。
具體的云網(wǎng)端架構(gòu)里面我們設(shè)計的平臺,具體展開機器人大腦、網(wǎng)絡(luò),連接各種機器人。我們在機器人大腦里給開發(fā)者提供機器人的開發(fā)套件RDK,跟SDK是一樣的,機器人有機器人訓(xùn)練師、機器人運營,在這里面我們給機器人大腦構(gòu)建了一個機器人的元宇宙,我們的物理世界一定要變成數(shù)字化,機器人的大腦或者AI才能讀得懂,這個數(shù)字化就是元宇宙,就是我們物理世界的實時數(shù)字孿生,今天我在這個會場里面,這個會場能不能數(shù)字化?在座的各位能不能夠都數(shù)字化?這時候機器人進來以后才能夠真正跟這個環(huán)境產(chǎn)生AI算法的感知,包括服務(wù)交互。比如說給一位女士送一杯熱茶,它得知道這位女士是誰,這位女士不數(shù)字化它也不知道。這個實時的數(shù)字孿生怎么獲取,保證實時的同步呢?不需要人去采集,更不需要安攝像頭,機器人帶眼睛,走到哪看到哪,實時傳輸,實時更新,需要大量的后臺算力去處理這些大量的數(shù)據(jù)。
可想而知,我們說算力已經(jīng)發(fā)展到了這么高的階段,未來還有需求嗎?還有大量的需求,英偉達有可能沖到30萬億。為什么?因為我們物理世界的數(shù)字化還遠遠沒有完成呢,我們只看到了一些語音的東西,一些圖片的東西,當然現(xiàn)在Sora有一些生成式的視頻,但是真正物理世界實時的數(shù)字孿生才是未來的AI,機器人服務(wù)所需要的,這里面有大量的增長空間,在座各位有做這方面的,堅持做下去。
人形機器人的量產(chǎn)要在兩年以后
具身智能和機器人應(yīng)用方面,想和大家交流一下。這個不用多講,心靈、手巧是出發(fā)點,大家都投這個賽道,投資人進行投資,創(chuàng)業(yè)者也在里面做東西了,就是GPT的出現(xiàn),以及頭部大的機構(gòu)、企業(yè)開始玩這些東西,開啟了人形機器人的元年。國外不多講了,國內(nèi)有這么幾家,在媒體上大家都有接觸,我們不一個一個去說。
關(guān)于人形機器人,最主要的技術(shù)有幾方面,從硬件本體來講,包括按機電設(shè)計、執(zhí)行器、各種各樣的算法,以及運動控制算法,以及對環(huán)境的感知、認知、決策和執(zhí)行,這樣一套機器人相關(guān)的任務(wù)完成的多模態(tài)計算,讓人形機器人達到功能上的要求。光有這個還不夠,我們需要提高機器人的可靠性,成本的降低,這些還需要一段時間的發(fā)展,我個人認為人形機器人還需要兩代甚至三代的發(fā)展,一代基本上是半年,如果三代的話,人形機器人真正走向客戶可以接受,愿意買單,還需要一年半到兩年的時間,這段時間大量人形機器人在里面投入,真正的量產(chǎn)可能要兩年之后。
當然了馬斯克提出來在2026年,希望有一千臺在他自己工廠用,我認為在自己工廠不太在意成本,是有可能的,你要是賣給第三方,那就要看這個東西賣多少錢,效率怎么樣,是不是總出問題,是不是還要人去伺候它。這是電機,具體技術(shù)不講。很多機器人不一定非是雙足,之前我們跟孫正義開會的時候,孫正義就提出來了人形的輪式,跑得慢點的,四輪車往上一坐,想跑哪就跑哪,當時他就畫了一個圖,人的上半身,底下有個四輪,開會的時候他畫的。這些都是強調(diào)底盤、腿,只要是高效,只要是節(jié)能,能迅速達到移動目標就行了,不一定要雙足,當然雙足有通用性。最主要的是手,上肢能力,這是業(yè)界做的一些手,我們也有自己的。
具身智能依靠的是“機器人學習”
運動控制算法有很多,現(xiàn)在最主要的是通過強化學習來實現(xiàn),算法有很多進步,很多都是開源的。大模型引領(lǐng)機器人發(fā)展,從發(fā)展趨勢來講就是這三點,我們之前的人工智能都是基于手機、PC上的,最多有個攝像頭監(jiān)控,我們都叫做互聯(lián)網(wǎng)AI,這概念都是我在三四年前提出來的,那時候叫互聯(lián)網(wǎng)AI,現(xiàn)在叫具身智能。具身智能也是我在三年前,當時我們跟李飛飛聊的時候,他也提出來具身智能這個詞。
從單模態(tài)到多模態(tài),人就是多模態(tài),五官來感知,跟外界進行交互。除了感知還要認知決策執(zhí)行,這都是趨勢。我們都知道機器學習,大家說深度學習、強化學習、機器學習,給了數(shù)據(jù)以后,通過算力去學習。我提出來機器人學習,不是機器學習,一個字的差別,但是范疇和深度有很大的不同。我們知道艾倫·圖靈提出來我們與其建立模擬成人心智的計算機程序,還是人在后面寫,不如我們嘗試建一個模擬兒童心智的程序,兒童心智程序是自己學習、自己進步、自己進化,這就是大模型,給了它數(shù)據(jù)以后它不斷進步,數(shù)據(jù)達到一定量的時候,Scaling Law達到一定的時候進行涌現(xiàn),人就是這樣的生物。機器人也按照這種方式,給機器人灌不同的數(shù)據(jù),從端水,從做一個事情就開始做,失敗了,為什么失敗。水的話要拿正了,拿歪了水就灑了,要拿水平,什么叫水平?大模型告訴你了,水平就是在地球引力下的水平,傾斜了水就灑,大模型告訴這個機器人,讓它理解了這個物理世界,執(zhí)行當中自然像小孩一樣學會了,孩子就是這樣,抓住東西不要掉地上,尖的東西不要碰,碰就扎手,這就要給機器人學習、推理、決策的平臺,當然里面還有各種各樣的新技術(shù),包括在少樣本的情況下怎么學習。
什么叫少樣本?不是說什么都沒有的情況下就學,而是有大量的基礎(chǔ)模型之后可以舉一反三,給少量的數(shù)據(jù)就可以學會少量任務(wù)的,不是說單獨可以做的,包括遷移學習、學會學習、終身學習。
“6W1H”是機器人感知、認知、決策、執(zhí)行的關(guān)鍵
RobotGPT玩什么的?怎么玩?就是“6W1H”。如果有人想做機器人智能大腦,把“6W1H”做好,這是我們在業(yè)界提出來的。用什么樣的技術(shù),還需要讓機器人有Memory,有時間問題,有記憶問題,大模型沒有這個肯定不行,沒有記憶在工作中怎么跟大家交流溝通呢?所以如何做好“6W1H”是把感知、認知、決策、行為這些東西真正形成機器人大腦的關(guān)鍵。
這也是我提出來的,大自然很復(fù)雜,各種生物在長,細胞分裂出來這么多復(fù)雜的生物體,很多復(fù)雜的東西都是由簡單的東西組成的,簡單的東西如何變成復(fù)雜的東西呢?不斷地分形復(fù)制。分形Fractal,自相似性Self—similarity,這樣一套技術(shù)用到機器人身上,就是把簡單的東西組合成復(fù)雜的東西,“6W1H”和分形和自相似性,就是我們在做機器人的感知到?jīng)Q策的一個程序上要跑的東西。一個機器人想去送一瓶水,首先我要知道水在哪,然后要知道把這個水送給誰,我要知道這個水在哪,我又要知道水相關(guān)的6W是什么,水是什么,放在哪,水有什么作用。水是給人喝的,這是Why,水為什么給人喝,喝健康的東西,不能喝污水,時時刻刻要問大模型。AI的Agent實時把問題拋給大模型,大模型再反饋過來,看看你能不能完成第一步的工作,也許第一步工作又分成第二小步、第二小步,第一小步又要往大腦去問,又返回來,完成第二小步,這是機器人大腦程序需要實現(xiàn)的。
舉個最簡單的例子,比如說給人制作咖啡,你首先要理解這個意圖,客人來了,要什么咖啡,要冰美式,怎么做,怎么給客人,怎么交互,這一套東西全是由大模型生成代碼,不需要人編任何一個代碼,這就是大模型牛的地方。只要把AI的Agent做好以后,大模型吐各種各樣的代碼,然后去訓(xùn)練。
機器人市場將經(jīng)歷一場殘酷淘汰賽
未來的機器人,機器人APP這個市場,如果以后有創(chuàng)業(yè)者想做這方面的APP,我覺得未來還有很大的發(fā)展空間。像手機上有美團、滴滴這樣大的獨角獸企業(yè),大家可以在機器人APP方面去做。對用戶來講有個機器人APP,對生態(tài)開發(fā)者有個機器人技能商店,機器人的應(yīng)用是各種技能的組合,沒有基礎(chǔ)的技能開發(fā)端到端的機器人應(yīng)用也是非常困難的,只有生態(tài)里面做很多模塊化的技能,上層的應(yīng)用開發(fā)者才能更好的開發(fā)更完整的上層應(yīng)用,不可能所有從零開始做,所以開發(fā)者生態(tài)也很重要。
人形機器人,包括通用智能,包括大模型,這是ARK在2022年的預(yù)測,左邊講了互聯(lián)網(wǎng)經(jīng)濟在2024年是13T $,這是產(chǎn)業(yè)的規(guī)模,預(yù)計到2030年AI驅(qū)動的新產(chǎn)業(yè)規(guī)模將是現(xiàn)在互聯(lián)網(wǎng)經(jīng)濟的6倍。包括基礎(chǔ)大模型,AI模型的服務(wù),在此之上是AI的應(yīng)用。我們作為創(chuàng)業(yè)者可以集中在AI方向,這個量也很大,這就是大模型包括通用人工智能未來的預(yù)測。
人形機器人基本上從市場趨勢上看也越來越清楚了,國內(nèi)做人形的,我們算了算大概50家可以叫出名字,這50家我們預(yù)計明年至少有一半會消失,后年再消失一半,到2030年不超過10家。當然這是預(yù)測,挑戰(zhàn)性非常大,在這里面先進入到哪個領(lǐng)域,后進入到哪個領(lǐng)域,大家都在嘗試,也有初步的預(yù)測,不展開了,大家都有自己的看法。
在互動環(huán)節(jié),關(guān)于初創(chuàng)企業(yè)應(yīng)該聚焦在哪個領(lǐng)域以獲得更多機會?王斌認為這取決于初創(chuàng)企業(yè)的優(yōu)勢是在軟件還是硬件方面。硬件方面,如果企業(yè)在傳感器或機器人皮膚材料等領(lǐng)域有所突破,將有很好的機會。軟件方面,他建議不要再開發(fā)手機APP,而是轉(zhuǎn)向開發(fā)機器人的應(yīng)用程序。對于整機制造商,除了電機和機器人關(guān)節(jié)技術(shù),產(chǎn)業(yè)鏈的整合能力也非常關(guān)鍵。
提到情感服務(wù)類機器人,王斌認為是一個很好的發(fā)展方向。除了工業(yè)機器人,未來的陪伴型和服務(wù)型機器人將需要具備情感智能,能夠理解人類情緒并提供相應(yīng)的服務(wù)。個性化也將非常重要,機器人需要通過不斷的交流來了解服務(wù)對象,提供定制化的服務(wù)。
在工業(yè)場景中,具身智能機器人相比傳統(tǒng)工業(yè)機器人有哪些優(yōu)勢?王斌認為:具身智能機器人的能力更為全面,它們不僅能完成工業(yè)場景中的重復(fù)性勞動,還能執(zhí)行更復(fù)雜的任務(wù)。與傳統(tǒng)工業(yè)機器人不同,具身智能機器人可以完成多工序的任務(wù),提高生產(chǎn)效率。目前,許多企業(yè),包括格力,都在尋求通過具身智能機器人來解決剩余的15%難以自動化的工作。
技術(shù)迭代,市場重塑,AI時代更多的產(chǎn)業(yè)機遇正在釋放。創(chuàng)業(yè)邦星際營愿始終陪伴在創(chuàng)業(yè)者,為優(yōu)秀的早期創(chuàng)業(yè)項目加速賦能,幫助好項目升級創(chuàng)業(yè)能力,成為細分賽道的領(lǐng)頭羊。在過往的加速歷程中,星際營累計從20000+報名項目中甄選1000+優(yōu)秀創(chuàng)業(yè)者進入孵化體系,往期學員單次融資最高金額達9億,路演項目獲得融資比例達64.3%。
長期以來,創(chuàng)業(yè)邦星際營作為DEMO CHINA的前哨戰(zhàn),助力創(chuàng)業(yè)者們以進階姿態(tài)登上DEMO CHINA,以更完善的技術(shù)、產(chǎn)品,更全面的商業(yè)思考面向各領(lǐng)域知名投資人、行業(yè)專家、產(chǎn)業(yè)伙伴展示,拓寬他們的創(chuàng)業(yè)之路。
本次星際營25期的創(chuàng)業(yè)者們系統(tǒng)加速后,將登上2024 DEMO CHINA的舞臺,在AI紀元綻放自己的創(chuàng)新力量。
這些企業(yè)都是誰?他們又有哪些非凡的創(chuàng)造力?
讓我們相約9月19-20日·成都,一起見證更多超能勇士的崛起。