編者按:本文來(lái)自微信公眾號(hào) 遠(yuǎn)川投資評(píng)論(ID:caituandzd),作者:李墨天,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
人型機(jī)器人上一次這么火,還是2016年波士頓動(dòng)力的Atlas。
Atlas的名場(chǎng)面是被波士頓動(dòng)力員工一棍子撂倒,整個(gè)過程栩栩如生,引發(fā)了“停止霸凌機(jī)器人”的后現(xiàn)代哲學(xué)思考。
波士頓動(dòng)力員工霸凌機(jī)器人,2016年
后來(lái),改進(jìn)版的Atlas完成了后空翻等一連串高難度動(dòng)作,在公司內(nèi)部的地位提升肉眼可見。但波士頓動(dòng)力的走向卻和輿論熱度成反比:
2013年被谷歌收購(gòu),2017年被甩賣給軟銀,2020年又賣給了韓國(guó)現(xiàn)代,逐漸泯然眾人。
Atlas表演后空翻,2017年
帶起當(dāng)下人形機(jī)器人節(jié)奏的,是個(gè)既出乎意料又情理之中的名字:特斯拉。
從2021年到現(xiàn)在,特斯拉的人形機(jī)器人以每年一次的頻率,穩(wěn)定的刷著存在感:
·2021年AIDay,特斯拉PPT首發(fā)了人形機(jī)器人Optimus的概念機(jī)設(shè)計(jì)方案,由于缺少后空翻這種直觀沖擊,影響力只局限在A股相關(guān)概念股。
·2022年的AIDay,特斯拉把Optimus的原型機(jī)搬到了會(huì)場(chǎng)。身高還是一米七,體重從上一年的50kg暴增至73kg,可以完成招手、搬運(yùn)物體等簡(jiǎn)單工作,但走路需要特斯拉員工攙扶。
沒裝外殼,打赤膊的Optimus,2022年
·2023年股東大會(huì),Optimus以視頻形式出場(chǎng),不僅走路不用人扶了,還能完成物品分類、分揀等更高難度動(dòng)作。
Optimus體重暴增前后
雖然在輿論場(chǎng)的聲量遠(yuǎn)不及當(dāng)年的波士頓動(dòng)力,但特斯拉的Optimus引發(fā)了產(chǎn)業(yè)界的沸騰,原因有兩點(diǎn):
一是相比Atlas百萬(wàn)美元的造價(jià),馬斯克表示Optimus兩萬(wàn)美元就能買回家,說(shuō)明人形機(jī)器人有大規(guī)模量產(chǎn)的可能。
二是通用性,在特斯拉的演示視頻里,Optimus已經(jīng)可以完成很多簡(jiǎn)單的體力勞動(dòng),潛在銷路大增。
問題隨之而來(lái):為什么是現(xiàn)在?為什么是特斯拉?
一次技術(shù)浪潮
理解人形機(jī)器人的技術(shù)浪潮,首先要了解它和傳統(tǒng)的工業(yè)/服務(wù)機(jī)器人的區(qū)別。
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)機(jī)器人大多基于特定的規(guī)劃執(zhí)行特定的操作,比如運(yùn)輸、分揀,不具備感知和決策能力。人形機(jī)器人不僅能與物理世界交互,還有感知和理解能力。
舉一個(gè)不太恰當(dāng)?shù)美斫獾睦樱核筒蜋C(jī)器人執(zhí)行“把外賣送到1203號(hào)房”這個(gè)任務(wù)時(shí),并不理解什么是“外賣”和“1203號(hào)房”,只是根據(jù)軟件系統(tǒng)既定的指令和路線規(guī)劃完成任務(wù)。
但人形機(jī)器人可以借由智能化,理解物理世界各種物體、語(yǔ)言和文字的含義,并自主規(guī)劃和決策。
所以理想狀態(tài)下,機(jī)器人不僅可以送外賣,還能順便洗個(gè)碗,走之前再把垃圾帶下去。當(dāng)然馬斯克想的更遠(yuǎn):讓Optimus軍團(tuán)搭乘SpaceX的龍飛船登陸火星。
因此,兩者的最大區(qū)別就在“通用性”,一個(gè)只能完成預(yù)先規(guī)劃的特點(diǎn)任務(wù),一個(gè)理論上什么都能干。
技術(shù)躍遷的背后,是人工智能近20年來(lái)的兩次里程碑事件:
第一次是2012年,Geoffrey Hinton三人組攜AlexNet算法參加ImageNet圖像識(shí)別大賽,以84%的識(shí)別準(zhǔn)確率奪得冠軍。神經(jīng)網(wǎng)絡(luò)從多種技術(shù)路線中脫穎而出,成為人工智能的唯一解。
所謂神經(jīng)網(wǎng)絡(luò),可以理解為用算法模擬人腦的運(yùn)行機(jī)制,配合足夠規(guī)模的數(shù)據(jù)和算力,理論上人腦能夠?qū)崿F(xiàn)的智能,計(jì)算機(jī)也能實(shí)現(xiàn)。李飛飛舉過一個(gè)形象的例子:
如果把眼睛當(dāng)作照相機(jī),一個(gè)三歲的孩子就已經(jīng)拍攝了上億張照片,借此認(rèn)識(shí)世界。那么只要讓算法看足夠多的圖片,算法也能夠識(shí)別物體。
2012年,李飛飛創(chuàng)建的數(shù)據(jù)集,AlexNet在算法上的創(chuàng)新,加上Geoffrey Hinton三人組開創(chuàng)性的使用了英偉達(dá)顯卡訓(xùn)練算法,數(shù)據(jù)、算法、算力齊備,人工智能迎來(lái)爆發(fā)期,人臉識(shí)別、機(jī)器翻譯、自動(dòng)駕駛等場(chǎng)景迅速落地,GPU訂單雪花一般飄向圣克拉拉的英偉達(dá)總部。
順帶提一句,Geoffrey Hinton的新東家Vayu Robotics,就是一家做機(jī)器人的公司。
第二次是2017年,Google八位員工公開了Transformer架構(gòu),開啟了大模型時(shí)代。
兩次的區(qū)別可以簡(jiǎn)單概括為,2012年的AlexNet讓AI有了“感知”的能力,而Transformer和之后的大模型讓AI有了“生成”的能力。
舉例來(lái)說(shuō),2012年的AI可以識(shí)別出各種各樣的貓,2017年之后的AI已經(jīng)可以自己生成貓的圖片了。
“感知”讓AI能夠?qū)W習(xí)人類對(duì)世界的認(rèn)知,“生成”讓AI有自主決策的能力。至此,機(jī)器人的地基已經(jīng)打好了。實(shí)際上ChatGPT和各類AI Agent,已經(jīng)可以視為具備感知和決策能力的機(jī)器人。
只不過這類“機(jī)器人”局限在數(shù)字環(huán)境,有量大管飽的參數(shù)和算力就能搓出來(lái)。但人形機(jī)器人需要與真實(shí)的物理世界交互,就需要真實(shí)世界的參數(shù)訓(xùn)練。同時(shí),由于硬件產(chǎn)品的存在,又會(huì)觸及制造業(yè)的核心命題:低成本大規(guī)模量產(chǎn)。
從早年的本田ASIMO,到幾年前的波士頓動(dòng)力Atlas,都是栽在了無(wú)法低成本量產(chǎn),導(dǎo)致沒有商業(yè)化場(chǎng)景的問題上。
而特斯拉進(jìn)展神速的秘密在于,他們抓住了人形機(jī)器人的“前置產(chǎn)業(yè)”:自動(dòng)駕駛。
一個(gè)“前置產(chǎn)業(yè)”
2021年的AI Day上,馬斯克曾說(shuō):我們幾乎擁有人型機(jī)器人所需的所有部件,因?yàn)槲覀円呀?jīng)制造了帶輪子的機(jī)器人。
這句話其實(shí)很好概括了特斯拉在人形機(jī)器人上的發(fā)展策略:用汽車研發(fā)的經(jīng)驗(yàn)給機(jī)器人開路。
如上文所說(shuō),本輪人形機(jī)器人浪潮的想象空間在于“通用性”,也就是把機(jī)器人從基于特定規(guī)劃執(zhí)行任務(wù)的功能性產(chǎn)品,變成具備感知和決策能力的智能設(shè)備。
此前的種種智能化路線,往往都難以脫離“窮舉法”的桎梏,導(dǎo)致始終會(huì)面臨像這個(gè)程序員段子一樣的尷尬問題:
但Transformer打開大模型時(shí)代后,帶來(lái)了兩個(gè)立竿見影的改變:
一是把無(wú)法實(shí)現(xiàn)的窮舉法變成了簡(jiǎn)單粗暴的大力出奇跡:只要讓機(jī)器學(xué)習(xí)足夠多的數(shù)據(jù),就能擁有類人的智能,可以脫離預(yù)設(shè)的規(guī)劃進(jìn)行自主決策。
二是多模態(tài)能力的建立,讓機(jī)器人可以實(shí)現(xiàn)感知-決策-執(zhí)行的整個(gè)流程。
一個(gè)樣板工程是今年7月《紐約時(shí)報(bào)》探班谷歌實(shí)驗(yàn)室, 完整記錄了基于RT-2模型的機(jī)器人智能閃現(xiàn)的瞬間:
桌子上放著恐龍、鯨魚、獅子三個(gè)塑料玩具,工程師讓單臂機(jī)器人“撿起滅絕的動(dòng)物”,機(jī)器人拿起了恐龍。
這意味著機(jī)器人不僅能識(shí)別三種動(dòng)物,也能理解“滅絕的動(dòng)物”的含義,還可以完成具體的操作。
以此類推,只要數(shù)據(jù)、算法、算力三要素滿足,那么機(jī)器人不僅能抓取滅絕的動(dòng)物,還能自己切菜刷鍋洗碗,甚至先切十斤精肉不見半點(diǎn)肥的,再切十斤肥的不見半點(diǎn)精肉。
如果可以實(shí)現(xiàn),那么機(jī)器人的應(yīng)用場(chǎng)景就大幅度增加,比如做飯、打掃衛(wèi)生、照顧老人。而且機(jī)器人還會(huì)依照算法不斷自我學(xué)習(xí)自我進(jìn)化,自驅(qū)力秒殺99%的打工人。
Google的RT-2模型論文
自動(dòng)駕駛的技術(shù)演進(jìn)一度萬(wàn)馬齊喑,就在于難以脫離“窮舉法”的陷阱,直到以神經(jīng)網(wǎng)絡(luò)為代表的人工智能興起。而人形機(jī)器人的既定發(fā)展路線,恰恰與自動(dòng)駕駛的技術(shù)演進(jìn)完全吻合:
兩者的核心都是基于人工智能,實(shí)現(xiàn)感知-決策-執(zhí)行的完整鏈條。
這就意味著無(wú)論是軟件層面的算法,還是硬件層面的視覺傳感器、FSD芯片等零部件,理論上都可以用于人形機(jī)器人。這也是為什么馬斯克會(huì)說(shuō):當(dāng)你能解決自動(dòng)駕駛,你就能解決現(xiàn)實(shí)世界中的人工智能。
如果把新能源車?yán)斫鉃椤皫л喿拥臋C(jī)器人”,那么特斯拉的布局其實(shí)可以追溯到2014年9月第一版Autopilot發(fā)布。在這過程中,特斯拉一步步用自研軟硬件替換掉了第三方的方案,為Optimus機(jī)器人探路。
最核心的自動(dòng)駕駛芯片上,特斯拉最初采用Mobileye的方案,后來(lái)?yè)Q成了英偉達(dá)。2019年,特斯拉自研的FSD芯片正式上車,沿用至今。
軟件算法上,特斯拉在2020年對(duì)底層代碼進(jìn)行了網(wǎng)絡(luò)重構(gòu),引入了Transformer架構(gòu),實(shí)現(xiàn)將2D圖像拼接為3D視角,隨后又3D空間基礎(chǔ)上加入了時(shí)序信息,轉(zhuǎn)化為4D空間。2022年引入占用網(wǎng)絡(luò)(Occupancy Network),解決通用障礙物識(shí)別問題。
云端算力上,特斯拉在2021年AI Day首次公開了Dojo超算和自研的D1芯片。至此,特斯拉完成了從云端到終端,核心軟硬件的自研。
因此,Optimus在2021年的公開亮相,并不是巧合。
一家偽裝成汽車制造商的AI公司
為什么波士頓動(dòng)力的Atlas成本高達(dá)百萬(wàn)美元,特斯拉Optimus的目標(biāo)價(jià)位只有兩萬(wàn)美元?
因?yàn)槟?8萬(wàn)已經(jīng)由廣大特斯拉車主先行分?jǐn)偭恕?/p>
雖然機(jī)器人所需的數(shù)據(jù)集與自動(dòng)駕駛有所不同,控制系統(tǒng)也有差別,但自動(dòng)駕駛還是完美的幫人形機(jī)器人解決了“VR式難題”。
VR經(jīng)歷了無(wú)數(shù)個(gè)“元年”依然死氣沉沉,核心在于如果要滿足VR頭顯對(duì)性能、體積和能耗的要求,手機(jī)的研發(fā)經(jīng)驗(yàn)幾乎無(wú)法復(fù)用,軟件系統(tǒng)和處理器、屏幕這些零部件,都要重新走一遍從0到1的過程。
在產(chǎn)品不成熟、應(yīng)用匱乏的情況下,消費(fèi)者興致寡然,導(dǎo)致企業(yè)無(wú)法大規(guī)模生產(chǎn)攤薄成本,而高昂的售價(jià)又進(jìn)一步加劇這個(gè)惡性循環(huán)。
人型機(jī)器人則相反,研發(fā)過程中耗資巨大的軟件算法、數(shù)據(jù)采集、芯片和傳感器等零部件、云端算力設(shè)施,都在自動(dòng)駕駛的開發(fā)過程中建設(shè)完成了。
幾乎所有人工智能的應(yīng)用都需要算法、算力、數(shù)據(jù)三駕馬車來(lái)拉動(dòng),算法決定了AI識(shí)別和決策的方式;但強(qiáng)大的算法需要足夠的算力來(lái)驅(qū)動(dòng);同時(shí),算法的提升又需要大規(guī)模高質(zhì)量的數(shù)據(jù);三者相輔相成,缺一不可。
具體到人形機(jī)器人,Optimus的每一個(gè)環(huán)節(jié),都能照抄S3XY四大車型的作業(yè)。
算法層面,Optimus的軟硬件幾乎照搬了特斯拉電動(dòng)車的方案:
Optimus共配置有3顆攝像頭,左右眼各一個(gè),外加一顆魚眼廣角。芯片是和電動(dòng)車一模一樣的FSD自動(dòng)駕駛芯片,參照當(dāng)前HW3.0系統(tǒng)的算力,Optimus的算力為72TOPS(車?yán)镉袃深w,機(jī)器人只有一顆)。
軟件上,Optimus承襲了特斯拉自動(dòng)駕駛的BEV+Transformer+占用網(wǎng)絡(luò)的方案。簡(jiǎn)單來(lái)說(shuō),算法會(huì)將攝像頭拍攝的畫面“拼”成一張動(dòng)態(tài)的4D圖像,并規(guī)劃行車路徑。在Optimus的演示里,其識(shí)別和決策系統(tǒng)與自動(dòng)駕駛算法如出一轍。
Optimus的視覺傳感系統(tǒng)
2023年特斯拉股東大會(huì),馬斯克就表示,特斯拉已經(jīng)打通了FSD和機(jī)器人的底層模塊,實(shí)現(xiàn)了一定程度的算法復(fù)用。
算力層面,依靠2021年發(fā)布的D1芯片,特斯拉組建了自己的算力集群DojoExaPod。
一套Dojo ExaPod包含3000個(gè)D1芯片,總算力達(dá)到1.1EFLOP,相當(dāng)于14000塊A100的算力。Dojo主要服務(wù)于特斯拉的自動(dòng)駕駛?cè)蝿?wù),但也可以無(wú)痛切換到機(jī)器人的訓(xùn)練。特斯拉為汽車設(shè)計(jì)的碰撞模擬軟件,也可以給Optimus編寫跌倒測(cè)試程序。
數(shù)據(jù)層面,特斯拉已經(jīng)擁有了規(guī)模最大的數(shù)據(jù)采集網(wǎng)絡(luò)。
和GPT等大模型不同,自動(dòng)駕駛與機(jī)器人需要物理世界的真實(shí)數(shù)據(jù)來(lái)訓(xùn)練算法。與自建工程車隊(duì),專門采集數(shù)據(jù)的自動(dòng)駕駛公司不同,特斯拉車主組成了一個(gè)規(guī)模龐大的免費(fèi)外包車隊(duì),加上近30萬(wàn)購(gòu)買了FSD功能的車主,源源不斷的將真實(shí)數(shù)據(jù)傳送給Dojo訓(xùn)練。
2022年的AI Day上,特斯拉宣稱已經(jīng)存儲(chǔ)的有價(jià)值訓(xùn)練數(shù)據(jù)集有23.2萬(wàn)幀,驗(yàn)證數(shù)據(jù)集0.38萬(wàn)幀。
Optimus中負(fù)責(zé)驅(qū)動(dòng)的電機(jī)也來(lái)自特斯拉電動(dòng)車現(xiàn)有的方案。不過考慮到機(jī)器人的靈活性更強(qiáng),單獨(dú)的電機(jī)數(shù)量遠(yuǎn)遠(yuǎn)超過電動(dòng)車。
總結(jié)一下,新能源車和自動(dòng)駕駛可以靠自身的造血能力,替人形機(jī)器人趟過研發(fā)開支最密集的階段;同時(shí),自動(dòng)駕駛的落地也為人形機(jī)器人積累了大量數(shù)據(jù)采集、算法迭代、模型訓(xùn)練的工程化經(jīng)驗(yàn)。
波士頓動(dòng)力的日益平庸,特斯拉的后來(lái)居上,背后的變量都是人工智能的技術(shù)革命,和自動(dòng)駕駛這個(gè)“前置產(chǎn)業(yè)”。
馬斯克在AI領(lǐng)域的涉足常被忽略,他其實(shí)是OpenAI的創(chuàng)始人之一,也是DeepMind的早期投資人。他參與的人工智能公司還有腦機(jī)芯片Neuralink、聊天機(jī)器人Grok。
特斯拉每天接受并處理的視頻畫面超過1600億幀,這是商業(yè)公司能擁有的最大的真實(shí)世界數(shù)據(jù)集,不僅能拿來(lái)精進(jìn)自動(dòng)駕駛系統(tǒng),還能給Optimus做預(yù)訓(xùn)練。
人們覺得特斯拉屬于制造業(yè),其實(shí)它更像一家軟件公司。特斯拉的自我介紹是“純電動(dòng)車、太陽(yáng)能和清潔能源”,但實(shí)際上,它是一家徹頭徹尾的人工智能公司。
參考資料
[1] 詳解特斯拉機(jī)器人 Tesla Bot:和汽車共享一些配件,網(wǎng)易科技
[2] 谷歌的 RT-2,是不是機(jī)器人的 GPT-3 時(shí)刻,極客公園
[3] 人形機(jī)器人的AI算法,如何借力于自動(dòng)駕駛FSD,安信證券
[4] 人形機(jī)器人深度報(bào)告:人工智能的終極載體,開啟十年產(chǎn)業(yè)大周期,東吳證券
[5] 谷歌DeepMind發(fā)布機(jī)器人大模型RT-2,提高泛化與涌現(xiàn)能力,甲子光年
本文(含圖片)為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。