五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

臨近機器人GPT-3時刻,具身智能開源模型的加速演進(jìn)

作為人工智能和機器人交叉的前沿領(lǐng)域,具身智能是當(dāng)今科技領(lǐng)域最具潛力和前景的方向之一。其中,機器人/具身大模型扮演著“中樞大腦”的角色,使機器人能夠在復(fù)雜多變的環(huán)境中實現(xiàn)自主學(xué)習(xí)和持續(xù)進(jìn)化。因此,大模型的研發(fā)已成為推動機器人產(chǎn)業(yè)——尤其是通用型機器人突破發(fā)展的關(guān)鍵環(huán)節(jié)。

9月8日,中國的具身智能公司自變量機器人開源了他們的具身模型WALL-OSS,緊接著的9月9日,美國的具身智能公司Physical Intelligence(簡稱PI、π)也開源了他們的π?.?模型。中美兩家公司幾乎同時開源了自己的模型,這并非偶然。2025年,具身大模型的開源生態(tài)正在進(jìn)入百花齊放的發(fā)展階段。

這一態(tài)勢讓人聯(lián)想到過去幾年里以ChatGPT為代表的語言大模型演進(jìn)路徑:從2018年開源社區(qū)初步興起,到2020年5月ChatGPT-3引發(fā)全球矚目,語言大模型用了三年時間走向成熟。那么,機器人大模型距離屬于它的“GPT-3時刻”還有多遠(yuǎn)?

本期《硅谷101》,主播泓君邀請了自變量機器人的CTO王昊,以及Physical Intelligence的研究員柯麗一鳴(Kay Ke),她是π?、π?.?論文作者,一起來聊聊今年機器人模型領(lǐng)域重要的突破、當(dāng)前還面臨著哪些挑戰(zhàn)、對比下中美的機器人發(fā)展路徑有何區(qū)別,以及還需要多久才能在全場景落地。


以下是這次對話內(nèi)容的精選:

01 行業(yè)突破與泛化能力

泓君: 你們認(rèn)為整個2025年,機器人的模型領(lǐng)域最重要的突破是什么?

柯麗一鳴:我搞機器人大概有七八年了,我覺得機器人大模型的紅火,也是在最近兩三年才開始集中爆發(fā)。

我自己剛開始的研究中,沒有用到很多大模型這些東西,更多是做一些小而精的任務(wù)。當(dāng)時我就發(fā)現(xiàn):一套東西在一個場景下能解決特定的問題,雖然做出來效果不錯,但是很難便宜、便捷地復(fù)制到新的問題上去。

所以在我探索大模型的途中,最大的一個驚喜發(fā)現(xiàn)就是,驗證了模型的通用性,這樣就可以開始做一些泛化、性能提升上的探索,這時才能開始討論機器人大模型的可能性。在機器人領(lǐng)域,我覺得現(xiàn)在比起兩三年前,對大模型這一種技術(shù)路線的信仰要濃厚得多。

王昊:今年有一個非常明顯的現(xiàn)象,那就是在應(yīng)用上呈現(xiàn)出了指數(shù)效應(yīng)。這背后的驅(qū)動力,其實也是來源于通用機器人基礎(chǔ)模型的發(fā)展和進(jìn)步。

在2023年以前,我們很多人會專注在單個任務(wù)上,把它做到極致;但現(xiàn)在我們有了統(tǒng)一的基礎(chǔ)模型之后,就能夠同時學(xué)習(xí)并執(zhí)行成百上千種不同的任務(wù),其實也就意味著:我們的優(yōu)化目標(biāo)變了,重心放在了提升整個模型在所有任務(wù)上的平均成功率。這也是指數(shù)效應(yīng)發(fā)展的基礎(chǔ),我們現(xiàn)在可以開始去做復(fù)雜的長程任務(wù)(Long-Horizon Task,包含一系列連續(xù)步驟、需要機器人進(jìn)行多步推理、規(guī)劃并執(zhí)行,最終才能完成的復(fù)雜任務(wù)),這是一個非常令人驚喜的現(xiàn)象。

泓君:我總結(jié)大家剛剛的關(guān)鍵詞,一個是整個機器人模型泛化的探索,還有一個是復(fù)雜的長任務(wù)。請幫我們舉一些例子來說明下,比如有哪些任務(wù)機器人以前做不到,到了2025年就能做到了?或者以前機器人只能局限在某個場景的特定任務(wù),現(xiàn)在可以遷移到其他的場景了?

柯麗一鳴:2024年的時候,PI(Physical Intelligence,美國具身智能公司)發(fā)布了π?,當(dāng)時就是想要推動泛化能力。其中最有代表性的一個例子就是疊衣服的任務(wù)。這個任務(wù)其實在機器人界做了十幾到二十年,有很多人都在研究。

大家一般認(rèn)為讓AI下圍棋很難,因為圍棋的復(fù)雜度很高嘛,每一把棋局都不一樣,其實在我們?nèi)粘I钪校B衣服這些看上去對人來說很簡單的小任務(wù),它具體的復(fù)雜度也很高。比如衣服上面可能有兩個折、有三個折,或者某個折的角度不一樣,對機器人來說可能都是一個新的情況,它需要把這么多不同的情況解決。

同時疊衣服有很多不同的步驟,要先疊什么再疊什么,有這樣的序列性,這種復(fù)雜的細(xì)分的情況和序列性,使得疊衣服這個任務(wù)在以前是比較難解決的。

到了2025年,我們也開始探索了不少泛化的方向,比如說把π?.?模型放到一個移動機器人里,再把這個移動機器人放到不同的、沒有見過的家里,這些都不在模型的數(shù)據(jù)集里面,模型可能不知道會怎么反應(yīng),然后我們觀察它會怎么做。在這個過程中我們發(fā)現(xiàn),要做到泛化性還是比較有希望的,雖然機器人的表現(xiàn)不是很完美,但它好像展現(xiàn)出了一點像人類的特性,比如拿東西,換到別的家場景里還是能拿。

泓君:它拿的是哪一類的東西?在我的理解中,衣服是軟的布,但如果拿起一個杯子、一個碗,是不是就不太一樣?

柯麗一鳴:是的,其實這一類問題在機器人內(nèi)部術(shù)語就叫抓取問題,因為它要結(jié)合物體具體的形狀、擺放的位置,甚至你靠近過去的時候的角度來考量。

所以抓取問題是既簡單又不簡單的一個問題,比如你要抓一個水杯,就算是完全一樣的水杯,在兩個不同環(huán)境中,也是一種泛化的體現(xiàn),需要的策略會不一樣。甚至以后我告訴機器人要拿杯子,它不管去了一個新的家、拿了一個完全不一樣的杯子,都要能完成,徹底的泛化結(jié)果就需要這樣層層遞進(jìn)的測試。

泓君:所以π?.?相比π?,它的進(jìn)化表現(xiàn)在哪?你剛剛提到了讓它去一個新的家,它依然能夠適應(yīng)這種環(huán)境,這是一點。但比如說它做的任務(wù)是不是有一些局限性的?它的任務(wù)的可遷移性如何?哪些任務(wù)還不可遷移?它的規(guī)律是什么?請跟大家簡單地解釋一下。

柯麗一鳴:當(dāng)我們在開始推進(jìn)π?.?的時候,我們強調(diào)的點就是泛化,這時會強迫自己去收集一些不同的數(shù)據(jù)。但這個“不同”的數(shù)據(jù)的“不同”,其實沒有那么好定義,因此我們決定把機器人放到外面不同的房子里去測試。

而在這個過程中我們又發(fā)現(xiàn),不知道要收多少個不同的房子的數(shù)據(jù)才算到頭了,我們得一邊收集、一邊檢驗,同時心里也會懷疑:今天收集了3個房子的數(shù)據(jù),是不是就有幫助了?如果我們收集了30個都沒有幫助,是不是就意味著這條路走不通?

但還好我們收集到了很多的不同的數(shù)據(jù)以后,最后訓(xùn)練出來的模型在驗證時,確實發(fā)現(xiàn)它有比較強的泛化能力。也就是說π?.?在一些新的環(huán)境中的表現(xiàn)比以前更好了。當(dāng)然并不是任意新環(huán)境都很好,目前還存在一些局限性,但大家還在慢慢地在感受和探索,未來落地時在性能上還有很多提升空間。

泓君:你們覺得機器人模型在研發(fā)過程中,泛化問題最難的環(huán)節(jié)是什么?比如是因為數(shù)據(jù)量比較小,還是算法的問題?

王昊:難點之一是物理世界中長尾效應(yīng)的魯棒性(robustness的音譯,指事物可以抵御外部應(yīng)力和影響并維持原有狀態(tài)的自身性質(zhì)),比如因為環(huán)境、光照產(chǎn)生了一些視覺誤差。雖然可以通過用更好的傳感器、更強的算力、更好的生成模型幫你做數(shù)據(jù)合成、數(shù)據(jù)增強,來緩解這些長尾效應(yīng),但真正的難點就是,現(xiàn)實時間有太多種可能性了,我們沒法預(yù)測到所有可能的corner case(邊角案例)。

所以這些情況就沒法讓機器去提前學(xué)習(xí),比如機器人執(zhí)行任務(wù)的時候,桌布上可能有個小的褶皺、杯子可能放置不穩(wěn)、可能有一個透明物體反光剛好干擾了相機等等情況。人類可以憑直覺和豐富的經(jīng)驗去瞬間適應(yīng)這些微小的物理變化,但由于算法非常依賴于數(shù)據(jù)驅(qū)動,AI大模型面臨這些新的挑戰(zhàn)時,不一定能做好。

另一個難點就是在長程任務(wù)上,很多微小的物理擾動會造成的各種微小誤差,它會像滾雪球一樣被放大,尾部的誤差到最后,可能就直接導(dǎo)致了任務(wù)的失敗。所以我們要解決的就是,怎么讓模型解決這些沒法在數(shù)據(jù)里包含的各種corner case,這個事的核心是要去構(gòu)建一個能夠理解物理常識、能夠有物理直覺的模型基礎(chǔ),讓模型能有空間的理解能力、推理能力。

所以這個問題的核心就是,我們要把機器人真實的數(shù)據(jù)、人類的視頻數(shù)據(jù)等等都合在一起,讓數(shù)據(jù)的規(guī)模更大、來源更豐富、質(zhì)量更高、更多樣,讓機器人從這個學(xué)習(xí)過程中能夠理解物理規(guī)律。但是這些和真實世界交互的高保真數(shù)據(jù)又是目前比較稀缺的,要得到這些數(shù)據(jù)并不意味著瘋狂地在現(xiàn)實世界去采就行了,這件事情遠(yuǎn)比想象地更復(fù)雜,它不止是數(shù)據(jù)量的問題,還是數(shù)據(jù)工程、數(shù)據(jù)管線的問題,比如如何降低我們的數(shù)據(jù)采集成本。

柯麗一鳴:我也覺得難點挺多的,并不是只有一兩個難點。王昊剛才說的長尾問題我覺得是難點之一。而從研究的角度來看,我認(rèn)為是測試機器人模型的表現(xiàn)如何是很難的。

大家經(jīng)常看到新聞里說,哪家公司開放了新的大語言模型,它在某個榜單上面變成了第一名。而在機器人界,過去數(shù)十年來,一直沒有辦法在真機世界中做出這么一個榜單。沒有辦法非??陀^、公正、可重復(fù)地告訴你:在什么情況下,模型A比模型B的表現(xiàn)是要好的。 做這個榜單的難點就是一個模型,它可能在某些地方表現(xiàn)好、其他地方表現(xiàn)不好,你要包含多少種不同的情況呢?如果要有一些corner case的話,那可就無窮無盡了。同時如果你想做一個真機的榜單,還要考慮這些真機維護(hù)、細(xì)節(jié)、對于模型的表現(xiàn)會不會造成影響等等情況。

因此到現(xiàn)在,機器人整個業(yè)界在發(fā)表論文的時候,很多時候都是依靠自己,既作為作者、又作為一個測評官,“我現(xiàn)在開發(fā)了一套算法,我們覺得它在這個任務(wù)上比之前的一些方法要好一些”。

缺乏統(tǒng)一的評價機制使得具身智能領(lǐng)域的發(fā)展緩慢了一些,因為你真的很難去分辨模型A、模型B到底哪個好。理想的情況是評分高的模型表現(xiàn)非常明顯的好,而真實世界是菜雞互啄。你說在模型上做了一些數(shù)據(jù)、算法上的改動,那你怎么驗證?

據(jù)我所知的話,業(yè)界里肯定有不少人在探索用模擬器,或者說一個第三方的、像打擂臺一樣的評測標(biāo)準(zhǔn),我覺得這也是大家在這個難題上開始進(jìn)行的一些探索。

泓君:之前我看中國有機器人運動會,還有首屆的機器人的展會,機器人有表現(xiàn)出很多的能力,比如說踢足球、賽跑,還有做一些具體的任務(wù),怎么樣去評判一個機器人,它的技術(shù)是好還是不好?從這些Demo上能看出來嗎?

王昊:我覺得是比較困難的。這也是我們具身領(lǐng)域大家感到的一個難點和一個痛點。很難有一個統(tǒng)一的評測標(biāo)準(zhǔn),可以讓大家沒有那么高成本、且比較公平地去評測模型。最好的評測就是要到現(xiàn)實世界去評測,但是我們又很難搭建一個公平的決斗場,所以這個是比較困難的地方

但我覺得還是有些辦法可以去評測的。比如說我們有一批開源模型,大家可以在自己的機器人本體上,去看不同的模型在學(xué)習(xí)相同的任務(wù)的時候所需要的數(shù)據(jù)量,它所展現(xiàn)出來的泛化能力、推理能力,是可以去評測的。那另外對于不同的機器人的公司,那可能合理且公平的是:我們把它的機器人應(yīng)用到具體的場景里面,去看不同模型的表現(xiàn)怎么樣。因為在真實世界運用時,它所展現(xiàn)出來這種多樣性、泛化性或者環(huán)境是非常隨機的,所以它是最能體現(xiàn)你模型能力的。

02 數(shù)據(jù)挑戰(zhàn)與硬件瓶頸

泓君: 剛剛說到難點,Kay提到了第一點,還有兩點是什么?

柯麗一鳴: 第二個難點剛才王昊也提到了,就是 數(shù)據(jù)的質(zhì)量和數(shù)量,就算在2025年的今天,還是魚和熊掌不可兼得的事情。

如果你想要數(shù)據(jù)質(zhì)量非常高,是需要精心地去設(shè)計、勤勤懇懇地去清洗的,就比如大語言模型訓(xùn)練,也是對數(shù)據(jù)的質(zhì)量很敏感。我們做機器人的數(shù)據(jù)都是自己收集的,然后再做清洗,每個細(xì)節(jié)都要到位。而一旦要對細(xì)節(jié)有追求,追求更高數(shù)量就有些難度。所以問題變成了我們是需要又多、又好、又快的數(shù)據(jù),才能讓我們的模型更好。

第三個難點的話,就是真機的維護(hù)。做機器人、尤其現(xiàn)在還在奮斗做真機機器人的同行們,一定是對這個行業(yè)很熱愛的,但真機機器人硬件的維護(hù),我覺得是很勸退的,尤其是很多新人,當(dāng)我看到他們開始研究機器人的時候,會發(fā)現(xiàn)沒有一個比較好的、上手就能用的機器人。

這可能不像一些純軟件的行業(yè),你可以下載些代碼就直接跑機器人,到現(xiàn)在依然沒有一個大家都非常認(rèn)可、都愿意擁抱的一個硬件平臺,甚至這個硬件應(yīng)該長什么樣,其實業(yè)界到現(xiàn)在也還是在爭論、在探索。我覺得這些客觀條件使得我們的研究和領(lǐng)域有了一些門檻吧。

泓君:對,說到這個讓我想起來,我有時候跟機器人的研究員們一起聚會,大家問白天在干嘛,那就是一天啥都沒干,專門在修手,因為手不太穩(wěn)定。

柯麗一鳴:是的,我剛開始讀博的時候不是搞機器人,是搞理論機器學(xué)習(xí)的。當(dāng)時還很年輕,就覺得:哎呀,整個機器人的項目怎么會用這么長時間呢?等我自己做的時候就發(fā)現(xiàn),天天都在擰螺絲。

泓君:我覺得數(shù)據(jù)確實是挺重要的一塊的,我也知道王昊你們自變量機器人的模型,是有數(shù)萬小時的多模態(tài)數(shù)據(jù)積累的。Kay你剛剛提到了π的模型,你說需要采集這種高質(zhì)量的數(shù)據(jù),然后要自己去收集、自己去做數(shù)據(jù)的清洗。

柯麗一鳴:稍微糾正一下,我覺得不光是π的模型想要大量高質(zhì)量的數(shù)據(jù),這可能是行業(yè)的共識,因為大語言模型的成功, 所以大家對數(shù)據(jù)的質(zhì)量是比較敏感的。

泓君:你們的數(shù)據(jù)是你們自己采集的,還是第三方公司做的?柯麗一鳴:我們有很多自己采集的數(shù)據(jù)。

泓君:行業(yè)里面會有一些專門的第三方公司去提供數(shù)據(jù)嗎?

柯麗一鳴:我倒是認(rèn)識一些朋友,他們自己創(chuàng)業(yè)就是為機器人提供一些真機數(shù)據(jù),但是這不是我們現(xiàn)階段研究的重點。

泓君:你覺得多少的數(shù)據(jù)可以構(gòu)成一個優(yōu)秀的大模型。

柯麗一鳴:在這點上我有個暴論,也很好奇大家怎么看。我之前就經(jīng)常和朋友聊天說,一個人的一生假設(shè)是100年的話,那我們很粗略地算就是100萬個小時,現(xiàn)在我在公開信息里,好像沒有看到有人做100萬小時的數(shù)據(jù)集。

所以我會覺得,什么時候我們能夠收到100萬小時,等同于一個人一生的物理經(jīng)驗的數(shù)據(jù),可能才能開始后面的探索。之后如果真的能把機器人廣泛地部署在真實世界中的話,那也許收100萬小時的數(shù)據(jù),也就是幾天的時間。

這也是來自于和一些做語言、圖像、音頻生成的朋友的吐槽,因為他們動手就很豪氣的:我今天要做這個任務(wù),給我來400萬小時的數(shù)據(jù),明天就要收集,后天就要清洗,我就說,咱做了多少年機器人,好像都沒這個400萬這個量呢。

泓君:為什么你的判斷是100萬小時?以前我們在說,人成為一個領(lǐng)域的頂級的學(xué)者專家,有個1萬小時定律。包括我觀察我家寶寶學(xué)吃飯的過程也是,她在非常小的時候,拿著勺子把飯喂到嘴邊都是喂不準(zhǔn)的,但她每天練習(xí)這個事情就慢慢學(xué)會了。但為什么機器人要訓(xùn)練出這樣的靈活度,就需要比人大得多的數(shù)據(jù)量?

柯麗一鳴:我有一些很粗糙的想法,我們PI自己在做研究的時候,有個重心叫做跨本體遷移,就是希望在不同形狀、不同類別的機器人上收集的數(shù)據(jù),能適用到別的機器人上,讓它更快地學(xué)會一個任務(wù)。

人類能做到這點可能和基因、軀體有一些關(guān)系,畢竟人類有一個非常好用的感知器,就是眼睛,現(xiàn)在也沒有哪個相機敢對標(biāo)人眼,還有我們的關(guān)節(jié),這些物理的、天生的東西,我覺得是人行動力的基石。

我個人比較相信,可以用一些算法上的優(yōu)勢,去蓋過硬件上的不足。但羅馬不是一天建成的,咱也不能指望機器人馬上就能像寶寶一樣學(xué)得這么快。機器人如果要快速學(xué)習(xí)新任務(wù)的話,它之前還是得有非常多的積累。剛才王昊也提到、并且我在PI也看到的一點就是:某個機器人上收的一些任務(wù)數(shù)據(jù),是可以幫助其他任務(wù)做得更好的,讓新的任務(wù)也許就不用那么多數(shù)據(jù)。

王昊:其實和人比的話,我覺得對機器人來講還是太不公平,核心就是因為人其實有“預(yù)訓(xùn)練”的。整個生物界在大規(guī)模的進(jìn)化過程中,有兩個非常核心的點:一是在進(jìn)化過程中,人積累了很多先前驗證的東西,比如跟世界交互的認(rèn)知,關(guān)于物理世界的應(yīng)對的策略,這些其實都寫到了基因里;另一方面,人其實在不停地進(jìn)化自己的硬件,整個生物界都是這樣,大家能不用“智能”解決的東西,就盡量用“硬件”解決,所以很多生物體都會進(jìn)化出一些結(jié)構(gòu),比如說大腸桿菌,它就不用長眼睛,只要對有化學(xué)、溫度敏感的一些感知,就可以去適應(yīng)周圍的環(huán)境。

我們現(xiàn)在正在做事,就是幫助機器人做它的預(yù)訓(xùn)練模型,雖然看起來要覆蓋人類進(jìn)化的幾億年的時間,但其實也不太一樣。第一是因為機器人是可以進(jìn)行大規(guī)模復(fù)制的,不同機器人之間可以共享它們的經(jīng)驗,我們就可以快速構(gòu)建機器人的預(yù)訓(xùn)練模型,讓它能夠具備對物理世界的感知、理解能力。當(dāng)然這個過程也是讓機器人越來越熟悉自己的身體,就像剛才Kay說的“跨本體泛化”,我們就是讓不同的機器人(模型),適應(yīng)不同的身體,并且讓它能夠互相感知到身體的不一樣,這個很重要。

其次在人的學(xué)習(xí)里面,所謂1萬小時理論還是有很多不一樣。人并不是一定時間內(nèi)專門去學(xué)這一個任務(wù),學(xué)完了再學(xué)下一個新任務(wù)。你開始教寶寶去做某件事情的時候,比如說拿一個東西,他可能精確度也不夠、抓不準(zhǔn),所以就把這個東西扔到一邊就不管了,去玩別的玩玩具、搭積木什么的,而過一個月之后你會發(fā)現(xiàn),拿東西這個任務(wù)他在并沒有花多少時間學(xué)習(xí),但是他已經(jīng)會了,這也體現(xiàn)了人在后天和環(huán)境交互過程中學(xué)習(xí),其實也是一個多任務(wù)并行的學(xué)習(xí)。它可以從不同任務(wù)中學(xué)習(xí)到這種底層的、共同的物理結(jié)構(gòu),這種共同物理結(jié)構(gòu)就會幫助它學(xué)習(xí)新任務(wù)時,減少它所需的數(shù)據(jù)量。

所以現(xiàn)在我們訓(xùn)練機器人時也是這么做的,我們用盡可能多樣的數(shù)據(jù)、覆蓋各種能力的任務(wù),去構(gòu)建這個大的數(shù)據(jù)體系、構(gòu)建機器人能力,它也許在學(xué)習(xí)新的任務(wù)的時候,需要的數(shù)據(jù)量就會大大減少。所以剛才說機器人需要百萬小時數(shù)據(jù),核心就是解決兩個問題,第一是覆蓋過去人類長時間進(jìn)化這個預(yù)訓(xùn)練的過程,我們需要通過多樣的數(shù)據(jù),去幫助機器人構(gòu)建這種基礎(chǔ)能力。第二就是在學(xué)習(xí)新任務(wù)的時候,我們也要利用它在舊任務(wù)學(xué)習(xí)中,形成的這種通用能力,讓他能夠泛化到新能力上。所以在數(shù)據(jù)上、時間長度上不能完全類比人類,但我覺得這個學(xué)習(xí)歷程和背后所反映的規(guī)律可能是一致的。

泓君:我很好奇大家在真實世界里面采集到的數(shù)據(jù)量有多大?訓(xùn)練一個具身模型時,數(shù)據(jù)會占多少成本?或者說數(shù)據(jù)有多貴?

柯麗一鳴:在π?的時候,我們做了一個比較簡單的統(tǒng)計:π?使用的數(shù)據(jù),比谷歌研究院收集的所有數(shù)據(jù)加還要多,即使π?發(fā)表的時候,PI還是一個很年輕的初創(chuàng)企業(yè)。

我覺得其實這是說明了兩件事:第一就是那個時間點采集的數(shù)據(jù)量確實是非常大,而且之后一直有往里面增加數(shù)據(jù),而數(shù)據(jù)的成本、數(shù)據(jù)的量是在實時變化的。在谷歌研究院在開始探索的時候,要花很大的功夫才收到這些數(shù)據(jù),但后來漸漸的有了經(jīng)驗,PI或者其他公司再收就會越來越簡單,成本應(yīng)該也是能夠得到控制和降低的。

泓君:那你們現(xiàn)在合成數(shù)據(jù)用的多嗎?我知道業(yè)界很多都會用合成的數(shù)據(jù),前幾周谷歌發(fā)布了Genie 3世界模型,我聽到了兩派不同的觀點:有一派認(rèn)為的Genie 3對機器人有非常大的幫助,因為這種世界模型的數(shù)據(jù)是有用的,但是另一派就會覺得這個數(shù)據(jù)質(zhì)量還是不夠好。

柯麗一鳴:我覺得可以分成兩個問題,一個是我們之前做了什么,另一個是對整個領(lǐng)域來說什么東西很有用。

π?.?應(yīng)該有一篇后續(xù)的論文,探討了我們對π?.?訓(xùn)練中的一些考量,其中有提到過,我們在π?.?的時候,引入了一些網(wǎng)絡(luò)數(shù)據(jù),我不知道嚴(yán)格意義上這算不算合成數(shù)據(jù),但確實是希望通過引入一些外界各種各樣的知識,去給它一種通用和通感,而不是直接告訴機器人應(yīng)該什么動作。

而合成數(shù)據(jù)對于領(lǐng)域有什么作用,我覺得沒有一個很清晰的定論?,F(xiàn)在有些人覺得,如果能夠大批次的生成成本低廉、有可控性、而且對機器人有用的的數(shù)據(jù),那會是很好的,但現(xiàn)在比較大的困難就是怎么弄出這些數(shù)據(jù)、怎么樣證明它有用,這還是比較前沿的研究問題。

王昊:現(xiàn)在頭部的機器人公司的數(shù)據(jù)量,因為有真實物理世界限制,大家可能都集中在幾萬到幾十萬這個范圍內(nèi)。但這個和訓(xùn)練像GPT-4這樣級別的語言模型去比,數(shù)據(jù)量還是少很多。我們除了用最重要的現(xiàn)實世界真實數(shù)據(jù)、機器人上的數(shù)據(jù),其實也會用一些其他方面的數(shù)據(jù),但是每一類型的數(shù)據(jù)肯定都是有自己的問題的。 機器人的真實的數(shù)據(jù)是比較貴的,受限于機器人的硬件場地、操作員的收集速度等等因素,所以大家有了很多改進(jìn)方法,不僅可以依靠真實機器人本體,也可以做一些低成本的本體,甚至不用做完整的本體,只有一些穿戴式的傳感器設(shè)備,都是可以去采集的。

其實我們也用了很多生成模型去做合成數(shù)據(jù),但合成數(shù)據(jù)主要是緩解一些視覺和現(xiàn)實的分布差異問題,它很難去生成帶有物理交互過程的數(shù)據(jù),這種數(shù)據(jù)還是得來于現(xiàn)實世界的采集。 還有一類數(shù)據(jù),就是人類的視頻數(shù)據(jù)。這個規(guī)模非常非常大,多樣性也很多,成本相對來講也比較低,我們也幫很多公司在做這方面的探索。但要靠這些數(shù)據(jù)幫機器人做動作級的生成還是很困難的,現(xiàn)在具身模型從視頻數(shù)據(jù)里學(xué)到的,還是在動作意圖上,我們從人類的視頻里,讓模型學(xué)到了一些高級的語義理解、一些任務(wù)規(guī)劃。

但是這種規(guī)劃是通過視頻,而不是語言的方式機器去學(xué)習(xí)的。包括像Genie 3,我覺得它是非常好的一個工作方式,它就是從互聯(lián)網(wǎng)、從游戲環(huán)境里面得到了大量高質(zhì)量的數(shù)據(jù),所以通過視頻生成的方式,可以做一些動作控制,是未來是一個很好的方向。雖然這個環(huán)境相比于現(xiàn)實有些簡化,但它仍然可以作為訓(xùn)練的環(huán)境,去幫你去做這種交互。 所以在數(shù)據(jù)上我們還有工作要做,我想每家公司在數(shù)據(jù)的投入占比可能都不太一樣,這也取于整個公司的綜合的實力,比如運營能力、硬件的水平,對數(shù)據(jù)的使用規(guī)劃不一樣,會讓你的數(shù)據(jù)成本也不一樣。

中國和美國相比,可能硬件成本、人力成本是比較大的差異。就算在同一個地區(qū),運營能力、數(shù)據(jù)過濾、清洗、任務(wù)生成分發(fā)、不同的場景里面的數(shù)據(jù)采集能力、場景的快速搭建以及恢復(fù)的能力,這都會影響數(shù)據(jù)成本。

泓君:所以你們公司的數(shù)據(jù)成本類比于其他機器人公司,大概是在什么水平?

王昊:這個很難在不同公司之間進(jìn)行比較,因為大家對數(shù)據(jù)質(zhì)量、多樣性的要求可能不一樣。但是對于我們公司來講,數(shù)據(jù)肯定是在整個研發(fā)成本里占相當(dāng)大的比例了。

泓君:在今年的9月8日,你們WALL-OSS的開源模型是正好上線了,請你給大家簡單地介紹一下,你們的這個開源模型是什么?以及它的行業(yè)特點是什么?

王昊:我們是持續(xù)地發(fā)揚開源精神,也吸收了很多經(jīng)驗,所以是用了大概幾萬小時的真實世界的數(shù)據(jù),訓(xùn)練了一個具身的基礎(chǔ)模型。

我們是在一個統(tǒng)一的框架下面,讓它可以既可以去做思維鏈、也可以做動作的生成。我們基于已經(jīng)訓(xùn)練好的基礎(chǔ)的視覺語言模型去做擴展,讓它具備比較強的視覺理解、空間推理、多語言的指令遵循能力,同時它的動作的生成精度也比較高。這是我們觀察到的,目前具身的開源模型上還比較欠缺的一些能力,我們也希望這次開源能夠?qū)呱碇悄苄袠I(yè)有比較好的補充,讓大家可以更好地用我們的基礎(chǔ)模型,去做一些長程任務(wù)、解決一些復(fù)雜任務(wù)。

要解決這些長程任務(wù),就需要更好的語言遵循、更好的空間以及因果的推理,也希望我們這種端到端的推理、規(guī)劃加動作的執(zhí)行模型,可以發(fā)揮作用,被社區(qū)用起來。

泓君:所以你們模型主打的點是什么?我覺得行業(yè)里面做模型玩家們,方向都還挺不一樣的,比如有些是專注在精細(xì)的操作上的,像谷歌就很擅長于折紙的這些動作,像PI是希望有更強的泛化能力。如果用一句話去總結(jié)你們的優(yōu)勢,你覺得你們在機器人領(lǐng)域最關(guān)注的點是什么?

王昊:我們最關(guān)注的點是機器人的泛化和它的長程任務(wù)的解決能力。解決長程任務(wù)就意味著,它一定得有比較強的泛化能力,因為解決任何一個長序列的任務(wù),它背后面臨的都是變化的場景,這個任務(wù)可能遇到各種失敗情況、各種沒見過的操作對象,所以都需要它有很強的泛化。

泓君:比如那些長而復(fù)雜的問題,請大家舉一個例子。

王昊:其實我們在現(xiàn)實中把機器人用到任何一個場景,都是長而復(fù)雜的。比如我要完整地把一個餐桌收拾好,它就是一個長而復(fù)雜的任務(wù),因為你要操作對象的種類很多:你可能有硬的東西的操作,比如說餐具;也有一些液體需要去操作,比如把食物殘渣、流體倒到固定的地方;你還可能有很多不規(guī)則物體的處理,比如說垃圾、殘留物;有很多柔性的東西需要去處理,比如說擦桌子,折疊毛巾等等;可能需要把不同的東西放在不同的位置、還要比較小心地去處理可能灑出來或者其他的情況。

所以在收拾餐桌這個任務(wù)中,它執(zhí)行起來并沒有固定的順序,說先做什么、后做什么,都是在一個長程任務(wù)里面,把各種子任務(wù)給穿插起來。人其實很難劃分每個任務(wù)的邊界是什么,這種任務(wù)就得靠模型端到端自主去決策、實時去規(guī)劃,把整個任務(wù)完全做完的。

泓君:那在你們實驗室里面,評測機器人任務(wù)做得如何時,實際訓(xùn)練是什么樣的場景?

王昊:我們實際訓(xùn)練雖然也包含了其他的一些場景,但還是以家庭的場景為主,因為家庭場景其實基本上已經(jīng)包含了具身智能需要解決的所有任務(wù)。像收拾整個餐桌、布置餐具、收拾整個衛(wèi)生間、收拾房間,這些都是我們的訓(xùn)練任務(wù),我們也實實在在地看到,機器人在處理這些長序列的閉環(huán)任務(wù)時,體現(xiàn)出來了操作能力、泛化能力的進(jìn)步,這點確實讓我們的信心大增。我們也希望能借助自變量的開源模型,讓大家看到現(xiàn)在的基礎(chǔ)模型,在解決長程任務(wù)這種泛化場景的時候所體現(xiàn)出來的能力。

03 模型架構(gòu)與技術(shù)路徑

泓君:我注意到不管是PI還是自變量,都是在做開源模型,為什么大家想做開源?開源對整個生態(tài)的好處是什么?

柯麗一鳴:我覺得能和業(yè)界、社區(qū)分享一下模型,并且能夠幫助到大家很快地上手,可能也是在變相地降低機器人模型研究的一個入門門檻吧。其實在公司內(nèi)部,開源也是一種(研發(fā)的)過程,就是從決定要開源,然后抽調(diào)大家把剛剛發(fā)表的研究去重構(gòu)代碼,然后做測試,再和社區(qū)的一些開發(fā)者溝通看能不能跑得起來。這是一項不簡單的工作,但是真的看到我們的模型,在一些我們自己都沒想到的機器人上面跑起來了、別人能用我們的模型做很多不同的實驗,還是很開心的,現(xiàn)在大家都很樂意去開源,我覺得是很好的氛圍。

泓君:我看得出來你很熱愛機器人。

王昊:我一直都覺得開源是非常重要的事情,開源意味著我們可以站在巨人的肩膀上繼續(xù)前進(jìn)。我們可以基于已有成果做更多的改進(jìn),社區(qū)開發(fā)者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經(jīng)驗,然后把這個技術(shù)路線思考得更加深入。一般的高校、或者一些小型的企業(yè),他們可能沒有能力去做基礎(chǔ)模型,但是如果能夠使用這些基礎(chǔ)開源模型,他們就可以去做應(yīng)用,把它用到各個方向,豐富整個生態(tài),這也是一個非常重要的事情。

AI 的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到AI和大模型的研究是非常離散的,在真正形成一個社區(qū)之前,可能做研究的只有兩、三個人,大家瘋狂地研究一個算法,更多是以論文發(fā)表作為第一要務(wù),目的是占據(jù)技術(shù)的主動權(quán)。但有了社區(qū)和整個開源體系之后,大家更在乎的是,怎么在一個工程化的體系下,把這個工程基礎(chǔ)打好,讓這個社區(qū)更加繁榮?個人是通過什么方式給社區(qū)做貢獻(xiàn)?大家的榮譽反而來自于這樣的事情。這樣也就會促使開源模型的技術(shù)不停地發(fā)展。所以我覺得開源是一個非常好的事情,既可以從中學(xué)習(xí)到新的東西,也可以看到你的東西可能對別人幫助。

泓君:大家覺得現(xiàn)在模型公司在判斷一個模型好壞的核心因素是什么?現(xiàn)在大家不僅在拼各自采集的數(shù)據(jù)質(zhì)量,同時在模型層可能有非常多不一樣的技術(shù)路徑,比如說是不是用高頻控制的方式,是不是用 system 2+system 1的兩個system的架構(gòu)?大家可以聊一下模型層上不同的技術(shù)路徑,以及你們看好的方式?

王昊:從自變量機器人公司的角度來講,我們是非常相信,數(shù)據(jù)驅(qū)動的端到端的模型搭建的方式的,我們開源了WALL-OSS模型,也是基于這樣架構(gòu)去構(gòu)建的。不管有多少模態(tài)、不管你是語言、視覺還是動作,它們都應(yīng)該在同一個空間下被表征、被對齊,分層對它們來講就是一個非常不利的因素,所以我們應(yīng)該盡可能避免人類的分層帶來信息的損失。

但是從另外一方面來講,你都端到端訓(xùn)練了,那模型可以做得很大,可以做到幾百億、千億的矩陣模型,那真正要去使用的時候怎么辦?不可能在端側(cè)需要非常高頻控制去部署這么大模型,所以在推理的時候,我們反倒覺得模型是可以分開的,可以把更慢的任務(wù)過程可以放在云端去處理,更快的任務(wù)過程放在物理端側(cè),再由梯度回傳更新整個系統(tǒng)參數(shù),這個過程是非常非常重要的。

泓君:我們說其實兩層架構(gòu)的模型,它有一點點類似于人腦的大腦跟小腦,比如說有一層負(fù)責(zé)理解與規(guī)劃,還有一層就是負(fù)責(zé)高頻輸出的控制,就像大腦去掌管認(rèn)知跟決策,小腦去掌管運動控制。為什么你們不用這樣的一個架構(gòu)?

王昊:我們是一種端到端的訓(xùn)練,很難在模型內(nèi)部把某些參數(shù)完全分成system 2,比如把某些系統(tǒng)分成快系統(tǒng)、直覺系統(tǒng)等,但是我們可以訓(xùn)出一個非常大的端到端模型,它可以具備非常強的具身通用能力,讓具身的通用能力既包含理解推理,也包含動作生成。

但你實際在部署的時候可以有很多方式,比如把擅長動作部分給蒸餾壓縮出來,然后擅長語言推理、視覺推理的部分給它放在云端等等。利用類似的方式部署,在推理過程中做很多優(yōu)化,但訓(xùn)練的時候它還是一個統(tǒng)一架構(gòu)。

泓君:就是推理跟控制在訓(xùn)練的時候是在一起的。那Kay你們是怎么做的?

柯麗一鳴:我們現(xiàn)在還是非常開放的一種態(tài)度,我們覺得現(xiàn)在機器人大模型還沒有達(dá)到像GPT-2的時刻,我們希望能夠盡快地達(dá)到這個地步,但是現(xiàn)有的模型和表現(xiàn)還是有一些差距。數(shù)據(jù)和數(shù)據(jù)驅(qū)動的算法是我們最看重的東西,但是具體怎么樣去設(shè)計這個算法?模型的架構(gòu)如何搭建?甚至硬件系統(tǒng)怎么設(shè)計?數(shù)據(jù)怎么收集的?我覺得一切工作還是為了數(shù)據(jù)驅(qū)動在服務(wù)。

泓君:所以它到底是把推理跟控制分開做成兩個,還是說端到端的解決是完全放在一起?你覺得這個其實反而不是現(xiàn)在最重要的問題,可能這幾種路徑都可以,我感覺現(xiàn)在整個機器人模型領(lǐng)域大家的技術(shù)路徑看起來也是沒有統(tǒng)一的。

柯麗一鳴:我覺得這句話非常有意思,我最近在和一個學(xué)弟吃飯的時候還在聊,因為大概從三、四年前開始,我們能感知到整個行業(yè)是有變化的,之前學(xué)術(shù)界會更加的散一些,大家的方向、想法、算法還有關(guān)注的問題都非常的不一樣,而現(xiàn)在自從 VLA 就視覺語言動作模型出世以后,變得流行起來,而且很多人跟進(jìn),反而讓我覺得現(xiàn)在越來越多的方面開始趨同化了。

泓君:你覺得趨同化表現(xiàn)在哪方面?從哪些各種各樣不同的方向變成了同一個方向?這個同指的是什么?

柯麗一鳴:其中之一是模仿學(xué)習(xí)。我是2018年開始做模仿學(xué)習(xí)的,那個時候行業(yè)研究不多,也沒有很多真機的研究可以 follow ,在當(dāng)時會覺得這是一個不那么主流或者大眾的一個想法,2018年當(dāng)時是已經(jīng)看到了波士頓這個跳,畢竟人形機器人跳即使到現(xiàn)在直接用模仿學(xué)習(xí),可能也是一個比較難的挑戰(zhàn)。

業(yè)內(nèi)的很多人開玩笑的時候就會說, 60 年代咱機器人就把人類送上月球了,機器人就朝著火星去了,這是成功的機器人的方法,它就直接變成火箭學(xué)科了,只有我們這些機器人研究者還沒搞明白它怎么做成功的,還在這里搞機器人,雖然是玩笑,但也說明這個行業(yè)內(nèi),有一波又一波的接力探索,就包括 2000 年左右自動駕駛的探索,還有后面這些人形機器人,波士頓動力為首的這些力量。

2000 年初,其實還有一個Willow Garage,也是在美國機器人學(xué)術(shù)界里面比較有名、當(dāng)時很紅火的一家創(chuàng)業(yè)公司,當(dāng)時他們就主推了一個叫PR 2 的機器人,也算是移動、但不是人形機器人的一個老祖宗。所以從之前那個時代看的話,我會覺得大家的研究方向都不一樣,有的人做車、有的人做手,這些都是散布在機器人行業(yè)里各處的,而現(xiàn)在確實因為大模型的紅火,模型的通用性被強調(diào),很多人開始想說能不能把這些東西糅合在一起,這算是一個非常有意思的趨同化的發(fā)展吧。

泓君:我看到現(xiàn)在業(yè)界,從創(chuàng)業(yè)方向看的話,大家又有很多的不一樣,比如說有足式機器人,下面是一個人形機器人自己走路的;還有輪式機器人,它可能就注重于手部的操作,走路的部分它用輪子滾就可以了。很多公司也在想,我能不能有一個上半身跟下半身都能同時操作的機器人?因為很多機器人它可能要么上半身,要么下半身,但整體上大家可能都想把模型做得更大、功能做得更通用。

柯麗一鳴:我覺得“同”說的是,很多原來做在不同形態(tài)機型上的人,會用不同方法,現(xiàn)在大家都非常的開放,會說我們要不要試一試視覺語言的這種大模型,你說的這種上半身、下半身的形態(tài),其實 π?.?做的就是這個事。

泓君:Kay覺得現(xiàn)在整個機器人模型連GPT-2它的水平都不夠,王昊你怎么看?

王昊:我認(rèn)為到GPT-2的水平了。用這個類比的話,GPT-1基本上是一個概念驗證,通過預(yù)訓(xùn)練加數(shù)據(jù)的方式,可以處理一些任務(wù)。但到GPT-2的時候,我們開始驗證它規(guī)模化的力量,通過大幅的增加模型參數(shù)和訓(xùn)練數(shù)據(jù),就可以展示出規(guī)?;瘞淼哪芰μ嵘???赡芪覀円?guī)模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌現(xiàn)了,所以我會覺得現(xiàn)在就是在GPT-2的這個階段。

我們現(xiàn)在基本上已經(jīng)知道:規(guī)?;俏ㄒ坏目煽柯窂搅耍晕覀円谶@個階段,瘋狂地積累數(shù)據(jù),提升模型規(guī)模,同時搭建支持具身智能的各種基礎(chǔ)設(shè)施,所以說人形機器人目前是已經(jīng)處于GPT-2的階段是比較客觀的。

泓君:那你覺得機器人領(lǐng)域到定義的GPT-3時刻,大概還有多長的一段路要走?

王昊:現(xiàn)在在談我們在機器人領(lǐng)域的GPT-2到GPT-3 ,從語言模型來講,是有一個不一樣的地方。當(dāng)年在做語言模型時候,大家不知道這條路線是否真的可以走通,中間產(chǎn)生了很多分散式的探索又匯聚的過程?,F(xiàn)在我們是明確的知道、而且看到了這種規(guī)?;瘞淼奶嵘?,所以對于我們來講,路徑和目標(biāo)更加明確、更加唯一,所以我預(yù)測會在1~2年的時間,我們完全可以達(dá)到GPT-3的這個水平。

泓君:要1~2年的時間還挺快的。我注意到在美國,我們聊起機器人的話,大家都是想做這種通用機器人,然后再朝一個超大規(guī)模的模型做,如果類比于自動駕駛的話,就是美國上來就想做的是L4、L5級的自動駕駛。但是我們看到中國的發(fā)展方向,我感覺還是有很多的小而精的創(chuàng)業(yè)路線,就好比中國企業(yè)在做自動駕駛的時候,首先想到的是能不能在一個園區(qū)、一個碼頭,把這個場景先落地了,做一個非常垂直的小而精的產(chǎn)業(yè)。二位怎么看機器人的這兩種方式,以及在產(chǎn)業(yè)的發(fā)展上,最終結(jié)果會有什么不一樣?哪條路徑能跑出來?

王昊:我覺得這個得結(jié)合中美各自的優(yōu)勢來看這個問題。確實美國的現(xiàn)在路徑就是自上而下的不計成本的,他們會優(yōu)先做一個接近于AGI的超大模型,有這個基礎(chǔ)之后,再去想應(yīng)該怎么去做。這也是因為美國在算力上的優(yōu)勢,最頂級的芯片、最大量的算力集群都在美國,所以路徑更加傾向于用無限的算力,去探索能力的邊界。

但中國其實芯片上確實有一定的限制,所以這也倒逼了中國的企業(yè),研究思考在有限的算力下如何實現(xiàn)更高的效率,但說中國企業(yè)現(xiàn)在在走小而精的技術(shù)路線,我倒不是很同意這一點。

中國其實是擁有全球最大的互聯(lián)網(wǎng)生態(tài)移動應(yīng)用場景,這個場景優(yōu)勢以及中國在硬件領(lǐng)域擁有非常完善的產(chǎn)業(yè)鏈,這個是美國其實沒法比的。其實國內(nèi)有很多頂尖的研究機構(gòu)和非常好的創(chuàng)業(yè)公司,都是非常深刻地去從第一性原理的角度去思考,非常深刻地去理解Scaling law這件事情,它其實是通往AGI的必經(jīng)之路。

我們堅信必須得有一個強大的、無所不能的基礎(chǔ)模型,才有可能把這基礎(chǔ)模型用到各種垂直領(lǐng)域,讓它得到更加高效的部署,但這個過程不能反過來,必須得有大而通用的基礎(chǔ),才會有小而精的發(fā)展。在實現(xiàn)的路徑上,其實國內(nèi)更像是上下結(jié)合,雙軌并行,一方面盡可能多的去考慮場景,尤其是考慮這種通用泛化的場景可能帶給我們什么,同時又去迭代我們自己的通用基礎(chǔ)模型的能力,才能更快地讓機器人在現(xiàn)實世界獲得更好的反饋,幫助大家實現(xiàn)商業(yè)閉環(huán)以及開始形成數(shù)據(jù)飛輪。

泓君:所以你個人也是想做通用的模型的?

王昊:對,我們一定會去做通用的模型,這個是很重要的。

柯麗一鳴:我覺得現(xiàn)在兩邊各自的生態(tài)環(huán)境有很多的歷史因素。一方面國內(nèi)經(jīng)濟高速發(fā)展,經(jīng)驗足夠,很多創(chuàng)業(yè)的成功,都是因為公司活下來了、公司商業(yè)化能夠做好,就促使了國內(nèi)創(chuàng)業(yè)的人會從解決問題、解決用戶的需求來出發(fā),因此會有很多人去深耕垂直領(lǐng)域。之前我還在網(wǎng)上看到什么中國的除草機器人“暴殺”這個歐美家庭,看到它以后,我覺得我都要給我朋友去安利,我覺得中國企業(yè)是很擅長做這樣一個商業(yè)化的一個事情。

同時,中國制造業(yè)擺在那里,機器人確實是有很大的硬件需求,在國內(nèi)針對商業(yè)需求做硬件這個優(yōu)勢,現(xiàn)階段來看,就沒有誰能夠比得過國內(nèi)。因此國內(nèi)現(xiàn)在的生態(tài)里,很多人的創(chuàng)業(yè)都是一邊保證著商業(yè)的成功,一邊做一些其他探索。

之前我說自己畢業(yè)的這一年比較幸運,因為如果早兩年畢業(yè)(可能我就做不下去了),當(dāng)時有很多(早畢業(yè)的)朋友,他們機器人研究做得很優(yōu)秀,可是都轉(zhuǎn)行了,都轉(zhuǎn)去做大語言模型、做強化學(xué)習(xí)。做機器人能讓你鍛煉到技術(shù),但并不是做機器人本身,與其說美國很多公司一直都在做大而通用的模型,而不如說是這個時代恰巧讓我們在2024年前后,涌現(xiàn)了一批相信這個道路的人。

這個恰巧的因素也是歸功于OpenAI把大語言模型這件事做通了,給整個行業(yè)的一個反思和震撼。直到現(xiàn)在,我在加入PI的時候,和他們聊天討論要不要去做,我就在問:你們做人型機器人行嗎?你們要做人型的話是不是要燒很多錢?道路怎么走?商業(yè)化怎么走?這公司怎么活下來呀?從商業(yè)化的角度上來說,其實并不是那么明朗的一件事情,所以我才會感嘆這些公司真的是鳳毛麟角,能夠有這么一個時機成立,能夠有人去相信他也許能把事情做成。

而在這樣的公司出現(xiàn)之前,其實美國的工業(yè)界是有很多機器學(xué)習(xí)的應(yīng)用公司的,其中可能比較有名,也和我們公司淵源頗長的一個公司,就是Covariant Robotics,這個是伯克利的一位非常有名的教授所創(chuàng)立的,這些個人的創(chuàng)業(yè)的經(jīng)歷啟發(fā)到了后面的人。因為在外界看來, Covariant就是因為深耕了一個商業(yè)的點,所以它商業(yè)做成了,但是它通用就沒有做得那么好。我們公司最大的目標(biāo)是想要做通用、想要做數(shù)據(jù)驅(qū)動,所以我們是很小心地避免做一些短期的商業(yè)項目,有這么一個歷史因素,導(dǎo)致了現(xiàn)在的公司生態(tài)是這樣。

泓君:我理解Covariant其實更多的是做靈巧手,而不是在研究模型。

柯麗一鳴:這件事情有點好笑,因為他們公司剛剛起步的時候,創(chuàng)始人Peter Abbeel作為機器學(xué)習(xí)機器人的一個領(lǐng)軍人物,也表達(dá)過他們想把機器學(xué)習(xí)的機器人做到現(xiàn)實生活里,做到通用,當(dāng)然可能是因為他們在物流上面做的太成功了,大家就記得他們的另一種模樣了。

泓君:所以他們內(nèi)部也是在研究通用的解決方案跟模型層的解決方案?

柯麗一鳴:我相信他們在早期的時候應(yīng)該是有這種探索的,因為當(dāng)年他們開始做的時候,確實沒有人知道機器學(xué)習(xí)、機器人的應(yīng)用能做成什么樣的,所以他們肯定是做了一些探索的,現(xiàn)在的很多企業(yè)和研究者就是受到他們的經(jīng)驗的啟發(fā),選擇走了現(xiàn)在的路。

04 商業(yè)化與落地前景

泓君:我看大家在研究機器人的時候,都希望機器人能夠幫大家做一些家務(wù),比如說疊床單、疊衣服,把碗塞進(jìn)洗碗機,大家覺得未來真的能有個這樣的家用機器人幫我們做家務(wù)嗎?你們覺得還需要多久才能擁有這樣的通用型機器人?

王昊:做家務(wù)看似簡單,但我覺得可以作為一個完美的機器人的圖靈測試了。因為這個過程包含了具身智能機器人領(lǐng)域所有的精細(xì)動作,比如切菜,要有精細(xì)的力道控制;一些易碎東西處理時,要有非常豐富的感知;也有一些長程規(guī)劃,比如得看菜譜去做菜、看說明書去使用某個電器、以及各種意外情況的處理等等,基本上已經(jīng)包含了機器人的所有挑戰(zhàn)。

要完全實現(xiàn)到這個程度,還是得分步走。我覺得在兩、三年以內(nèi),我們可以在半結(jié)構(gòu)化的環(huán)境里面,讓機器人做一些簡單的事,比如僅限于廚房內(nèi),幫你做一些簡單的菜、洗碗等等,這些我覺得還行,但說如果要在完全開放的廚房里面、所有的事情能做到,我覺得還需要五年左右的時間。

泓君:五年左右,實現(xiàn)機器人在廚房里面做飯、洗碗?

王昊:對,我覺得是有可能去實現(xiàn)的。但那時還是有很多情況需要大家容忍,比如雖然機器人在各種任務(wù)上的成功率都比較高了,但也并不是100%,還是存在失誤的可能,所以如果我們允許機器人可以和人協(xié)作、獲得人類的幫助,我覺得5年是可以進(jìn)入到家庭里面的。

我現(xiàn)在是比較樂觀的,因為我覺得機器人領(lǐng)域的發(fā)展走在正確的道路上,有了Scaling law這樣快速發(fā)展的規(guī)律,這在整個人類的歷史演進(jìn)中,我都覺得很幸運的事情,因為有一條看起來很明確路徑,可以告訴我們怎么做:你只要投入算力和數(shù)據(jù)、迭代模型的架構(gòu)、提升機器的能力,那就能肉眼可見地看到機器人的提升。

所以雖然現(xiàn)在有很多問題,讓我們覺得很困難,但放在5年后再去看,都是可以被解決的,而且模型一定可以跨越到一個閾值、進(jìn)入到新的階段,所以我預(yù)測5年這個時間是非常合理的。

另外關(guān)于5年這個時間點,其實也需要審慎一點,因為機器人不像純軟件那樣可以輕資產(chǎn)快速迭代,機器人還是受限于物理世界的物理定律,硬件得發(fā)展,還要全方位突破數(shù)據(jù)、算法、供應(yīng)鏈、商業(yè)模式等等因素,才有可能真正做到那個地步。

泓君:我覺得是一個蠻大膽的預(yù)測。

柯麗一鳴:我覺得5~10年落地應(yīng)該是可以的。現(xiàn)在的模型能力和算法顯然還沒有達(dá)到“我們只要商業(yè)化它就能做出產(chǎn)品”的這個地步,但行業(yè)的迭代速度確實非???,再加上大家有這么多的熱情和投入,我相信在兩、三年里,甚至可能每一年,都會有新的很大的變化。

另外,我們具身智能行業(yè)其實和自動駕駛、甚至火箭升天這些傳統(tǒng)的機器人行業(yè)有些不一樣的地方。我們可能更像掃地機器人,就是最早的掃地機器人其實不完美,需要用戶明白它能做什么、不能做什么,這就是一個比較好的商業(yè)化典范。以這個為目標(biāo)的話,我保守估計是需要5~10年做出這樣的產(chǎn)品,它可能偶爾會出錯,但是它犯的錯是在用戶的范圍里的,這樣也能成為一個可以幫到用戶的產(chǎn)品。

我有個問題很好奇,有的機器人公司是以“產(chǎn)業(yè)化”為目標(biāo)的,想要做一些商業(yè)化應(yīng)用的東西,這些公司該如何兼顧商業(yè)化與研發(fā)?

王昊:我覺得這個問題挺好的。因為作為創(chuàng)業(yè)公司,從第一天我們就在思考,怎么做既能仰望星空,也能腳踏實地?由于現(xiàn)實的因素,不可能達(dá)到AGI再去思考商業(yè)化,我們現(xiàn)在的策略就是,盡可能在我們通用模型的基礎(chǔ)上,讓它進(jìn)入一些場景里做一些事情,這個場景必須和最終想實現(xiàn)的通用場景是比較接近的、它是可以去泛化的,所以我們盡可能的不去碰那些比較封閉的場景。

像一些公共服務(wù)、養(yǎng)老服務(wù)的場景就非常好,這樣場景和通用機器人的最終應(yīng)用場景有一些類似的地方,能涉及一些復(fù)雜的任務(wù),比如和人的接觸,也涉及到?jīng)]有那么復(fù)雜的,比如只是打掃衛(wèi)生、拿東西、處理食材等等。從這個角度來看,這些就是好的場景,因為和最終的目標(biāo)接近,你可以在這些場景里,不斷地迭代、檢驗通用模型的能力,也可以獲得非常寶貴的數(shù)據(jù)反饋。但要保持這個選擇初心,很重要的一點是:得有很強的商業(yè)化路徑的定力。

另外一個比較重要的點,是公司的組織能力。因為一個公司的組織能力、組織結(jié)構(gòu),決定了這個公司的上限,我覺得公司一定要以通用模型、以基礎(chǔ)模型作為目標(biāo),達(dá)到一個完全沒有壁壘、高效協(xié)同的一個組織,才可能促使你在中間邁出的每一步都不會走錯,最終能使你達(dá)到終極目標(biāo)。

泓君:所以你是比較注重訓(xùn)練的場景是否能有商業(yè)化應(yīng)用的,而不是一個在封閉化場景里面就能實現(xiàn)的一個需求。剛剛說的家用機器人幫我們做飯、洗衣、疊被子,這樣的使用場景能不能讓機器人有足夠銷量,去養(yǎng)活一個機器人公司?

王昊:我覺得是很有希望的。因為現(xiàn)在整個機器人的產(chǎn)業(yè)的規(guī)模還沒有起來,所以等規(guī)模起來后,硬件成本還有非常大的降低空間。隨著模型水平的提升、加上硬件成本降低,幾年后的價格,會讓用戶的接受度更高。

其次從這個功能角度來講,如果我們可以幫普通用戶去做很多事,大家會非常樂意接受這樣的產(chǎn)品?,F(xiàn)在大家難以接受機器人,是因為機器人似乎只能跳跳舞、做一些情緒價值的陪伴,好像沒有其他功能,以前機器人沒機會向普通用戶展示各種應(yīng)用,但未來我覺得是有很多展示機會的,這個想象的空間是很大的。


反饋
聯(lián)系我們
推薦訂閱