OpenAI機器人，一出手就是王炸

機器之能·2024-03-14

關(guān)注

網(wǎng)友：波士頓動力要整點新舞步，才能讓Figure 01下熱搜。

編者按：本文來自微信公眾號，機器之能（almosthuman2017），作者：機器之心編輯部，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

「借助 OpenAI 的能力，F(xiàn)igure 01 現(xiàn)在可以與人全面對話了！」

本周三，半個硅谷都在投的明星機器人創(chuàng)業(yè)公司 Figure，發(fā)布了自己第一個 OpenAI 大模型加持的機器人 demo。

這家公司在 3 月 1 日剛剛宣布獲得 OpenAI 等公司的投資，才十幾天就直接用上了 OpenAI 的多模態(tài)大模型。

如你所見，得到 OpenAI 大模型能力加持的 Figure 01 現(xiàn)在是這個樣子的。

它可以為聽從人類的命令，遞給人類蘋果。

將黑色塑料袋收拾進框子里。

將杯子和盤子歸置放在瀝水架上。

需要強調(diào)的是：你看到的這一切，只用到了一個神經(jīng)網(wǎng)絡。

廣大網(wǎng)友在看到如此驚艷的 demo 后，對機器人的發(fā)展速度感到震驚，我們似乎正處在這場洶涌的進化浪潮中。甚至有人感嘆，已經(jīng)準備好迎接更多的機器人了。

還有網(wǎng)友調(diào)侃道：「波士頓動力：好的，伙計們，這是一場真正的競爭。讓我們回到實驗室，設(shè)計更多舞蹈套路?！?/p>

所有這些，全是機器人自學的！

Figure創(chuàng)始人Brett Adcock表示，視頻中Figure 01展示了端到端神經(jīng)網(wǎng)絡框架下與人類的對話，沒有任何遠程操作。并且，機器人的速度有了顯著的提升，開始接近人類的速度。

Figure機器人操作高級AI工程師Corey Lynch介紹了此次Figure 01的技術(shù)原理。他表示，F(xiàn)igure 01現(xiàn)在可以做到以下這些：

描述其視覺體驗
規(guī)劃未來的行動
反思自己的記憶
口頭解釋推理過程

他接著解釋道，視頻中機器人的所有行為都是學到的（再次強調(diào)不是遠程操作），并以正常速度（1.0x）運行。

在具體實現(xiàn)過程中，他們將機器人攝像頭中的圖像輸入，并將機載麥克風捕獲的語音文本轉(zhuǎn)錄到由 OpenAI訓練的大型多模態(tài)模型中，該模型可以理解圖像和文本。該模型對整個對話記錄進行處理，包括過去的圖像，從而獲得語言響應，然后通過文本到語音的方式將其回復給人類。

此外，該模型負責決定在機器人上運行哪些學習到的閉環(huán)行為以完成給定的命令，從而將特定的神經(jīng)網(wǎng)絡權(quán)重加載到GPU上并執(zhí)行策略。

將Figure 01 連接到大型預訓練多模態(tài)模型為其提供了一些有趣的新功能。Figure 01 + OpenAI 現(xiàn)在可以：

描述其周圍環(huán)境。
使用常識推理做出決定。例如，「桌子上的盤子和杯子等餐具接下來可能需要放進瀝水架」。
將「我餓了」等模棱兩可的高級請求轉(zhuǎn)化為一些適合上下文的行為，例如「遞給對方一個蘋果」。
用簡單的英語描述為什么它執(zhí)行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用物品」。

理解對話歷史的大型預訓練模型為Figure 01提供了強大的短期記憶

考慮一個簡單的問題：「你能把它們放在那里嗎？」

其中「它們」指的是什么？「那里」又是哪里？正確回答這個問題需要反思記憶的能力。

通過預訓練模型分析對話的圖像和文本歷史記錄，F(xiàn)igure 01快速形成并執(zhí)行計劃：1）將杯子放在瀝水架上，2）將盤子放在瀝水架上。

關(guān)于學到的低級雙手操作，所有行為均由神經(jīng)網(wǎng)絡視覺運動transformer策略驅(qū)動，將像素直接映射到動作。這些網(wǎng)絡以10hz 的頻率接收機載圖像，并以200hz的頻率生成 24-DOF 動作（手腕姿勢和手指關(guān)節(jié)角度）。

這些動作充當高速「設(shè)定點」，以供更高速率的全身控制器跟蹤。這是一個有用的關(guān)注點分離，其中：

互聯(lián)網(wǎng)預訓練模型對圖像和文本進行常識推理，以得出高級規(guī)劃。
學習到的視覺運動策略執(zhí)行計劃，執(zhí)行難以手動指定的快速反應行為，例如在任何位置操縱可變形的袋子。
全身控制器確保安全、穩(wěn)定的動力，例如保持平衡。

最后他表示，即使在幾年前，自己還認為人形機器人規(guī)劃和執(zhí)行自身完全學得行為的同時與人類進行完整的對話是幾十年后才能看到的事情。顯然，現(xiàn)在已經(jīng)發(fā)生了太多變化。

Figure，具身智能時代最熱創(chuàng)業(yè)公司

最近，生成式 AI 的競爭正在走向長文本、多模態(tài)，各家科技公司和機構(gòu)也沒有忘記投資下個熱點——具身智能。

具身智能，對于計算機視覺、機器人等領(lǐng)域來說是一個很有挑戰(zhàn)的目標：假設(shè) AI 智能體（機器人）不僅能接收來自數(shù)據(jù)集的靜態(tài)圖像，還能在三維虛擬世界甚至真實環(huán)境中四處移動，并與周圍環(huán)境交互，那我們就會迎來技術(shù)的一次重大突破，從識別圖像等機器學習的簡單能力，轉(zhuǎn)變到學習如何通過多個步驟執(zhí)行復雜的類人任務。

被生成式 AI 龍頭 OpenAI 看好的具身智能，最有希望通向具身智能的公司，似乎就是這家 Figure。

3月1日，F(xiàn)igure 宣布完成驚人的 6.75 億美元 B 輪融資，公司估值達到 26 億美元。一眼望去，感覺半個硅谷都投了它：微軟、英特爾、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英偉達、貝索斯、「木頭姐」的方舟投資、Parkway Venture Capital、Align Ventures 等。

該公司的產(chǎn)品 Figure 01，據(jù)稱是世界上第一個具有商業(yè)可行性的自主人形機器人，身高 1.5 米，體重 60 公斤，可承載 20 公斤貨物，采用電機驅(qū)動。它的可工作時長是 5 小時，行走速度每秒 1.2 米，可以說很多指標已經(jīng)接近人類。

自 2023 年 1 月以來，人們對 Figure 的關(guān)注度一直在上升。雖然到目前為止，公司一共才發(fā)布過四個 demo 視頻。其中的一個展示了 Figure 01 是如何制作咖啡的：

據(jù)Figure表示，機器人練習這些動作的方法是端到端的，神經(jīng)網(wǎng)絡的訓練時間是10小時。

在 2 月 27 日的視頻里，F(xiàn)igure 01 自主完成了一個典型的物流環(huán)節(jié)任務——搬運空箱。

當然，速度還是比人類慢了很多。不過在這些任務中，F(xiàn)igure 01 都是完全自主地執(zhí)行任務。所謂「完全自主」，是指只需將機器人放在地面上（無論放在屋里什么地方），在沒有其他用戶輸入的情況下，直接按開始就行。

在訓練過的大型視覺語言模型( VLM )幫助下，人形機器人會先識別、定位目標箱子，然后推理合適的拿放姿勢。接下來，F(xiàn)igure 01 會導航自己到目標跟前，檢測抓取點和手部力量，嘗試抓取成功并將箱子放到傳送帶上。

這些技術(shù)亮點也是 Figure 和一直希望回歸機器人領(lǐng)域的 OpenAI 達成合作協(xié)議的重要原因之一——將 OpenAI 的研究與 Figure 的機器人經(jīng)驗結(jié)合起來，為人形機器人開發(fā)下一代 AI 模型。OpenAI 也希望將自己的高性能多模態(tài)大模型擴展到機器人領(lǐng)域。

除了接受大筆風投之外，F(xiàn)igure 也在積極拓展落地場景。目前，F(xiàn)igure 01 已經(jīng)開始在寶馬位于南卡羅來納州斯帕坦堡的汽車工廠接受測試，人們計劃讓機器人替代人類從事一些危險度高的任務。

參考鏈接：
https://twitter.com/i/status/1767913661253984474
https://www.figure.ai/

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。