該論文作者來自中山大學、拓元智慧AI實驗室團隊,項目負責人為王廣潤博士。王廣潤,國家級“四青人才”、拓元智慧首席科學家、中山大學計算機學院副教授、博士生導師、華為戰(zhàn)略研究院人才基金獲得者、前牛津大學研究員,主要研究方向包括新一代AI架構、大物理模型、多模態(tài)生成式AI等。
論文題目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining
論文鏈接:https://arxiv.org/abs/2508.09822
項目主頁:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/
近日,由中山大學、拓元智慧AI實驗室聯(lián)合提出的全新“物理自回歸模型(Physical Autoregressive Model,PAR)”打通了“預判未來視頻幀—生成動作軌跡”的統(tǒng)一鏈路,將視覺幀與動作共同編碼為“物理token”,在無需動作預訓練的前提下即可學習物理世界的動態(tài)規(guī)律?;贛aniSkill基準,PAR 在PushCube任務上實現(xiàn)100%成功率,并在其余任務上與需要動作預訓練的強基線表現(xiàn)相當,顯示了從大規(guī)模視頻預訓練向機器人操控遷移的可行路徑。
四大核心技術點:
全局記憶的自回歸框架:構建從過去到現(xiàn)在的所有“觀察-動作”歷史,借鑒GPT等語言模型的工作模式,基于全部N個歷史token預測下一步(N+1步)最合理的行動。
統(tǒng)一的“物理token”表征:將幀與動作拼接為一個序列單元,直接建模機器人與環(huán)境的聯(lián)合演化;模型以自回歸方式逐步預測下一步視頻與動作。
連續(xù)空間的DiT去分詞器(de-tokenizer):以擴散Transformer(DiT)建模幀與動作的連續(xù)分布,避免離散量化帶來的誤差累積,并促進兩模態(tài)的相互增強。
面向控制的因果掩碼與效率機制:引入“動作對幀的單向注意力”,形成隱式逆運動學;同時結合并行訓練與KV-cache提升推理效率。
研究背景
在機器人操控領域,獲取大規(guī)模、標注完備的人類示教數(shù)據(jù)成本高昂?,F(xiàn)有不少方法把語言大模型用于行動策略,但文本與動作模態(tài)之間存在天然鴻溝。相比之下,自回歸視頻生成模型天生擅長“基于過去預測未來”,與動作生成的目標更一致,因此成為遷移“世界知識”的理想載體。
此外,要讓機器人“知行合一”,不僅要“想得明白”,更要“做得精準”?,F(xiàn)有的方法往往只依賴于“當前幀+前一幀”的“局部觀察”,缺乏對長程歷史的記憶。與之相比,具備全局記憶的自回歸框架,可通過歷史全量token預測未來狀態(tài),實現(xiàn)“視覺-動作”的全局關聯(lián)建模,有效降低機器人在動態(tài)場景中(如機器人抓取、物體堆疊)因“短視”導致的“動作漂移”問題。
方法:PAR 如何把“看見的未來”變成“下一步動作”
整體框架:從“看—想—做”的自回歸閉環(huán)
PAR 的核心想法是把機器人與環(huán)境的交互過程,統(tǒng)一描述成一串“物理token”。每個 token 同時包含這一刻的視覺畫面和動作片段。模型像講故事一樣按時間讀入這些token,用一個因果式Transformer形成對當前情境的理解,然后同時預測下一張將看到的畫面以及下一步要執(zhí)行的動作。新的畫面和動作再被接回序列,進入下一輪預測,形成“預測—執(zhí)行—再預測”的閉環(huán)。
直觀地說,PAR并不是先獨立學會“看視頻”,再額外學會“怎么動”,而是把兩件事合在一起、每一步都邊看邊想邊做。這種端到端的整體建模,避免了兩階段方法常見的分布偏移,也更貼近真實控制場景里“在行動中不斷校正”的節(jié)奏。
圖1:整體框架:從“看—想—做”的物理自回歸閉環(huán)
生成細節(jié):在“連續(xù)空間”里同時生成視頻與動作
傳統(tǒng)做法常把視頻和動作先量化成離散碼,再去預測,這會引入不可忽略的量化誤差。PAR 選擇在連續(xù)空間里直接建模:
統(tǒng)一條件,雙分支生成。上述 Transformer 得到的“情境表示”被同時送入兩個生成器:一個負責“把下一張畫面逐步復原出來”(視頻分支),另一個負責“把下一段動作逐步生成出來”(動作分支)。兩個分支共享同一份條件,因此在訓練時能彼此約束、相互增強——看到的未來會直接影響該怎么動,反過來更合理的動作也會促使畫面預測更貼近真實。
逐步細化,貼近真實。兩個分支都采用逐步細化的生成方式(多步從粗到細),這讓結果更加平滑、細節(jié)更真實,尤其適合對軌跡連續(xù)性和視覺連貫性都很敏感的機器人任務。
輕量動作解碼器。動作本身維度較低,采用更輕量的生成器即可穩(wěn)定產(chǎn)出可控、平滑的控制量,便于在線部署。
注意力與控制:時間因果 + 幀內(nèi)雙向 + 動作←視覺單向
為把“預測未來”和“生成動作”真正做成控制器可用的能力,PAR 在注意力結構上加入了三條關鍵約束:
時間因果。跨時間維度只能“看過去、不能看未來”,保證推理時與真實執(zhí)行一致,避免“偷看答案”。
幀內(nèi)雙向。同一幀內(nèi)部,圖像的各個區(qū)域可以相互關注,讓模型準確理解目標、障礙和機械臂之間的空間關系,從而把下一張畫面預測得更可信。
動作←視覺的單向通道。當前步待預測的動作可以關注同一時刻待預測的視覺表示,但反過來不行;直覺上,這等價于在網(wǎng)絡里植入一種“從期望實現(xiàn)的外觀與相對位置反推該怎么動”的先驗(可把它理解為一種隱式逆運動學)。這使得動作更緊貼關鍵像素區(qū)域(例如方塊或目標區(qū)),減小偏差累積。
在工程層面,推理時配合KV-cache等增量計算,只對新增的 token 計算注意力,長序列滾動的時延增長更可控,適合在線控制。
評測與結果
主要評測結果:在maniskill基準中,PAR在PushCube達到100%成功率,總體成績居第二,僅次于需要動作預訓練的RDT;在PickCube與StackCube上也超過或接近需要動作預訓練的強基準方法(總體平均74%)。
對齊與可解釋性:如圖2所示,可視化顯示預測視頻與實際執(zhí)行在關鍵動作時序與軌跡上高度一致;如圖3所示,注意力圖表明不同頭會在幀/動作token與關鍵像素區(qū)域(方塊、目標區(qū)、機械臂)之間進行有針對性的聚焦。
圖2:預測視頻與實際執(zhí)行關聯(lián)可視化
圖3:注意力圖
PAR證明了“從視頻世界遷移物理知識”用于機器人操控的有效性:不需要動作預訓練,即可同時實現(xiàn)未來視頻預測與一致的動作軌跡生成,為解決示教數(shù)據(jù)稀缺提供新路徑。