創(chuàng )澤機器人 |
CHUANGZE ROBOT |
近年來(lái)視覺(jué)語(yǔ)⾔基礎模型(Vision Language Models, VLMs)在多模態(tài)理解和⾼層次常識推理上⼤放異彩,如何將其應⽤于機器⼈以實(shí)現通⽤操作是具身智能領(lǐng)域的⼀個(gè)核⼼問(wèn)題。這⼀⽬標的實(shí)現受兩⼤關(guān)鍵挑戰制約:
1. VLM 缺少精確的 3D 理解能⼒:通過(guò)對⽐學(xué)習范式訓練、僅以 2D 圖像 / ⽂本作為輸⼊的 VLM 的天然局限;
2. ⽆法輸出低層次動(dòng)作:將 VLM 在機器⼈數據上進(jìn)⾏微調以得到視覺(jué) - 語(yǔ)⾔ - 動(dòng)作(VLA)模型是⼀種有前景的解決⽅案,但⽬前仍受到數據收集成本和泛化能⼒的限制。
針對上述難題,北⼤攜⼿智元機器⼈團隊提出了 OmniManip 架構,基于以對象為中⼼的 3D 交互基元,將 VLM 的高層次推理能力轉化為機器⼈的低層次高精度動(dòng)作。
針對⼤模型幻覺(jué)問(wèn)題和真實(shí)環(huán)境操作的不確定性,OmniManip 創(chuàng )新性地引⼊了 VLM 規劃和機器⼈執⾏的雙閉環(huán)系統設計,實(shí)現了操作性能的顯著(zhù)突破。
實(shí)驗結果表明,OmniManip 作為⼀種免訓練的開(kāi)放詞匯操作⽅法,在各種機器⼈操作任務(wù)中具備強⼤的零樣本泛化能⼒。
OmniManip 的關(guān)鍵設計包括:
基于 VLM 的任務(wù)解析:利⽤ VLM 強⼤的常識推理能⼒,將任務(wù)分解為多個(gè)結構化階段(Stages),每個(gè)階段明確指定了主動(dòng)物體(Active)、被動(dòng)物體(Passive)和動(dòng)作類(lèi)型(Action)。
以物體為中⼼的交互基元作為空間約束:通過(guò) 3D 基座模型⽣成任務(wù)相關(guān)物體的 3D 模型和規范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從⽽優(yōu)化求解出 Active 物體在 Passive 物體規范坐標系下的⽬標交互姿態(tài)。
閉環(huán) VLM 規劃:將⽬標交互姿態(tài)下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實(shí)現 VLM 對⾃身規劃結果的閉環(huán)調整。
閉環(huán)機器⼈執⾏:通過(guò)物體 6D 姿態(tài)跟蹤器實(shí)時(shí)更新 Active/Passive 物體的位姿,轉換為機械臂末端執⾏器的操作軌跡,實(shí)現閉環(huán)執⾏。
物體的交互基元通過(guò)其在標準空間中的交互點(diǎn)和⽅向來(lái)表征。交互點(diǎn) p∈R3 表示物體上關(guān)鍵的交互位置,⽽交互⽅向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構成交互基元 O={p,v},封裝了滿(mǎn)⾜任務(wù)約束所需的基本⼏何和功能屬性。這些標準交互基元相對于其標準空間定義,能夠在不同場(chǎng)景中保持⼀致,實(shí)現更通⽤和可重⽤的操作策略。
對于通⽤物體的交互點(diǎn)提取,OmniManip 利⽤視覺(jué)語(yǔ)⾔模型(VLM)在原圖(當部件可⻅且實(shí)體存在時(shí))或在正交視圖中渲染的 3D ⽹格(當部件不可⻅或實(shí)體不存在時(shí))上進(jìn)⾏定位。
與 CoPa 和 ReKep 等⽅法不同,OmniManip 直接讓 VLM 進(jìn)⾏ grounding,不會(huì )受限于不穩定的 part 分割或聚類(lèi)結果。
在交互⽅向的采樣⽅⾯,由于物體的規范化空間通過(guò) Omni6DPose 錨定,軸的⽅向與語(yǔ)義對⻬,該團隊讓 VLM 直接對物體標準空間的軸進(jìn)⾏語(yǔ)義描述,并根據操作任務(wù)進(jìn)⾏匹配度排序,以獲得交互⽅向的候選。
雙閉環(huán)系統設計
李⻜⻜團隊的⼯作 ReKep 通過(guò)關(guān)鍵點(diǎn)跟蹤巧妙地實(shí)現了機械臂的閉環(huán)執⾏,但其 VLM 規劃過(guò)程是開(kāi)環(huán)的。OmniManip 則更進(jìn)⼀步,得益于以物體為中⼼的設計理念,⾸次在 VLM 規劃和機械臂執⾏層⾯實(shí)現了雙閉環(huán)系統:
閉環(huán)規劃:在實(shí)驗中,VLM 推理很容易出現幻覺(jué),導致錯誤的規劃結果(尤其是在涉及 3D 旋轉的任務(wù)中,如倒⽔、插筆)。OmniManip 賦予 VLM 閉環(huán)規劃能⼒,通過(guò)渲染物體的三維模型,幫助 VLM 「腦補」出規劃結果后的物體樣貌,再判斷其合理性。
這⼀功能賦予了 VLM 空間反思能⼒,使其能夠在測試時(shí)進(jìn)⾏推理,類(lèi)似于 OpenAI 的 O1,⼤⼤提⾼了操作成功率。為了保持框架的簡(jiǎn)潔性,研究團隊沒(méi)有設計復雜的測試時(shí)推理流程,僅作⼀輪校驗就已明顯提⾼了 VLM 的規劃準確率。
閉環(huán)執⾏:OmniManip 提取的交互基元位于物體的規范空間中,只需引⼊⼀個(gè) 6D 位姿跟蹤器即可輕松實(shí)現閉環(huán)操作。與 ReKep 使⽤的關(guān)鍵點(diǎn)跟蹤器相⽐,基于物體的 6D 位姿跟蹤⽅式更為穩定,并對遮擋具有更強的魯棒性。(缺點(diǎn)則是不如關(guān)鍵點(diǎn)靈活、⽆法建模柔性物體操作。)
▍實(shí)驗結果
強⼤的開(kāi)放詞匯操作性能
在 12 個(gè)真機短程任務(wù)上,OmniManip 均展現出卓越的性能。
雙閉環(huán)系統設計為 OmniManip 帶來(lái)了約 17% 的性能提升,這證明了 RRC 在有效減少⼤模型幻覺(jué)影響⽅⾯的作⽤。
交互基元的魯棒性
VLM 需要基于交互基元對機器⼈操作進(jìn)⾏規劃,如果交互基元本身存在問(wèn)題,VLM 就會(huì )陷⼊「巧婦難為⽆⽶之炊」的困境。因此,可靠的交互基元⾄關(guān)重要。以往的⽅法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過(guò)相機的內外參數轉換到 3D 空間。
然⽽,由于 2D 圖像存在空間歧義,采樣效果對相機視⻆、圖像紋理和部件形狀等因素極為敏感(例如,當相機平視杯⼦時(shí),之前的⽅法只能對準杯⼦的側壁、⽽不是開(kāi)⼝)。⽽ OmniManip 則是在物體的 3D 規范空間中進(jìn)⾏采樣,能夠輕松克服 2D 圖像的局限性,實(shí)現可靠的 3D 交互基元提取。
強⼤的拓展性與潛⼒
OmniManip 能夠與 high-level 任務(wù)規劃器結合,實(shí)現⻓程任務(wù)操作
作為⼀種以物體為中⼼的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移⾄不同形態(tài)的本體(例如雙臂⼈形機器⼈)。
OmniManip 具有強⼤的通⽤泛化能⼒,不受特定場(chǎng)景和物體限制。團隊已將其應⽤于數字資產(chǎn)⾃動(dòng)標注 / 合成管道,實(shí)現⼤規模的機器⼈軌跡⾃動(dòng)采集。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 智能配送機器人 導覽機器人 |