AFUN:功能理解的可供性基礎模型
研究論文提出 AFUN 模型,旨在建立一個可供性基礎模型,以理解功能並用於機器人操作。在開放和非結構化的真實世界環境中,可供性理解是視覺感知和物理行動之間的橋樑,提供可解釋的介面。現有方法通常只解決部分挑戰,例如定位相關區域但不指定可執行動作,或預測動作但泛化能力有限。AFUN 從單一 RGB-D 觀測和語言任務描述,預測任務條件功能遮罩(在哪裡互動)和 3D 接觸後動作曲線(如何互動)。為了支援開放世界泛化,研究團隊建立了一個大規模標準化數據管道,將異質的機器人、人類、模擬和真實世界掃描數據轉換為共享的可供性架構,包含語言、遮罩和物體中心的 3D 動作標籤。評估結果顯示,AFUN 在可供性分割、接觸點預測和 3D 動作方面均優於現有基線,在八個測試集中提高了平均 gIoU/cIoU 達 +23.9/+26.3,並能在真實世界機器人操作中部署,無需微調或使用特定任務啟發式方法。論文詳細介紹了模型架構和實驗結果,展示了適應開放世界任務的能力。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源AFUN: Towards an Affordance Foundation Model for Functionality Understanding