研究06/04 24:10

AFUN：功能理解的可供性基礎模型

研究論文提出 AFUN 模型，旨在建立一個可供性基礎模型，以理解功能並用於機器人操作。在開放和非結構化的真實世界環境中，可供性理解是視覺感知和物理行動之間的橋樑，提供可解釋的介面。現有方法通常只解決部分挑戰，例如定位相關區域但不指定可執行動作，或預測動作但泛化能力有限。AFUN 從單一 RGB-D 觀測和語言任務描述，預測任務條件功能遮罩（在哪裡互動）和 3D 接觸後動作曲線（如何互動）。為了支援開放世界泛化，研究團隊建立了一個大規模標準化數據管道，將異質的機器人、人類、模擬和真實世界掃描數據轉換為共享的可供性架構，包含語言、遮罩和物體中心的 3D 動作標籤。評估結果顯示，AFUN 在可供性分割、接觸點預測和 3D 動作方面均優於現有基線，在八個測試集中提高了平均 gIoU/cIoU 達 +23.9/+26.3，並能在真實世界機器人操作中部署，無需微調或使用特定任務啟發式方法。論文詳細介紹了模型架構和實驗結果，展示了適應開放世界任務的能力。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源AFUN: Towards an Affordance Foundation Model for Functionality Understanding