返回事件流

StressDream:引導影片世界模型實現穩健政策評估與改進

研究論文提出 StressDream 方法,旨在解決影片世界模型在政策評估與改進中的局限性。傳統上,影片世界模型能夠基於自我機器人動作想像未來觀察,但政策評估通常依賴名義想像,這可能錯過機器人動作的高影響結果,除非進行大量取樣。為此,StressDream 通過優化擴散基礎影片世界模型的初始噪聲,引導想像朝向在推理時間指定的高影響但合理結果,例如任務失敗。這種優化面臨挑戰,因為它需要在生成的影片中推理細微的、場景依賴的目標事件,同時避免產生不合理的想像。論文提出兩個互補目標:一個語義目標,利用視覺語言模型提供資訊梯度來推理生成的影片;一個合理性目標,防止優化噪聲偏離分佈。在自動駕駛和機器人操作的先進影片世界模型上實驗顯示,StressDream 能有效引導想像朝向指定的高影響結果,從而識別那些合理未來包含不良結果的動作,實現穩健的政策評估與改進。影片結果可在指定網址查看。

來源

來源:Hugging Face / 論文來源