研究06/03 24:44

StressDream：引導影片世界模型實現穩健政策評估與改進

研究論文提出 StressDream 方法，旨在解決影片世界模型在政策評估與改進中的局限性。傳統上，影片世界模型能夠基於自我機器人動作想像未來觀察，但政策評估通常依賴名義想像，這可能錯過機器人動作的高影響結果，除非進行大量取樣。為此，StressDream 通過優化擴散基礎影片世界模型的初始噪聲，引導想像朝向在推理時間指定的高影響但合理結果，例如任務失敗。這種優化面臨挑戰，因為它需要在生成的影片中推理細微的、場景依賴的目標事件，同時避免產生不合理的想像。論文提出兩個互補目標：一個語義目標，利用視覺語言模型提供資訊梯度來推理生成的影片；一個合理性目標，防止優化噪聲偏離分佈。在自動駕駛和機器人操作的先進影片世界模型上實驗顯示，StressDream 能有效引導想像朝向指定的高影響結果，從而識別那些合理未來包含不良結果的動作，實現穩健的政策評估與改進。影片結果可在指定網址查看。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement