研究06/01 10:35

Light Interaction：無需訓練的互動影片世界模型推論加速

研究論文提出 Light Interaction，一個無需訓練的推論加速框架，專為互動影片世界模型設計。互動影片世界模型根據使用者控制的鏡頭移動逐片段生成影片，應用於即時遊戲模擬、虛擬場景導航和具身 AI 訓練。然而，擴展到長互動軌跡成本高昂，因為上下文記憶增長、注意力複雜度為二次方以及重複去噪步驟。Light Interaction 利用互動自然啟用軌跡依賴的自適應計算：檢索的空間記憶可在新探索時丟棄，時間上下文可根據局部潛在動態調整，當鏡頭重訪熟悉區域時可重用早期步驟的模型輸出。該框架結合自適應上下文管理、去噪快取加速以及軟硬體協同設計的 3D 塊稀疏注意力與融合 Triton 核心。在 HY-WorldPlay 和 Matrix-Game-3.0 上評估，Light Interaction 實現高達 2.59 倍速度提升，無需模型重訓練，同時保持競爭性的視覺品質。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models