Light Interaction:無需訓練的互動影片世界模型推論加速
研究論文提出 Light Interaction,一個無需訓練的推論加速框架,專為互動影片世界模型設計。互動影片世界模型根據使用者控制的鏡頭移動逐片段生成影片,應用於即時遊戲模擬、虛擬場景導航和具身 AI 訓練。然而,擴展到長互動軌跡成本高昂,因為上下文記憶增長、注意力複雜度為二次方以及重複去噪步驟。Light Interaction 利用互動自然啟用軌跡依賴的自適應計算:檢索的空間記憶可在新探索時丟棄,時間上下文可根據局部潛在動態調整,當鏡頭重訪熟悉區域時可重用早期步驟的模型輸出。該框架結合自適應上下文管理、去噪快取加速以及軟硬體協同設計的 3D 塊稀疏注意力與融合 Triton 核心。在 HY-WorldPlay 和 Matrix-Game-3.0 上評估,Light Interaction 實現高達 2.59 倍速度提升,無需模型重訓練,同時保持競爭性的視覺品質。
來源
來源:Hugging Face / 論文來源