研究06/03 24:50

LVSA：用於長影片擴散的無需訓練稀疏注意力

HuggingFace 上發布的研究論文提出了 Long Video Sparse Attention（LVSA），這是一種無需訓練的稀疏注意力方法，專為長影片擴散模型設計。論文指出，密集自注意力在長影片推斷中面臨計算成本隨序列長度平方增長的瓶頸，且超出訓練範圍時容易產生重複靜態影片。LVSA 結合結構化窗口模式和旋轉全局錨點，消除固定網格偏差，從而減少時間偽影。實驗顯示，在 Wan 2.1 1.3B 模型上，LVSA 相比密集注意力可減少計算達 3.17 倍；在 HunyuanVideo 1.5 上，計算減少達 3.33 倍，並能在單 GPU 上實現原本超出記憶體的 2 倍範圍生成。此外，LVSA 在 NPU 上也展現加速效果，例如在 Wan 2.2 A14B 上提速達 2.71 倍。論文還引入 VQeval 工具來公平評估長影片質量，避免現有評估器的偏差。整體而言，LVSA 在訓練範圍內保持質量中性，並在延長生成長度時提升質量。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源LVSA: Training-Free Sparse Attention for Long Video Diffusion