研究06/02 10:36

VideoMLA：用於分鐘級自迴歸視頻擴散的低秩潛在KV緩存

研究論文提出 VideoMLA，這是多頭潛在注意力在視頻擴散中的首次應用。論文探討了長時間視頻擴散依賴固定大小滑動窗口 KV 緩存的現狀，並指出每頭 KV 布局是串流記憶體和延遲的主要貢獻者，但其結構大多未改變。VideoMLA 用共享低秩內容潛在和解耦的 3D-RoPE 位置鍵替換每頭鍵值，從而將每層緩存的每 token KV 記憶體減少 92.7%。論文進一步調查為何 MLA 在視頻擴散中成功，即使語言模型中常用的光譜假設在此不成立：預訓練視頻注意力並非低秩，其 99% 能量有效秩遠高於任何實用潛在維度。VideoMLA 在壓縮比下保持質量，而直接光譜近似會預測較大重建誤差。實驗顯示，MLA 瓶頸而非預訓練光譜決定了有效秩：光譜和隨機初始化從開始就佔據幾乎完整的秩預算，訓練在適應的同時保留了此預算。在 VBench 基準測試中，VideoMLA 匹配短視野串流視頻擴散基線，在長視野中取得評估方法中的最佳整體分數，並在單個 B200 上將吞吐量提高 1.23 倍。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion