返回事件流

VideoMLA:用於分鐘級自迴歸視頻擴散的低秩潛在KV緩存

研究論文提出 VideoMLA,這是多頭潛在注意力在視頻擴散中的首次應用。論文探討了長時間視頻擴散依賴固定大小滑動窗口 KV 緩存的現狀,並指出每頭 KV 布局是串流記憶體和延遲的主要貢獻者,但其結構大多未改變。VideoMLA 用共享低秩內容潛在和解耦的 3D-RoPE 位置鍵替換每頭鍵值,從而將每層緩存的每 token KV 記憶體減少 92.7%。論文進一步調查為何 MLA 在視頻擴散中成功,即使語言模型中常用的光譜假設在此不成立:預訓練視頻注意力並非低秩,其 99% 能量有效秩遠高於任何實用潛在維度。VideoMLA 在壓縮比下保持質量,而直接光譜近似會預測較大重建誤差。實驗顯示,MLA 瓶頸而非預訓練光譜決定了有效秩:光譜和隨機初始化從開始就佔據幾乎完整的秩預算,訓練在適應的同時保留了此預算。在 VBench 基準測試中,VideoMLA 匹配短視野串流視頻擴散基線,在長視野中取得評估方法中的最佳整體分數,並在單個 B200 上將吞吐量提高 1.23 倍。

來源

來源:Hugging Face / 論文來源