研究06/01 10:35

StateKV：線性擴展影片VLMs用於長影片理解

在長影片和串流場景中，影片視覺語言模型（VLMs）的使用日益增加，但現有的影片編碼器通常依賴時空自注意力，導致計算量和延遲隨幀數平方增長，限制了可擴展性。現有的效率方法，如幀丟棄或粗略注意力近似，雖然改善了可擴展性，但往往犧牲了準確度。研究論文提出StateKV，一種推理時方法，它通過重要性-based循環狀態攜帶跨幀上下文，並使用第二個全幀緩存進行解碼，使預訓練的長影片VLMs能夠進行線性時間影片預填充。在多個長影片基準測試和七種模型上，StateKV保持了接近全自注意力的性能，並一致地優於滑動窗口等流式近似方法。此外，StateKV減少了影片預填充的計算成本，使得在固定計算預算下運行更大的模型成為可能，從而獲得更強的準確度。這項研究為可擴展的長影片理解提供了實用的步驟，展示了在不進行微調或架構更改的情況下提升效率的潛力。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Linear Scaling Video VLMs for Long Video Understanding