StateKV:線性擴展影片VLMs用於長影片理解
在長影片和串流場景中,影片視覺語言模型(VLMs)的使用日益增加,但現有的影片編碼器通常依賴時空自注意力,導致計算量和延遲隨幀數平方增長,限制了可擴展性。現有的效率方法,如幀丟棄或粗略注意力近似,雖然改善了可擴展性,但往往犧牲了準確度。研究論文提出StateKV,一種推理時方法,它通過重要性-based循環狀態攜帶跨幀上下文,並使用第二個全幀緩存進行解碼,使預訓練的長影片VLMs能夠進行線性時間影片預填充。在多個長影片基準測試和七種模型上,StateKV保持了接近全自注意力的性能,並一致地優於滑動窗口等流式近似方法。此外,StateKV減少了影片預填充的計算成本,使得在固定計算預算下運行更大的模型成為可能,從而獲得更強的準確度。這項研究為可擴展的長影片理解提供了實用的步驟,展示了在不進行微調或架構更改的情況下提升效率的潛力。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Linear Scaling Video VLMs for Long Video Understanding