EarlyTom:早期詞彙壓縮實現快速影片理解
研究論文探討影片大型語言模型(Video-LLMs)在實用部署中的效率問題,指出視覺編碼器處理大量視覺詞彙導致延遲,是首次詞彙生成時間(TTFT)的主要貢獻者。論文提出 EarlyTom,一個無需訓練的詞彙壓縮框架,能在視覺編碼器內部進行早期階段的視覺詞彙壓縮,從而大幅減少 TTFT 和提高吞吐量。EarlyTom 採用解耦的空間詞彙選擇策略來改善壓縮效果,確保效率提升。實驗顯示,在 NVIDIA A100 GPU 上,使用 LLaVA-OneVision-7B 模型,EarlyTom 能將 TTFT 減少最多 2.65 倍,浮點運算(FLOPs)減少最多 61%,同時保持與完整詞彙基準相當的準確率。這些改進顯著提升了 Video-LLMs 在實際生產環境中的實用性,為部署大型模型提供了更高效的解決方案。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源EarlyTom: Early Token Compression Completes Fast Video Understanding