研究05/31 17:54

EarlyTom：早期詞彙壓縮實現快速影片理解

研究論文探討影片大型語言模型（Video-LLMs）在實用部署中的效率問題，指出視覺編碼器處理大量視覺詞彙導致延遲，是首次詞彙生成時間（TTFT）的主要貢獻者。論文提出 EarlyTom，一個無需訓練的詞彙壓縮框架，能在視覺編碼器內部進行早期階段的視覺詞彙壓縮，從而大幅減少 TTFT 和提高吞吐量。EarlyTom 採用解耦的空間詞彙選擇策略來改善壓縮效果，確保效率提升。實驗顯示，在 NVIDIA A100 GPU 上，使用 LLaVA-OneVision-7B 模型，EarlyTom 能將 TTFT 減少最多 2.65 倍，浮點運算（FLOPs）減少最多 61%，同時保持與完整詞彙基準相當的準確率。這些改進顯著提升了 Video-LLMs 在實際生產環境中的實用性，為部署大型模型提供了更高效的解決方案。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源EarlyTom: Early Token Compression Completes Fast Video Understanding