研究06/03 01:06

PARCEL：透過池錨重取樣與條件彈性查詢實現高效視覺語言理解

研究論文提出 PARCEL（Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding），這是一種視覺標記化架構，旨在解決大型視覺語言模型（LVLMs）的計算瓶頸。LVLMs 將視覺輸入轉換為密集的標記序列，導致推理時的二次計算成本。現有的彈性視覺標記壓縮方法在壓縮率高時容易出現問題，例如空間壓縮可能導致頻譜混淆，而查詢壓縮則會降低空間定位能力。PARCEL 透過動態分區特徵提取來解決這一衝突，將空間池標記設定為低頻佈局錨點，並透過池條件查詢重取樣來條件化彈性查詢標記，從而促使查詢標記專注於互補的視覺特徵而非冗餘的空間映射。論文在 27 個基準測試中進行了廣泛評估，顯示 PARCEL 提升了性能與效率的帕累托前沿，在不同視覺標記預算下均持續優於現有的 matryoshka 基線，同時保留了『一次訓練，到處部署』的範式。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding