返回事件流

PARCEL:透過池錨重取樣與條件彈性查詢實現高效視覺語言理解

研究論文提出 PARCEL(Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding),這是一種視覺標記化架構,旨在解決大型視覺語言模型(LVLMs)的計算瓶頸。LVLMs 將視覺輸入轉換為密集的標記序列,導致推理時的二次計算成本。現有的彈性視覺標記壓縮方法在壓縮率高時容易出現問題,例如空間壓縮可能導致頻譜混淆,而查詢壓縮則會降低空間定位能力。PARCEL 透過動態分區特徵提取來解決這一衝突,將空間池標記設定為低頻佈局錨點,並透過池條件查詢重取樣來條件化彈性查詢標記,從而促使查詢標記專注於互補的視覺特徵而非冗餘的空間映射。論文在 27 個基準測試中進行了廣泛評估,顯示 PARCEL 提升了性能與效率的帕累托前沿,在不同視覺標記預算下均持續優於現有的 matryoshka 基線,同時保留了『一次訓練,到處部署』的範式。

來源

來源:Hugging Face / 論文來源