研究06/04 14:36

用於視覺語言模型的狀態視覺編碼器

研究論文指出，現有的開源視覺語言模型在多圖像、多輪的代理設定中，視覺比較僅發生在語言模型內部，而視覺編碼器本身是無狀態的，導致每個圖像獨立編碼，無法存取先前的視覺上下文。這使得即使任務關鍵的細小變化，也可能在語言模型有機會比較之前被忽略。為了解決這個問題，論文提出了一種狀態視覺編碼器，該編碼器將每個視覺表示條件化於先前的視覺特徵上。在監督微調下，配備狀態編碼器的視覺語言模型在涉及跨圖像空間聚合、多物體視覺差異和視覺軌跡行為克隆的控制任務上實現了一致的改進。這些改進在不同的輸入解析度、語言模型大小和視覺語言模型骨幹中都保持一致。最後，模型在真實世界任務中進行了驗證，包括縱向放射學、細粒度圖像比較和遙感，其中狀態編碼器一致地改進了通用視覺語言模型基線，並在特定領域中匹配或超越了專業模型。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Stateful Visual Encoders for Vision-Language Models