返回事件流

ToolGate:優化視覺語言代理工具調用的節省Token方法

研究論文提出一個名為ToolGate的輕量級外部控制器,旨在解決增強工具的視覺語言代理所面臨的效率問題。這些代理可利用光學字符辨識、物體偵測等工具獲取外部感知證據,但研究指出,執行每一項提出的工具調用既昂貴又未必必要。論文探討了「調用前控制」問題,即在ReAct式代理提出工具調用後,應決定是執行該調用,還是在其輸出進入上下文之前直接跳過。實驗在基準測試中發現,基線代理的工具調用選擇性較差。ToolGate根據代理的推理軌跡文本和簡單的結構特徵來預測執行或跳過的決定。論文在兩個Qwen3-VL模型骨幹上進行驗證,結果顯示ToolGate能將Token成本降低至無限制基線代理的64-69%,同時在跨領域設定中保持平均準確率。當在特定領域軌跡上訓練時,對於Qwen3-VL-30B模型,還能將平均準確率進一步提升1.65個百分點。這項研究結果表明,增強工具的視覺語言代理不僅受益於更精良的感知工具,同時也受益於對工具輸出何時值得付出成本進行明確控制。

來源

來源:網頁來源