返回事件流

WRIT:用於多輪對話代理的寫讀密集型軌跡合成方法

研究論文提出WRIT(Write-Read Intensive Trajectory Synthesis)方法,旨在解決多輪對話代理訓練數據合成的難點。論文指出,現有的訓練軌跡合成管線往往透過組合多個用戶請求來增加任務難度,產生側重於順序執行的「寫入密集型」軌跡。然而,研究認為,單一的寫入決策本身可能極具挑戰性,特別是當代理必須收集並比較大量的讀取工具證據,才能確定其論點時,這是單純的寫入密集型數據難以解決的挑戰。基於此洞察,WRIT沿著兩個複雜度軸線合成軌跡:任務中的寫入決策數量,以及每個決策所需承擔的證據負擔。該方法首先生成寫入密集與讀取繁重的任務,接著多樣化用戶行為指令以反映真實對話變化,最後在可執行環境中模擬代理與用戶的交互,從而生成完整的訓練軌跡。實驗結果顯示,僅使用2,000條WRIT合成的軌跡對一個4B模型進行監督式微調,其在τ²-bench基準測試中的表現便超越了GPT-5.1(無思考模式),並大幅減少了推理時的token使用量。這表明,高品質且緊湊的SFT數據,能將部分昂貴的測試時推理轉化為高效的代理行為。

來源

來源:網頁來源