AgentCL:邁向語言代理中持續學習的嚴格評估
研究論文探討語言代理在持續學習中的挑戰,指出代理在解決單個任務時花費大量推理時間,但獲得的經驗在未來任務中往往未被充分利用。持續學習期望代理能積累可重用經驗、隨時間改進並避免不相關經驗的干擾,然而現有基準難以嚴格評估這一能力。論文提出AgentCL評估框架,以受控任務流為中心,構建組合流,其中早期子解決方案、證據或工作流在後續任務中故意可重用,並與天真的任務流進行對比。研究還引入MemProbe探測方法,用於存儲交互、見解和技能,並在經驗鞏固期間過濾不可靠內容。實證分析涵蓋編碼、深度研究和語言理解/推理任務,結果顯示天真的任務流提供有限能力區分記憶設計,而受控流更清楚地區分其可塑性。此外,天真的和保留設置往往產生有限收益,並可能暴露記憶引起的退化。這些發現強調需要更強的記憶設計來平衡可塑性和穩定重用,以促進語言代理的持續學習發展。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents