研究06/04 14:36

AgentCL：邁向語言代理中持續學習的嚴格評估

研究論文探討語言代理在持續學習中的挑戰，指出代理在解決單個任務時花費大量推理時間，但獲得的經驗在未來任務中往往未被充分利用。持續學習期望代理能積累可重用經驗、隨時間改進並避免不相關經驗的干擾，然而現有基準難以嚴格評估這一能力。論文提出AgentCL評估框架，以受控任務流為中心，構建組合流，其中早期子解決方案、證據或工作流在後續任務中故意可重用，並與天真的任務流進行對比。研究還引入MemProbe探測方法，用於存儲交互、見解和技能，並在經驗鞏固期間過濾不可靠內容。實證分析涵蓋編碼、深度研究和語言理解/推理任務，結果顯示天真的任務流提供有限能力區分記憶設計，而受控流更清楚地區分其可塑性。此外，天真的和保留設置往往產生有限收益，並可能暴露記憶引起的退化。這些發現強調需要更強的記憶設計來平衡可塑性和穩定重用，以促進語言代理的持續學習發展。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents