研究06/03 24:46

透過新穎信號的聯合代理記憶與探索學習

在開放式環境中，探索對於自主代理至關重要，但當前的語言模型代理在這方面表現不佳。有效的探索需要記憶，然而保留原始互動歷史在計算上代價高昂。研究論文提出 JAMEL 框架，透過新穎驅動的互動，聯合訓練代理記憶和探索策略。觀察顯示，記憶和探索形成相互依賴的循環：持續探索需要記憶來區分已耗盡的行為和未見過的行為，而尋求新穎的互動則為記憶提供監督信號，使其在未來探索中有用。研究利用確定性和持久的新穎信號，例如在 GUI 領域的代碼覆蓋率，為記憶模組提供自然、無需標註的監督。實驗評估表明，JAMEL 成功泛化到未見過的環境，其探索能力超越開源基準，並在減少代幣消耗的同時，媲美閉源模型的探索深度。代碼和模型已在 GitHub 上開源。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Joint Agent Memory and Exploration Learning via Novelty Signals