返回事件流

透過新穎信號的聯合代理記憶與探索學習

在開放式環境中,探索對於自主代理至關重要,但當前的語言模型代理在這方面表現不佳。有效的探索需要記憶,然而保留原始互動歷史在計算上代價高昂。研究論文提出 JAMEL 框架,透過新穎驅動的互動,聯合訓練代理記憶和探索策略。觀察顯示,記憶和探索形成相互依賴的循環:持續探索需要記憶來區分已耗盡的行為和未見過的行為,而尋求新穎的互動則為記憶提供監督信號,使其在未來探索中有用。研究利用確定性和持久的新穎信號,例如在 GUI 領域的代碼覆蓋率,為記憶模組提供自然、無需標註的監督。實驗評估表明,JAMEL 成功泛化到未見過的環境,其探索能力超越開源基準,並在減少代幣消耗的同時,媲美閉源模型的探索深度。代碼和模型已在 GitHub 上開源。

來源

來源:Hugging Face / 論文來源