返回事件流

技能並非一體適用:針對LLM代理的模型感知技能對齊

根據HuggingFace上發布的研究論文,現有的LLM代理技能庫通常被視為模型無關,但實驗顯示技能效果強烈依賴於模型,一個對某骨架有益的技能可能損害另一個。為此,研究人員提出MASA框架,通過層次化技能演化和模型條件技能重寫器,自適應調整技能以適應不同模型骨架,而無需修改代理權重。框架分為兩個階段:首先,使用爬山法和UCB驅動的樹搜索,基於環境反饋和模型能力輪廓迭代重寫通用和特定任務技能;其次,訓練一個輕量級模型條件技能重寫器,在單次前向傳播中複製適應過程。實驗在三個互動環境和四個骨架上進行,結果表明MASA始終獲得最佳整體性能,相比最強基線提升高達25.8分。學習到的重寫器還能泛化到未見任務和環境,以較低推論成本超越大型教師LLM。

來源

來源:Hugging Face / 論文來源