研究06/02 11:06

技能並非一體適用：針對LLM代理的模型感知技能對齊

根據HuggingFace上發布的研究論文，現有的LLM代理技能庫通常被視為模型無關，但實驗顯示技能效果強烈依賴於模型，一個對某骨架有益的技能可能損害另一個。為此，研究人員提出MASA框架，通過層次化技能演化和模型條件技能重寫器，自適應調整技能以適應不同模型骨架，而無需修改代理權重。框架分為兩個階段：首先，使用爬山法和UCB驅動的樹搜索，基於環境反饋和模型能力輪廓迭代重寫通用和特定任務技能；其次，訓練一個輕量級模型條件技能重寫器，在單次前向傳播中複製適應過程。實驗在三個互動環境和四個骨架上進行，結果表明MASA始終獲得最佳整體性能，相比最強基線提升高達25.8分。學習到的重寫器還能泛化到未見任務和環境，以較低推論成本超越大型教師LLM。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents