研究06/01 11:35

OpenSkillEval：自動審計 LLM 代理技能生態系統

研究論文提出 OpenSkillEval 自動評估框架，用於審計大型語言模型代理的開放技能生態系統。論文指出，技能作為結構化工作流程指令，對提升代理在下游任務中的表現日益重要，但隨著開源技能生態快速擴張，不同模型和框架如何與技能互動、如何評估技能質量，以及用戶如何在成本效益權衡下選擇技能等問題仍待釐清。OpenSkillEval 透過從現實世界應用中自動構建任務實例，涵蓋簡報生成、前端網頁設計、海報生成、數據視覺化和報告生成等五大類別，並收集社區貢獻的技能進行統一設置下的控制比較。研究團隊使用超過 600 個動態生成的任務實例和 30 個開源技能，對最先進的模型和代理框架進行系統評估。結果顯示，技能可用性並不能保證有效技能使用，技能增強的效益強烈依賴於基礎模型和代理框架，且許多公開流行的技能並不總是在無技能基礎代理上表現優異。這些發現強調了動態、任務導向評估的必要性，並為 LLM 代理技能的設計、選擇和部署提供了實用見解。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents