OpenSkillEval:自動審計 LLM 代理技能生態系統
研究論文提出 OpenSkillEval 自動評估框架,用於審計大型語言模型代理的開放技能生態系統。論文指出,技能作為結構化工作流程指令,對提升代理在下游任務中的表現日益重要,但隨著開源技能生態快速擴張,不同模型和框架如何與技能互動、如何評估技能質量,以及用戶如何在成本效益權衡下選擇技能等問題仍待釐清。OpenSkillEval 透過從現實世界應用中自動構建任務實例,涵蓋簡報生成、前端網頁設計、海報生成、數據視覺化和報告生成等五大類別,並收集社區貢獻的技能進行統一設置下的控制比較。研究團隊使用超過 600 個動態生成的任務實例和 30 個開源技能,對最先進的模型和代理框架進行系統評估。結果顯示,技能可用性並不能保證有效技能使用,技能增強的效益強烈依賴於基礎模型和代理框架,且許多公開流行的技能並不總是在無技能基礎代理上表現優異。這些發現強調了動態、任務導向評估的必要性,並為 LLM 代理技能的設計、選擇和部署提供了實用見解。
來源
來源:Hugging Face / 論文來源