MCP-Persona:基於環境模擬評估LLM代理在個人應用中的表現
研究論文探討Model Context Protocol (MCP)作為連接大型語言模型(LLM)與外部資料來源和工具的轉型標準,並已在個人應用和開發平台上迅速採用。然而,現有基準主要聚焦於通用資訊檢索工具,未能捕捉個人社交應用中的實際挑戰,這些應用涉及與個人帳戶或本地資料庫的工具互動。為了彌補這一關鍵差距,研究者提出MCP-Persona,這是首個專門設計用於評估代理在真實世界個性化MCP工具上表現的基準。MCP-Persona涵蓋多種廣泛使用的應用,從社交媒體平台如Reddit和小紅書(Rednote)到企業協作套件如飛書(Lark)和Slack。論文進行了大量實驗,測試各種最先進(SOTA)代理,結果顯示它們在個性化工具使用上面臨顯著困難,從而凸顯了基準在識別和解決這些限制方面的關鍵作用。MCP-Persona已在GitHub上公開發布。
來源
來源:Hugging Face / 論文來源