研究06/03 24:46

MCP-Persona：基於環境模擬評估LLM代理在個人應用中的表現

研究論文探討Model Context Protocol (MCP)作為連接大型語言模型(LLM)與外部資料來源和工具的轉型標準，並已在個人應用和開發平台上迅速採用。然而，現有基準主要聚焦於通用資訊檢索工具，未能捕捉個人社交應用中的實際挑戰，這些應用涉及與個人帳戶或本地資料庫的工具互動。為了彌補這一關鍵差距，研究者提出MCP-Persona，這是首個專門設計用於評估代理在真實世界個性化MCP工具上表現的基準。MCP-Persona涵蓋多種廣泛使用的應用，從社交媒體平台如Reddit和小紅書(Rednote)到企業協作套件如飛書(Lark)和Slack。論文進行了大量實驗，測試各種最先進(SOTA)代理，結果顯示它們在個性化工具使用上面臨顯著困難，從而凸顯了基準在識別和解決這些限制方面的關鍵作用。MCP-Persona已在GitHub上公開發布。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation