Ψ-Bench:评估说服对话中的角色敏感影响力
研究论文提出,当前大型语言模型的个性化应用多停留在被动回应用户偏好,缺乏主动引导与影响用户的能力。为了系统性地评估这种主动的个性化交互能力,研究人员设计了名为Ψ-Bench的基准测试。该测试包含三个真实的说服场景,并依据对话历史为模拟客户赋予具体的角色特质。论文探讨中指出,他们对10个前沿的LLM进行了评估,发现即使是最先进的模型,在说服能力上仍有显著的提升空间。研究结果同时强调,获取用户画像信息能够带来平均18.24%的性能提升,突显了用户特定信息对有效说服的重要性。整体而言,这项工作将角色敏感的影响力确立为一个既具挑战性又具实践价值的研究方向,旨在推动更为主动的个性化LLM智能体的发展。相关代码已在GitHub上发布。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Ψ-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues