$\Psi$-Bench:評估說服對話中的人物敏感影響力
研究論文提出了一項名為 $\Psi$-Bench 的基準測試,專門用於系統性評估語言模型在現實互動中主動個性化的能力,特別聚焦於說服場景。該基準測試設計了三個涵蓋真實世界互動的說服情境,並透過從對話歷史中提取的明確用戶資料,為模擬客戶賦予個人特徵,以測試模型的說服效果。研究團隊對 10 個前沿語言模型進行了評估,結果顯示儘管大多數模型能夠生成連貫且合理的論點,但即使是目前最先進的模型,在說服力方面仍存在顯著的改進空間。此外,實驗數據表明,當模型能夠訪問客戶資料時,性能平均提升了 18.24%,這凸顯了用戶特定資訊對於實現有效說服的重要性。總體而言,這項工作強調了人物敏感影響力作為一個具有挑戰性但實用的研究方向,對於評估和開發更主動的個性化語言模型具有重要意義,相關代碼已公開發布於 GitHub。
來源
來源:網頁來源