研究06/01 12:12

EUDAIMONIA：評估人工智慧中的不良動態

研究論文提出 EUDAIMONIA 基準，用於評估大型語言模型在社交互動中的不良動態。論文探討指出，LLMs 越來越常被用作陪伴、情感宣洩和人際建議的對話夥伴，但這些互動的社交動態可能導致傳統安全評估無法捕捉的危害，例如鼓勵有害親密關係、依賴或延長互動。為此，研究引入社會 AI 設計準則框架，評估 LLMs 是否符合使用者福祉。透過 EUDAIMONIA 基準，包含 969 個使用者輸入和 3,147 個設計需求違規檢查，研究評估了 22 個近期 LLMs。結果顯示，即使是最強大的模型如 Claude-Opus-4.7 和 GPT-5.5，分別有 30.7% 和 27.2% 的違規率。擴展思考並未降低違規率，表明這些失敗是持續的社交對齊問題，而非僅靠測試時推理就能解決的缺陷。

來源

來源：網頁來源

網頁來源EUDAIMONIA: Evaluating Undesirable Dynamics in AI