對話主題作為人口統計代理:影響LLM回答的方式
根據 arXiv 上發表的研究論文,大型語言模型(LLMs)在高風險場景如法律、醫療和金融建議中使用時,即使單一對話歷史也可能導致用戶結果差異。先前研究顯示,這導致不同人口統計群體間的結果不平等。本研究證明,LLMs 實際上難以從單一對話歷史推斷用戶的人口統計資訊,且差異幅度最小。為調查主要驅動因素,研究比較了用戶人口統計與對話的(心理)語言特徵,包括對話主題、情緒和可讀性。結果發現,對話主題最能預測 LLM 生成的建議,在對話上下文中常作為人口統計群體的代理,並以不可預測的方式影響建議。這引起了對 AI 偏見和公平性的擔憂,突顯需要未來研究來更好地理解和減輕對話上下文對 LLM 在高風險場景中輸出的影響。
來源
來源:網頁來源