RealityTest基準測試AI身份披露行為
研究論文提出一個名為RealityTest的新基準測試,旨在全面評估AI系統在被用戶詢問時是否誠實披露其身份。這項研究是首個大規模多模態和多語言的評估,基於來自49個國家約750名參與者的真實數據,收集了3152個身份探測查詢,涵蓋文本和語音場景。研究發現,在模糊場景中,僅有31%的人直接詢問身份,且人類提出的問題比機器生成的查詢更加多樣化。測試了17個文本模型和6個語音模型,結果顯示披露行為存在顯著差異。然而,即使是最優秀的模型,一個簡單的抑制指令也能將披露率降至30%以下。研究驗證了多樣化、基於人類數據的評估投資,發現問題的措辭和對話上下文比所測試的模型本身更影響披露行為。這表明,基於狹窄或合成查詢集的安全評估可能無法準確反映模型在真實部署環境中的行為。
來源
來源:網頁來源