TrustLDM:語言擴散模型可信度基準測試
研究論文提出一個名為 TrustLDM 的綜合可信度基準,專為語言擴散模型(LDMs)設計。論文指出,LDMs 的快速發展挑戰了自回歸模型在語言處理中的主導地位,但其靈活的任何順序解碼策略雖然帶來解碼速度優勢,也可能引入新的可信度風險。為了更好地理解這些風險,研究人員評估了不同 LDM 架構在安全、隱私和公平性方面的表現,使用多種類型的靜態回應上下文。實驗結果顯示,儘管 LDMs 在僅使用用戶提示時通常表現出較強的可信度,但當惡意的回應上下文附加到掩碼回應時,其對齊行為明顯下降。研究還發現較長的上下文不一定誘發更強的影響,解碼順序和生成長度都會影響評估結果。最後,論文提出了 TrustLDM-Auto 自動評估框架,利用 LDM 解碼的靈活性來系統地識別脆弱配置,揭示了所有評估模型和維度中存在的可信度弱點。這項工作可能有助於社群建立更可信的 LDMs。
來源
來源:網頁來源