研究06/03 24:08

TrustLDM：語言擴散模型可信度基準測試

研究論文提出一個名為 TrustLDM 的綜合可信度基準，專為語言擴散模型（LDMs）設計。論文指出，LDMs 的快速發展挑戰了自回歸模型在語言處理中的主導地位，但其靈活的任何順序解碼策略雖然帶來解碼速度優勢，也可能引入新的可信度風險。為了更好地理解這些風險，研究人員評估了不同 LDM 架構在安全、隱私和公平性方面的表現，使用多種類型的靜態回應上下文。實驗結果顯示，儘管 LDMs 在僅使用用戶提示時通常表現出較強的可信度，但當惡意的回應上下文附加到掩碼回應時，其對齊行為明顯下降。研究還發現較長的上下文不一定誘發更強的影響，解碼順序和生成長度都會影響評估結果。最後，論文提出了 TrustLDM-Auto 自動評估框架，利用 LDM 解碼的靈活性來系統地識別脆弱配置，揭示了所有評估模型和維度中存在的可信度弱點。這項工作可能有助於社群建立更可信的 LDMs。

來源

來源：網頁來源

網頁來源TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models