研究06/01 12:10

可配置安全獎勵模型 CSRM 問世

研究論文提出一種可配置安全獎勵模型（CSRM），旨在解決大型語言模型（LLM）在對齊異質且快速演變安全需求時的挑戰。現有的指令調整 LLM 和獨立安全分類器往往無法泛化到新的安全配置，因此需要明確可配置的獎勵模型。CSRM 透過配置目標數據增強來聯合優化校準安全合約和獎勵建模，強制指令遵循同時保留相對嚴重性結構。這使得 CSRM 對細粒度安全配置和對話細微差異敏感，大幅改善對先前未見安全配置的泛化能力。在 CoSApien 和 DynaBench 等基準測試中，CSRM 取得最先進性能，分別達到 94.6% F1 和 75.8% F1，無需額外人工標註。當用於下游安全對齊時，與現有基線相比，CSRM 產生的 LLM 在幫助性與安全性之間取得顯著改善的平衡。

來源

來源：網頁來源

網頁來源Configurable Reward Model for Balanced Safety Alignment