返回事件流

可配置安全獎勵模型 CSRM 問世

研究論文提出一種可配置安全獎勵模型(CSRM),旨在解決大型語言模型(LLM)在對齊異質且快速演變安全需求時的挑戰。現有的指令調整 LLM 和獨立安全分類器往往無法泛化到新的安全配置,因此需要明確可配置的獎勵模型。CSRM 透過配置目標數據增強來聯合優化校準安全合約和獎勵建模,強制指令遵循同時保留相對嚴重性結構。這使得 CSRM 對細粒度安全配置和對話細微差異敏感,大幅改善對先前未見安全配置的泛化能力。在 CoSApien 和 DynaBench 等基準測試中,CSRM 取得最先進性能,分別達到 94.6% F1 和 75.8% F1,無需額外人工標註。當用於下游安全對齊時,與現有基線相比,CSRM 產生的 LLM 在幫助性與安全性之間取得顯著改善的平衡。

來源

來源:網頁來源