隔離LLM詞彙偏差:無需策展的偏好學習三角測量指標
研究論文探討指出,近年來各種語言領域經歷了顯著變化,這些轉變主要歸因於大型語言模型(LLM)的出現及其與自然語言使用的不對齊。論文認為,這些不對齊部分源於偏好學習階段,例如從人類反饋中進行強化學習(RLHF),這通常使模型更有用,但同時可能引入系統性詞彙偏差,表現為模型對某些格式的偏好或過度使用特定詞彙。以往研究受限於手動策展,為解決此問題,論文提出了三角測量偏好偏移分數(Triangulated Preference Shift score),該指標在人類黃金標準、基礎模型和指令變體之間進行三角測量,以隔離偏好學習特定引起的偏移。研究提供了六個模型系列的數據,並分析偏好學習是否使模型轉向可被解釋為『威望語言』的方向。該指標提供了一種初始自動化方法,用於量化歸因於偏好調整的行為偏移,可能有助於指導模型對齊和可信賴人工智慧的發展。
來源
來源:網頁來源