研究06/03 24:13

隔離LLM詞彙偏差：無需策展的偏好學習三角測量指標

研究論文探討指出，近年來各種語言領域經歷了顯著變化，這些轉變主要歸因於大型語言模型（LLM）的出現及其與自然語言使用的不對齊。論文認為，這些不對齊部分源於偏好學習階段，例如從人類反饋中進行強化學習（RLHF），這通常使模型更有用，但同時可能引入系統性詞彙偏差，表現為模型對某些格式的偏好或過度使用特定詞彙。以往研究受限於手動策展，為解決此問題，論文提出了三角測量偏好偏移分數（Triangulated Preference Shift score），該指標在人類黃金標準、基礎模型和指令變體之間進行三角測量，以隔離偏好學習特定引起的偏移。研究提供了六個模型系列的數據，並分析偏好學習是否使模型轉向可被解釋為『威望語言』的方向。該指標提供了一種初始自動化方法，用於量化歸因於偏好調整的行為偏移，可能有助於指導模型對齊和可信賴人工智慧的發展。

來源

來源：網頁來源

網頁來源Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning