研究06/01 12:17

從最佳N個偏好數據進行獎勵學習：目標、權衡與設計原則

研究論文探討Best-of-N抽樣在構建偏好數據中的應用，並分析Bradley-Terry獎勵學習從中提取的目標。論文指出，對於獨立參考變體，可以推導出閉式獎勵目標，這些目標是N和基礎分佈的顯式函數，並保留潛在獎勵排名。然而，對於實際的Best-vs-Random和Best-vs-Worst變體，由於選擇和拒絕回應通過同一候選集合耦合，精確的BT可表示性通常失敗；但當N增大時，有界類最小化器會趨近於參考目標。此外，邊際和連接性已知支配成對偏好學習中的樣本效率，但Best-of-N通過N將它們耦合在相反方向：較大的N擴大成對邊際但減少連接性。這一權衡引出兩個設計原則：當偏好標籤是瓶頸時使用較大的N，當生成是瓶頸時使用較小的N；以及塑造基礎分佈以將質量放在測試時重要比較的回應之間。論文在合成和真實偏好數據上的實驗支持了這些預測。

來源

來源：網頁來源

網頁來源Reward Learning from Best-of-$N$ Preference Data: Targets, Tradeoffs, and Design Principles