從最佳N個偏好數據進行獎勵學習:目標、權衡與設計原則
研究論文探討Best-of-N抽樣在構建偏好數據中的應用,並分析Bradley-Terry獎勵學習從中提取的目標。論文指出,對於獨立參考變體,可以推導出閉式獎勵目標,這些目標是N和基礎分佈的顯式函數,並保留潛在獎勵排名。然而,對於實際的Best-vs-Random和Best-vs-Worst變體,由於選擇和拒絕回應通過同一候選集合耦合,精確的BT可表示性通常失敗;但當N增大時,有界類最小化器會趨近於參考目標。此外,邊際和連接性已知支配成對偏好學習中的樣本效率,但Best-of-N通過N將它們耦合在相反方向:較大的N擴大成對邊際但減少連接性。這一權衡引出兩個設計原則:當偏好標籤是瓶頸時使用較大的N,當生成是瓶頸時使用較小的N;以及塑造基礎分佈以將質量放在測試時重要比較的回應之間。論文在合成和真實偏好數據上的實驗支持了這些預測。
來源
來源:網頁來源