返回事件流

校準偏好學習:標籤排名案例

研究論文探討在概率標籤排名中校準的重要性。校準是指預測概率與真實結果頻率的一致性,對於可靠決策至關重要。雖然校準在分類和回歸中已被廣泛研究,但在標籤排名領域尚未正式處理,其中目標是預測標籤集排序的分佈。論文形式化了標籤排名的校準,發展了一個涵蓋完整排名、子排名和頂部-k排名的層級概念。理論上,論文證明完整排名校準意味著其他校準,但反之不成立,而子排名和頂部-k校準則不可比較。實證結果顯示,流行的標籤排名模型通常校準不良,且在子排名和頂部-k指標之間存在實質性差異。將此框架應用於 RLHF 獎勵模型時,研究發現校準與基準準確率強相關但非完美,這表明校準捕獲了超出頂部-1準確率的有意義質量維度。這些發現為未來理解校準不良的下游影響並開發糾正方法提供了動機。

來源

來源:網頁來源