利用項目反應理論審計大型語言模型基準測試
研究論文探討了大型語言模型基準測試中的標籤錯誤問題。論文指出,基準測試的標籤在發布後即被凍結,並在後續基準測試中持續傳播錯誤。為此,研究團隊引入了一個基於項目反應理論(IRT)的指標,能夠利用114個模型的回應數據,在七個偏好和多選基準的前200個例子中,以高達95%的精準度識別出可能的錯誤標籤,其表現優於傳統的監督分類器。研究進一步追蹤錯誤來源,發現主要歸因於機械化的標籤啟發式方法、從源數據集直接繼承的上游標註錯誤,以及那些本質上模糊、缺乏合理單一標籤的項目。此外,分析還顯示,獎勵模型往往專注於學習風格偏好而非事實知識,並識別出一個前沿獎勵模型,其在檢測到的錯誤標籤上的一致性準確率達到78%,相比同類模型的38%高出許多,這暗示可能與基準污染或針對特定基準的過度優化有關。這項研究為改善大型語言模型的評估方法提供了重要見解。
來源
來源:網頁來源