研究06/01 12:11

利用項目反應理論審計大型語言模型基準測試

研究論文探討了大型語言模型基準測試中的標籤錯誤問題。論文指出，基準測試的標籤在發布後即被凍結，並在後續基準測試中持續傳播錯誤。為此，研究團隊引入了一個基於項目反應理論（IRT）的指標，能夠利用114個模型的回應數據，在七個偏好和多選基準的前200個例子中，以高達95%的精準度識別出可能的錯誤標籤，其表現優於傳統的監督分類器。研究進一步追蹤錯誤來源，發現主要歸因於機械化的標籤啟發式方法、從源數據集直接繼承的上游標註錯誤，以及那些本質上模糊、缺乏合理單一標籤的項目。此外，分析還顯示，獎勵模型往往專注於學習風格偏好而非事實知識，並識別出一個前沿獎勵模型，其在檢測到的錯誤標籤上的一致性準確率達到78%，相比同類模型的38%高出許多，這暗示可能與基準污染或針對特定基準的過度優化有關。這項研究為改善大型語言模型的評估方法提供了重要見解。

來源

來源：網頁來源

網頁來源Auditing LLM Benchmarks with Item Response Theory