PReMISE框架:LLM評審員的評分標準測量規範
研究論文指出,大型語言模型(LLM)評審員在評估開放式回答時日益普及,但其評分高度依賴於所使用的評分標準(Rubrics)。一個模糊的標準(如要求回答「有用且真實」)可能獎勵那些捏造事實或違背用戶意圖的華麗答案。為此,論文提出PReMISE框架,將可重用的評分標準視為測量規範:改變評分標準即改變由固定評審員所誘導的回答質量測量方式。PReMISE框架能從成對的人類偏好數據中,(一)發現政策層級的評分標準集,並(二)從結構充分性、可靠性、偏好擬合與對抗穩健性四個軸線審計任何評分標準集。研究發現,在各種評分標準來源中,沒有任何單一原始來源能同時具備可靠性、偏好預測性與對抗穩健性;而高評分者間的一致性並不意味著低可利用性。PReMISE是唯一在適用性、特異性與有效維度上同時得分顯著的評分標準來源。論文進一步貢獻了兩種以審計為導向的修復操作:偏好排序選擇將評審員在配對回答上的準確率從65.0%提升至68.6%,與最強的評分標準發現基線相當,並在跨評審員測試中於兩個評審員上領先;可靠性約束優化則將可利用回答獲得高分的比率從46.4%降至36.0%,且對評審員間一致性影響甚微。
來源
來源:網頁來源