研究06/01 12:06

PReMISE框架：LLM評審員的評分標準測量規範

研究論文指出，大型語言模型（LLM）評審員在評估開放式回答時日益普及，但其評分高度依賴於所使用的評分標準（Rubrics）。一個模糊的標準（如要求回答「有用且真實」）可能獎勵那些捏造事實或違背用戶意圖的華麗答案。為此，論文提出PReMISE框架，將可重用的評分標準視為測量規範：改變評分標準即改變由固定評審員所誘導的回答質量測量方式。PReMISE框架能從成對的人類偏好數據中，（一）發現政策層級的評分標準集，並（二）從結構充分性、可靠性、偏好擬合與對抗穩健性四個軸線審計任何評分標準集。研究發現，在各種評分標準來源中，沒有任何單一原始來源能同時具備可靠性、偏好預測性與對抗穩健性；而高評分者間的一致性並不意味著低可利用性。PReMISE是唯一在適用性、特異性與有效維度上同時得分顯著的評分標準來源。論文進一步貢獻了兩種以審計為導向的修復操作：偏好排序選擇將評審員在配對回答上的準確率從65.0%提升至68.6%，與最強的評分標準發現基線相當，並在跨評審員測試中於兩個評審員上領先；可靠性約束優化則將可利用回答獲得高分的比率從46.4%降至36.0%，且對評審員間一致性影響甚微。

來源

來源：網頁來源

網頁來源PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges