為LLM-as-a-Judge自動生成與精煉動態評估標準
研究論文『Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge』提出了一種自動生成評估標準的方法,專為LLM-as-a-Judge設計,無需依賴人工標註數據。現有基於標準的方法通常需要人工標註的答案或專家制定的標準,而此方法能在數據集和實例層級自動生成精細的評估標準。論文描述了一種無需訓練的方法,在四個基準測試中達到競爭性能。此外,研究進一步提出透過元評判獎勵信號迭代微調標準生成器模型。微調後的模型在成對和點對點評估中均優於所有現有基線。值得注意的是,一個微調的14B參數標準生成器在生成標準的任務上,表現甚至超越了更大的專有模型,顯示了所提微調策略的有效性。這項研究有助於提升LLM評估的可擴展性和準確性。
來源
來源:網頁來源