研究06/01 12:11

為LLM-as-a-Judge自動生成與精煉動態評估標準

研究論文『Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge』提出了一種自動生成評估標準的方法，專為LLM-as-a-Judge設計，無需依賴人工標註數據。現有基於標準的方法通常需要人工標註的答案或專家制定的標準，而此方法能在數據集和實例層級自動生成精細的評估標準。論文描述了一種無需訓練的方法，在四個基準測試中達到競爭性能。此外，研究進一步提出透過元評判獎勵信號迭代微調標準生成器模型。微調後的模型在成對和點對點評估中均優於所有現有基線。值得注意的是，一個微調的14B參數標準生成器在生成標準的任務上，表現甚至超越了更大的專有模型，顯示了所提微調策略的有效性。這項研究有助於提升LLM評估的可擴展性和準確性。

來源

來源：網頁來源

網頁來源Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge