研究06/03 24:09

LLM評估一致性指標報告標準研究

研究論文提出，當使用大型語言模型（LLM）作為評判者，並與人類標註進行比對驗證時，學術界通常會報告多種一致性統計數據。然而，該論文對24篇近期相關研究的調查發現，所選用的指標常與判斷尺度、平局處理、無效輸出及棄權處理方式相互糾纏，且這些選擇很少被明確說明。論文指出，對於常見的二元標準評估，許多報告的數值（如皮爾遜相關、斯皮爾曼等級相關等）實際上是冗餘的，它們在非退化二元數據上都會簡化為同一個數字，這可能導致證據互相佐證的假象。柯恩卡帕係數（Cohen's κ）被認為是唯一能提供額外資訊的一致性係數，它與馬修斯相關係數（Matthews Correlation Coefficient）共享分子，但歸一化方式不同，兩者之間的差距可以衡量LLM評判的正標籤率相對於人類評判的偏移程度。此外，論文進一步探討了當評判可以選擇棄權（發出CANNOT_ASSESS判定）時的三種常見處理方式，這些方式並非可互換的預處理步驟，而是針對不同的問題，並且會打破二元評估中的等效關係。最後，論文提出了一個報告檢查清單，旨在規範相關研究，要求明確說明判斷尺度、棄權與平局處理模式、覆蓋率、混淆矩陣以及聚合層級等資訊。

來源

來源：網頁來源

網頁來源Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why