LLM評估一致性指標報告標準研究
研究論文提出,當使用大型語言模型(LLM)作為評判者,並與人類標註進行比對驗證時,學術界通常會報告多種一致性統計數據。然而,該論文對24篇近期相關研究的調查發現,所選用的指標常與判斷尺度、平局處理、無效輸出及棄權處理方式相互糾纏,且這些選擇很少被明確說明。論文指出,對於常見的二元標準評估,許多報告的數值(如皮爾遜相關、斯皮爾曼等級相關等)實際上是冗餘的,它們在非退化二元數據上都會簡化為同一個數字,這可能導致證據互相佐證的假象。柯恩卡帕係數(Cohen's κ)被認為是唯一能提供額外資訊的一致性係數,它與馬修斯相關係數(Matthews Correlation Coefficient)共享分子,但歸一化方式不同,兩者之間的差距可以衡量LLM評判的正標籤率相對於人類評判的偏移程度。此外,論文進一步探討了當評判可以選擇棄權(發出CANNOT_ASSESS判定)時的三種常見處理方式,這些方式並非可互換的預處理步驟,而是針對不同的問題,並且會打破二元評估中的等效關係。最後,論文提出了一個報告檢查清單,旨在規範相關研究,要求明確說明判斷尺度、棄權與平局處理模式、覆蓋率、混淆矩陣以及聚合層級等資訊。
來源
來源:網頁來源