PRISM:多維基準測試評估 LLM 同儕審稿人
研究論文提出 PRISM(Peer Review Intelligence via Structured Multi-dimensional assessment)框架,旨在解決機器學習領域投稿數量增長對科學同儕審稿系統造成的壓力,並評估基於 LLM 的自動審稿系統的效能。論文探討了現有評估方法的不足,如 ROUGE 和 BLEU 等表面指標,或將流暢性與嚴謹性混淆的 LLM-as-a-judge 方法。PRISM 框架基於論點挖掘、檢索增強驗證和共識評分,從四個維度進行評估:分析深度、新穎性評估、缺陷識別與主要問題優先排序,以及多維度建設性。研究應用 PRISM 對五個領先的自動審稿系統和人類審稿人在 ICLR、ICML 和 NeurIPS 的審稿樣本上進行基準測試。結果顯示,LLM 在單個維度上可匹配或超越人類審稿人,例如分析深度相當、新穎性驗證更強、批判優先排序高度準確。然而,沒有一個系統能在所有維度上始終匹配人類基線的平衡表現,每個系統都有獨特的專業化特徵和盲點。這意味著 LLM 審稿人最適合作為人類審稿的針對性補充,在特定維度有效,但作為獨立替代品則不可靠。研究還提供了演示和關鍵結果在指定網頁上。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers