返回事件流

CanLegalRAGBench:評估加拿大案例法上RAG系統的基準測試

研究論文提出一個名為CanLegalRAGBench的新基準測試,旨在評估基於加拿大案例法的檢索增強生成系統。論文指出,隨著RAG法律助手日益普及,大型語言模型的幻覺問題成為關鍵挑戰,可能影響司法公正。現有評估基準多使用合成查詢,缺乏真實法律場景,且加拿大法律在評估中代表性不足。為填補這一空白,作者引入了CanLegalRAGBench,基於真實查詢和專家標註的答案進行評估。評估結果顯示,檢索效能對設計選擇敏感,開源嵌入模型與閉源模型表現競爭。然而,研究也揭示了自動評估的局限性,系統因檢索到替代相關文件而受到懲罰。此外,生成的答案常與標準答案偏離,包括產生幻覺或內容過於詳細或無關,其中8-29%的聲明未被檢索文件支持。作者希望此基準能推動法律RAG系統的持續改進,並為加拿大法律AI領域提供更可靠的評估工具。

來源

來源:網頁來源