研究06/01 12:10

CanLegalRAGBench：評估加拿大案例法上RAG系統的基準測試

研究論文提出一個名為CanLegalRAGBench的新基準測試，旨在評估基於加拿大案例法的檢索增強生成系統。論文指出，隨著RAG法律助手日益普及，大型語言模型的幻覺問題成為關鍵挑戰，可能影響司法公正。現有評估基準多使用合成查詢，缺乏真實法律場景，且加拿大法律在評估中代表性不足。為填補這一空白，作者引入了CanLegalRAGBench，基於真實查詢和專家標註的答案進行評估。評估結果顯示，檢索效能對設計選擇敏感，開源嵌入模型與閉源模型表現競爭。然而，研究也揭示了自動評估的局限性，系統因檢索到替代相關文件而受到懲罰。此外，生成的答案常與標準答案偏離，包括產生幻覺或內容過於詳細或無關，其中8-29%的聲明未被檢索文件支持。作者希望此基準能推動法律RAG系統的持續改進，並為加拿大法律AI領域提供更可靠的評估工具。

來源

來源：網頁來源

網頁來源CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law