EURO-5K:領域預訓練何時重要?針對歐盟報告義務提取的 Transformer 基準測試
研究論文提出 EURO-5K 語料庫,旨在從歐盟立法中提取報告義務,以評估和減少監管報告負擔。論文探討了領域預訓練的重要性,比較了判別式令牌分類模型(如 BERT 風格)和生成式跨度提取模型(如大型語言模型),並評估了完整微調和參數高效 QLoRA 方法。實驗結果顯示,在完整微調下,通用和法律 BERT 模型達到相似性能(0.89 F1),而微調的大型語言模型在句子級提取上匹配編碼器準確度。法律預訓練在參數高效調整時顯著有益,例如法律 BERT 優於通用版本。學習曲線分析表明,法律預訓練在少量數據時加速學習,所有方法在約 3K 樣本後收斂。研究還發布了 EURO-5K 語料庫、訓練模型和互動演示,包括可解釋性視覺化和結構化 RDF 導出,為監管合規自動化提供實用工具。
來源
來源:網頁來源