修復 FOLIO 與 MALLS:驗證標註與 LLM 輔助框架聚焦人工重新標註
研究論文提出,FOLIO 和 MALLS 這兩個自然語言到一階邏輯的基準數據集從未經過嚴格審計,對神經符號 AI 系統和自然語言推理至關重要。經過系統性人工檢查後,發現 FOLIO 驗證集約 39% 的條目含有不正確的一階邏輯形式化標籤,MALLS 測試子集則有 36% 的錯誤率,此外還有模糊自然語言句子和錯誤的自然語言推理標籤。基於這些發現,研究團隊開發並釋出了修正後的真值標籤,並在三個先進的大型語言模型(Gemma 4 31B-it、Qwen3-30B-A3B 和 GPT-4o-mini)上測試,結果顯示準確率提升約 9 至 22 個百分點。為了支持人工審核過程,論文提出一個基於大型語言模型的框架,能引導審核者優先處理最容易出錯的實例。實驗表明,審核不到 24% 的實例即可達到數據集 90% 的準確率,相較於未引導的審核需要超過 70% 的實例。所有人工驗證的標註和框架代碼均已公開發布。
來源
來源:網頁來源