研究06/04 24:45

修復 FOLIO 與 MALLS：驗證標註與 LLM 輔助框架聚焦人工重新標註

研究論文提出，FOLIO 和 MALLS 這兩個自然語言到一階邏輯的基準數據集從未經過嚴格審計，對神經符號 AI 系統和自然語言推理至關重要。經過系統性人工檢查後，發現 FOLIO 驗證集約 39% 的條目含有不正確的一階邏輯形式化標籤，MALLS 測試子集則有 36% 的錯誤率，此外還有模糊自然語言句子和錯誤的自然語言推理標籤。基於這些發現，研究團隊開發並釋出了修正後的真值標籤，並在三個先進的大型語言模型（Gemma 4 31B-it、Qwen3-30B-A3B 和 GPT-4o-mini）上測試，結果顯示準確率提升約 9 至 22 個百分點。為了支持人工審核過程，論文提出一個基於大型語言模型的框架，能引導審核者優先處理最容易出錯的實例。實驗表明，審核不到 24% 的實例即可達到數據集 90% 的準確率，相較於未引導的審核需要超過 70% 的實例。所有人工驗證的標註和框架代碼均已公開發布。

來源

來源：網頁來源

網頁來源Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling