誰在NLP中進行標註?2018年至2025年人類標註報告的大規模評估
研究論文提出,人類標註是許多NLP研究的基礎,從數據集構建到模型評估,但論文往往未清楚說明標註者身份和標註過程的控制方式。本研究對主要NLP會議進行首次大規模任務級審計,探討哪些標註細節被記錄、哪些被遺漏,以及報告如何隨時間、主題、會議和人類判斷的用途而變化。論文引入了一個統一的標註報告實踐分類法,並驗證了一個LLM輔助提取管線,對抗一個包含41篇論文和72個標註任務的人類裁定黃金標準,最佳模型達到與人類可比的協議,Krippendorff's alpha為0.606,對比人類間協議的0.585。使用此管線,研究構建了一個數據集,涵蓋2018年至2025年ACL會議論文,包含1,603篇論文中的2,667個標註任務,並發現論文經常報告操作細節如招募策略、標註者專業知識和標註量,但往往省略評估標註有效性所需的細節,包括培訓、語言能力、補償、社會人口統計學、裁定和協議值,尤其是在模型評估研究中。研究結果表明,NLP中的標註報告隨時間有所改善但仍不均衡,並建立了一個可擴展框架和最低限度的報告建議,以使人類標註更可靠、可重現和可解釋。
來源
來源:Hugging Face / 論文來源