研究06/03 01:35

誰在NLP中進行標註？2018年至2025年人類標註報告的大規模評估

研究論文提出，人類標註是許多NLP研究的基礎，從數據集構建到模型評估，但論文往往未清楚說明標註者身份和標註過程的控制方式。本研究對主要NLP會議進行首次大規模任務級審計，探討哪些標註細節被記錄、哪些被遺漏，以及報告如何隨時間、主題、會議和人類判斷的用途而變化。論文引入了一個統一的標註報告實踐分類法，並驗證了一個LLM輔助提取管線，對抗一個包含41篇論文和72個標註任務的人類裁定黃金標準，最佳模型達到與人類可比的協議，Krippendorff's alpha為0.606，對比人類間協議的0.585。使用此管線，研究構建了一個數據集，涵蓋2018年至2025年ACL會議論文，包含1,603篇論文中的2,667個標註任務，並發現論文經常報告操作細節如招募策略、標註者專業知識和標註量，但往往省略評估標註有效性所需的細節，包括培訓、語言能力、補償、社會人口統計學、裁定和協議值，尤其是在模型評估研究中。研究結果表明，NLP中的標註報告隨時間有所改善但仍不均衡，並建立了一個可擴展框架和最低限度的報告建議，以使人類標註更可靠、可重現和可解釋。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025