研究06/04 24:46

幽靈標註器：探索內容審核人類標籤變異的共形預測框架

研究論文提出一個結合共形預測與協同過濾式標註器表示的新框架，用以建模大型語言模型（LLM）行為與人類標註者之間的關係。該框架引入「幽靈預測」指標和「幽靈標註器」表示，以量化模型預測與所有人類標註不一致的情況。論文透過計算餘弦相似度，探討不同社會人口學軸線上模型行為的差異。研究在四個內容審核資料集上評估了四種不同大小和家族的LLM。結果顯示，所有模型的不確定性隨著標註者分歧而增加，但較大的模型傾向於對與人類標註不對齊的文本分類更有信心。最後，幽靈標註器框架揭示了一致且穩健的人口統計學錯位模式，暗示可能存在源於預訓練語料庫的結構性偏差。

來源

來源：網頁來源

網頁來源The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction