返回事件流

幽靈標註器:探索內容審核人類標籤變異的共形預測框架

研究論文提出一個結合共形預測與協同過濾式標註器表示的新框架,用以建模大型語言模型(LLM)行為與人類標註者之間的關係。該框架引入「幽靈預測」指標和「幽靈標註器」表示,以量化模型預測與所有人類標註不一致的情況。論文透過計算餘弦相似度,探討不同社會人口學軸線上模型行為的差異。研究在四個內容審核資料集上評估了四種不同大小和家族的LLM。結果顯示,所有模型的不確定性隨著標註者分歧而增加,但較大的模型傾向於對與人類標註不對齊的文本分類更有信心。最後,幽靈標註器框架揭示了一致且穩健的人口統計學錯位模式,暗示可能存在源於預訓練語料庫的結構性偏差。

來源

來源:網頁來源