研究06/04 24:14

可解釋AI生成文本偵測架構TELL

在AI生成文本偵測領域，現有方法雖然在分佈內表現良好，但輸出往往僅提供數字分數，缺乏對用戶如教授有用的解釋，限制了實際應用。為解決此問題，研究論文提出了一個名為TELL的新型架構，從基礎上整合可解釋性。TELL不僅提供數字分數以保持可比性，更關鍵的是，它會顯示模型認為文本是AI或人類撰寫的「線索」，讓用戶能根據自身判斷和寫作上下文做出決定。系統使用自訂的領域特定作者標註SFT數據集進行訓練，並進一步透過GRPO與課程學習來優化性能。評估結果顯示，TELL達到了與最先進偵測器競爭的表現，AUROC為0.927，同時原生提供解釋偵測決策基礎的標註。此外，透過人類標註數據集評估解釋質量，在具體性、可證偽性、連貫性、合理性和接地性等方面，平均贏率為72.3%，使用戶能夠批判性思考並自行決定。這項工作將AI生成文本偵測問題重新定義為以人為中心的視角，為專注於原生可解釋性的新型偵測器鋪平了道路。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Show, Don't TELL: Explainable AI-Generated Text Detection