可解釋AI生成文本偵測架構TELL
在AI生成文本偵測領域,現有方法雖然在分佈內表現良好,但輸出往往僅提供數字分數,缺乏對用戶如教授有用的解釋,限制了實際應用。為解決此問題,研究論文提出了一個名為TELL的新型架構,從基礎上整合可解釋性。TELL不僅提供數字分數以保持可比性,更關鍵的是,它會顯示模型認為文本是AI或人類撰寫的「線索」,讓用戶能根據自身判斷和寫作上下文做出決定。系統使用自訂的領域特定作者標註SFT數據集進行訓練,並進一步透過GRPO與課程學習來優化性能。評估結果顯示,TELL達到了與最先進偵測器競爭的表現,AUROC為0.927,同時原生提供解釋偵測決策基礎的標註。此外,透過人類標註數據集評估解釋質量,在具體性、可證偽性、連貫性、合理性和接地性等方面,平均贏率為72.3%,使用戶能夠批判性思考並自行決定。這項工作將AI生成文本偵測問題重新定義為以人為中心的視角,為專注於原生可解釋性的新型偵測器鋪平了道路。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Show, Don't TELL: Explainable AI-Generated Text Detection