AEyeDE:用於 AI 生成文本檢測的基於注意力歸因框架
研究論文在 arXiv 上發布,提出了 AEyeDE,這是一個基於注意力的歸因框架,專門用於檢測 AI 生成的文本。論文指出,由於現代語言模型的流暢度接近人類水平,傳統依賴表面統計或似然信號的檢測器容易被規避。AEyeDE 通過利用模型注意力作為區分信號,使用代理 Transformer 模型提取注意力矩陣,並訓練一個輕量級的卷積神經網絡來學習歸因地圖的表示。在編碼器-解碼器翻譯設置中,該方法持續優於純文本基線;在僅解碼器設置中,它在生成器特定檢測中表現強勁,在標準基準測試中保持競爭力,並在跨數據集遷移和替代拼寫擾動下顯示出穩健性。此外,研究發現注意力圖顯示出重複的局部結構,其相對頻率在人類和 AI 生成文本之間在不同數據集和代理模型中一致差異,這表明基於注意力的歸因地圖為 AI 生成文本檢測提供了補充且可解釋的信號。研究團隊承諾將公開代碼以支持未來研究。
來源
來源:網頁來源