研究06/03 24:07

AEyeDE：用於 AI 生成文本檢測的基於注意力歸因框架

研究論文在 arXiv 上發布，提出了 AEyeDE，這是一個基於注意力的歸因框架，專門用於檢測 AI 生成的文本。論文指出，由於現代語言模型的流暢度接近人類水平，傳統依賴表面統計或似然信號的檢測器容易被規避。AEyeDE 通過利用模型注意力作為區分信號，使用代理 Transformer 模型提取注意力矩陣，並訓練一個輕量級的卷積神經網絡來學習歸因地圖的表示。在編碼器-解碼器翻譯設置中，該方法持續優於純文本基線；在僅解碼器設置中，它在生成器特定檢測中表現強勁，在標準基準測試中保持競爭力，並在跨數據集遷移和替代拼寫擾動下顯示出穩健性。此外，研究發現注意力圖顯示出重複的局部結構，其相對頻率在人類和 AI 生成文本之間在不同數據集和代理模型中一致差異，這表明基於注意力的歸因地圖為 AI 生成文本檢測提供了補充且可解釋的信號。研究團隊承諾將公開代碼以支持未來研究。

來源

來源：網頁來源

網頁來源AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection