研究06/01 12:10

線性集成消除水印：大型語言模型分佈擾動的脆弱性

研究論文提出，AI 生成文本的水印技術旨在嵌入統計簽名以便偵測和歸因。然而，論文揭示一個根本性漏洞：在現實中用戶常訪問多個模型，水印容易失敗。水印擾動輸出分佈偏離原始，在競爭市場中這些擾動通常獨立。理論證明平均輸出概率分佈可恢復未水印分佈，誤差為二階項。實驗顯示，簡單平均 3-5 個模型即可消除擾動。研究引入 WASH（Watermark Attenuation via Statistical Hybridisation）方法，解決集成生成中的詞彙不對齊和詞元化差異等實際挑戰。跨六種水印方案和三種大型語言模型的實驗表明，平均三個模型可將偵測 z 分數從 5-300 抑制到低於 2，低於偵測閾值 4，並將 5% 誤報率下的真正率降至 50% 以下，同時質量提升 27.5%，運行速度比最佳基線快 6 倍。研究結果暗示，透過水印實現穩健的 AI 文本偵測，要麼接受此根本漏洞，要麼需要模型提供者之間前所未有的協調。

來源

來源：網頁來源

網頁來源Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs