線性集成消除水印:大型語言模型分佈擾動的脆弱性
研究論文提出,AI 生成文本的水印技術旨在嵌入統計簽名以便偵測和歸因。然而,論文揭示一個根本性漏洞:在現實中用戶常訪問多個模型,水印容易失敗。水印擾動輸出分佈偏離原始,在競爭市場中這些擾動通常獨立。理論證明平均輸出概率分佈可恢復未水印分佈,誤差為二階項。實驗顯示,簡單平均 3-5 個模型即可消除擾動。研究引入 WASH(Watermark Attenuation via Statistical Hybridisation)方法,解決集成生成中的詞彙不對齊和詞元化差異等實際挑戰。跨六種水印方案和三種大型語言模型的實驗表明,平均三個模型可將偵測 z 分數從 5-300 抑制到低於 2,低於偵測閾值 4,並將 5% 誤報率下的真正率降至 50% 以下,同時質量提升 27.5%,運行速度比最佳基線快 6 倍。研究結果暗示,透過水印實現穩健的 AI 文本偵測,要麼接受此根本漏洞,要麼需要模型提供者之間前所未有的協調。
來源
來源:網頁來源