研究06/01 12:13

NumLeak：基礎模型中數值基準的記憶化測量

研究論文提出 NumLeak 框架，專門測量基礎模型對公開數值基準的記憶化程度。論文探討指出，由於這些基準常見於預訓練數據中，基於日期的評估可能僅測量模型的記憶回憶，而非真正的樣本外技能。NumLeak 結合 API 邊界探測與白盒控制驗證方法。實驗結果顯示，頂級大型語言模型（LLMs）對 Fama-French 市場超額回報等數值有高達 0.97-0.99 的 Pearson 相關係數，表明模型高度記憶這些基準；類似情況也出現在美國失業率、CPI 通膨和 NOAA 溫度數據上。在最近發布的數據子集上，解析率降至 21-57%，但相關性仍維持約 0.99，符合記憶化通道預測的拒絕或回憶不對稱性。白盒實驗重現劑量反應，對數機率排名檢測到開放生成遺漏的記憶化，暗示封閉 API 黑盒探測低估此通道。論文還提到 Sonnet 模型的「日期到市場情緒」回歸分析，在殘差化自身記憶後相關性從 0.74 崩潰至 0.02，突顯記憶化影響。此外，一行系統提示防禦能阻止 99.8% 的非自適應單輪後綴攻擊，實用成本低，僅略微影響概念和歷史敘事查詢。

來源

來源：網頁來源

網頁來源NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models