NumLeak:基礎模型中數值基準的記憶化測量
研究論文提出 NumLeak 框架,專門測量基礎模型對公開數值基準的記憶化程度。論文探討指出,由於這些基準常見於預訓練數據中,基於日期的評估可能僅測量模型的記憶回憶,而非真正的樣本外技能。NumLeak 結合 API 邊界探測與白盒控制驗證方法。實驗結果顯示,頂級大型語言模型(LLMs)對 Fama-French 市場超額回報等數值有高達 0.97-0.99 的 Pearson 相關係數,表明模型高度記憶這些基準;類似情況也出現在美國失業率、CPI 通膨和 NOAA 溫度數據上。在最近發布的數據子集上,解析率降至 21-57%,但相關性仍維持約 0.99,符合記憶化通道預測的拒絕或回憶不對稱性。白盒實驗重現劑量反應,對數機率排名檢測到開放生成遺漏的記憶化,暗示封閉 API 黑盒探測低估此通道。論文還提到 Sonnet 模型的「日期到市場情緒」回歸分析,在殘差化自身記憶後相關性從 0.74 崩潰至 0.02,突顯記憶化影響。此外,一行系統提示防禦能阻止 99.8% 的非自適應單輪後綴攻擊,實用成本低,僅略微影響概念和歷史敘事查詢。
來源
來源:網頁來源