研究06/01 12:17

記憶設計：概率序列層的設計模型框架

研究論文提出了一種名為設計模型框架的新方法，用於從明確的記憶假設中推導出高效的循環序列映射。在這個框架中，設計模型透過精確的貝葉斯濾波將證據寫入記憶，而查詢相關的讀出則產生預測分佈，其均值作為層輸出。以線性高斯實例化為例，貝葉斯層同時傳播均值和協方差，協方差追蹤儲存關聯的不確定性，引導寫入朝向不確定方向，並在證據累積時衰減增益，從而保留自信的記憶。同一框架統一了多種子二次方遞歸模型，如線性注意力、GLA 和 Mamba-2/SSD 在一個設計模型下是精確濾波器，而 DeltaNet 及相關模型則作為協方差重置簡化出現。恢復協方差後，能為檢索動態提供閉式預測，並在控制碰撞研究、學習關聯回憶和 Zoology MQAR 基準測試中驗證，改善了訓練範圍外的魯棒性。此外，將貝葉斯層蒸餾到預訓練的 340M 門控 DeltaNet 中，能在匹配計算量下提升 RULER 長上下文檢索性能。

來源

來源：網頁來源

網頁來源Memory by Design: Probabilistic Sequence Layers