返回事件流

記憶設計:概率序列層的設計模型框架

研究論文提出了一種名為設計模型框架的新方法,用於從明確的記憶假設中推導出高效的循環序列映射。在這個框架中,設計模型透過精確的貝葉斯濾波將證據寫入記憶,而查詢相關的讀出則產生預測分佈,其均值作為層輸出。以線性高斯實例化為例,貝葉斯層同時傳播均值和協方差,協方差追蹤儲存關聯的不確定性,引導寫入朝向不確定方向,並在證據累積時衰減增益,從而保留自信的記憶。同一框架統一了多種子二次方遞歸模型,如線性注意力、GLA 和 Mamba-2/SSD 在一個設計模型下是精確濾波器,而 DeltaNet 及相關模型則作為協方差重置簡化出現。恢復協方差後,能為檢索動態提供閉式預測,並在控制碰撞研究、學習關聯回憶和 Zoology MQAR 基準測試中驗證,改善了訓練範圍外的魯棒性。此外,將貝葉斯層蒸餾到預訓練的 340M 門控 DeltaNet 中,能在匹配計算量下提升 RULER 長上下文檢索性能。

來源

來源:網頁來源