返回事件流

深度層價值向量無需殘差流上下文?

研究論文探討了 Transformer 架構中注意力層的價值向量計算方式。傳統上,注意力層依賴殘差流來生成上下文相關的查詢、鍵和價值向量。然而,論文發現在深層模型中,學習一個上下文自由的價值向量,僅保留原始令牌信息,可以顯著提升模型性能。當模型存取此類上下文自由的價值向量時,添加上下文相關的成分對整體基準性能帶來的額外效益有限。這種上下文自由的價值向量可以儲存為稀疏模型參數,無需重新計算或持續快取。通過對設計選擇進行系統消融研究,作者提出了 Bank of Values(BoV),一種在注意力中計算價值向量的新方法,通過為最後三分之一層學習令牌特定的價值向量查找表來實現。在 135M 和 780M 參數的模型上進行測試,BoV 改善了驗證損失,並且在 780M 模型上,跨 21 個基準的平均分數匹配了先前最佳方法,同時使用更少的計算和記憶體。這項研究為優化大語言模型的架構提供了新思路,有望在效率和性能之間取得更好平衡。

來源

來源:網頁來源