研究06/04 24:44

深度層價值向量無需殘差流上下文？

研究論文探討了 Transformer 架構中注意力層的價值向量計算方式。傳統上，注意力層依賴殘差流來生成上下文相關的查詢、鍵和價值向量。然而，論文發現在深層模型中，學習一個上下文自由的價值向量，僅保留原始令牌信息，可以顯著提升模型性能。當模型存取此類上下文自由的價值向量時，添加上下文相關的成分對整體基準性能帶來的額外效益有限。這種上下文自由的價值向量可以儲存為稀疏模型參數，無需重新計算或持續快取。通過對設計選擇進行系統消融研究，作者提出了 Bank of Values（BoV），一種在注意力中計算價值向量的新方法，通過為最後三分之一層學習令牌特定的價值向量查找表來實現。在 135M 和 780M 參數的模型上進行測試，BoV 改善了驗證損失，並且在 780M 模型上，跨 21 個基準的平均分數匹配了先前最佳方法，同時使用更少的計算和記憶體。這項研究為優化大語言模型的架構提供了新思路，有望在效率和性能之間取得更好平衡。

來源

來源：網頁來源

網頁來源Do Value Vectors in Deep Layers Need Context from the Residual Stream?