研究06/02 24:10

Parallax：保留 Softmax 並學習共變異數校正分支的參數化局部線性注意力

據媒體報導，來自西北大學、Tilde 研究所和華盛頓大學的研究團隊提出了一種名為 Parallax 的參數化局部線性注意力機制。該機制旨在改進 Transformer 中的注意力部分，傳統 softmax 注意力自 2017 年以來基本未變，而 Parallax 選擇保留 softmax 並添加一個學習的共變異數校正分支。技術上，Parallax 基於局部線性注意力（LLA），但通過學習一個投影矩陣替換了原始的共軛梯度求解器，從而簡化了計算並提升了效率。研究團隊指出，Parallax 繼承了 FlashAttention 的流式結構，新增的共變異數分支共享相同的鍵值流，因此不引入額外的 I/O 開銷，反而提高了算術強度，使注意力更傾向於計算密集型任務。在硬體實現上，他們在 NVIDIA Hopper GPU 上原型了內核，匹配或優於 FlashAttention，並在 H200 GPU 上進行了效能測試。實驗部分，Parallax 在合成任務如 MAD-Benchmark 上達到最高平均準確率 0.716，並在 LLM 預訓練（0.6B 和 1.7B 模型）中，在 Muon 優化器下展現最佳困惑度和下游準確率，例如在 1.7B 模型上平均得分 62.45，超越傳統 Transformer 的 61.43。研究還發現 Parallax 的優勢在 Muon 優化器下尤為明顯，而在 AdamW 下則減弱。

來源

來源：媒體報導

媒體報導Parallax: A Parameterized Local Linear Attention That Keeps Softmax and Adds a Learned Covariance Correction Branch