返回事件流

Parallax:保留 Softmax 並學習共變異數校正分支的參數化局部線性注意力

據媒體報導,來自西北大學、Tilde 研究所和華盛頓大學的研究團隊提出了一種名為 Parallax 的參數化局部線性注意力機制。該機制旨在改進 Transformer 中的注意力部分,傳統 softmax 注意力自 2017 年以來基本未變,而 Parallax 選擇保留 softmax 並添加一個學習的共變異數校正分支。技術上,Parallax 基於局部線性注意力(LLA),但通過學習一個投影矩陣替換了原始的共軛梯度求解器,從而簡化了計算並提升了效率。研究團隊指出,Parallax 繼承了 FlashAttention 的流式結構,新增的共變異數分支共享相同的鍵值流,因此不引入額外的 I/O 開銷,反而提高了算術強度,使注意力更傾向於計算密集型任務。在硬體實現上,他們在 NVIDIA Hopper GPU 上原型了內核,匹配或優於 FlashAttention,並在 H200 GPU 上進行了效能測試。實驗部分,Parallax 在合成任務如 MAD-Benchmark 上達到最高平均準確率 0.716,並在 LLM 預訓練(0.6B 和 1.7B 模型)中,在 Muon 優化器下展現最佳困惑度和下游準確率,例如在 1.7B 模型上平均得分 62.45,超越傳統 Transformer 的 61.43。研究還發現 Parallax 的優勢在 Muon 優化器下尤為明顯,而在 AdamW 下則減弱。

來源

來源:媒體報導