線性化視覺 Transformer 與測試時訓練
根據 HuggingFace 上發布的研究論文,論文探討了如何將視覺 Transformer 中的 Softmax 注意力機制線性化,以克服二次方計算瓶頸問題。作者從架構對齊和表示對齊兩個角度出發,識別出測試時訓練(TTT)作為線性複雜度架構,其兩層動態公式與 Softmax 注意力結構對齊,使得能直接繼承預訓練的注意力權重。為進一步對齊表示屬性,如平移不變性和局部性,引入了關鍵實例標準化和輕量級局部性增強模塊。研究在 Stable Diffusion 3.5 上進行驗證,提出了 SD3.5-T^5 模型。實驗結果顯示,僅需在 4 倍 H20 GPU 上微調 1 小時,SD3.5-T^5 在 1K 和 2K 解析度下分別實現 1.32 倍和 1.47 倍的推理加速,同時維持與微調後 Softmax 模型相當的文字到圖像生成質量。相關代碼已公開於 GitHub 平台。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Linearizing Vision Transformer with Test-Time Training