研究06/02 09:06

線性化視覺 Transformer 與測試時訓練

根據 HuggingFace 上發布的研究論文，論文探討了如何將視覺 Transformer 中的 Softmax 注意力機制線性化，以克服二次方計算瓶頸問題。作者從架構對齊和表示對齊兩個角度出發，識別出測試時訓練（TTT）作為線性複雜度架構，其兩層動態公式與 Softmax 注意力結構對齊，使得能直接繼承預訓練的注意力權重。為進一步對齊表示屬性，如平移不變性和局部性，引入了關鍵實例標準化和輕量級局部性增強模塊。研究在 Stable Diffusion 3.5 上進行驗證，提出了 SD3.5-T^5 模型。實驗結果顯示，僅需在 4 倍 H20 GPU 上微調 1 小時，SD3.5-T^5 在 1K 和 2K 解析度下分別實現 1.32 倍和 1.47 倍的推理加速，同時維持與微調後 Softmax 模型相當的文字到圖像生成質量。相關代碼已公開於 GitHub 平台。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Linearizing Vision Transformer with Test-Time Training