返回事件流

SANA-Streaming:使用混合擴散轉換器的即時串流影片編輯

研究論文提出 SANA-Streaming,一個針對即時串流影片編輯的系統-演算法協同設計框架。即時串流影片編輯在直播和遊戲等互動應用中至關重要,但由於時間一致性和推理吞吐量的嚴格要求,仍是一個巨大挑戰。SANA-Streaming 有三個核心設計:首先,混合擴散轉換器架構在部分區塊引入 softmax 注意力,以提高局部建模能力同時保持線性層的效率;其次,循環反向正則化是一種新穎的訓練策略,通過流匹配從生成內容預測源幀來強制語義一致性,從而提高時間連貫性,無需配對的長編輯影片;第三,高效系統協同設計結合了融合 GDN 核心和針對 NVIDIA Blackwell(RTX 5090)架構優化的混合精度量化。通過分析實際吞吐量,混合精度量化最大化了張量核心利用率,同時保持生成質量。最終系統在單張 RTX 5090 GPU 上實現了 1280 x 704 解析度的即時編輯,端到幀率為 24 FPS,DiT 核心運行速度為 58 FPS。實驗結果表明,這種協同設計方法在時間連貫性和系統吞吐量上均顯著優於現有的最先進方法。

來源

來源:Hugging Face / 論文來源