研究06/02 10:36

StreamChar：長時域串流角色音視頻生成框架

研究論文提出 StreamChar 框架，旨在解決長時域串流角色動畫中音視頻生成的挑戰。傳統方法在分塊自回歸生成中容易累積轉錄-音頻不對齊和視覺漂移，而為低延遲所需的少步蒸餾往往降低空間多樣性和時間質量。StreamChar 將長期編排與短期音視頻去噪分離：一個基於 LLM 的編排器根據轉錄和歷史上下文生成幀對齊的音頻條件，而一個聯合音視頻 DiT 模型執行局部雙向去噪，並使用參考和運動幀條件。為高效部署，論文採用兩階段蒸餾流程，先壓縮取樣器，再在線上塊滾動下微調學生模型。此外，進度感知指針在滾動訓練期間對齊部分轉錄與生成音頻，而匯塊記憶提供持久視覺錨點以減少長期漂移。實驗在短剪輯和長時域協議上顯示，StreamChar 在單個 H100 GPU 上實時運行，並在轉錄保真度、音視頻同步、視覺質量和串流穩定性方面優於最近的聯合和音頻驅動基線。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration