返回事件流

StreamChar:長時域串流角色音視頻生成框架

研究論文提出 StreamChar 框架,旨在解決長時域串流角色動畫中音視頻生成的挑戰。傳統方法在分塊自回歸生成中容易累積轉錄-音頻不對齊和視覺漂移,而為低延遲所需的少步蒸餾往往降低空間多樣性和時間質量。StreamChar 將長期編排與短期音視頻去噪分離:一個基於 LLM 的編排器根據轉錄和歷史上下文生成幀對齊的音頻條件,而一個聯合音視頻 DiT 模型執行局部雙向去噪,並使用參考和運動幀條件。為高效部署,論文採用兩階段蒸餾流程,先壓縮取樣器,再在線上塊滾動下微調學生模型。此外,進度感知指針在滾動訓練期間對齊部分轉錄與生成音頻,而匯塊記憶提供持久視覺錨點以減少長期漂移。實驗在短剪輯和長時域協議上顯示,StreamChar 在單個 H100 GPU 上實時運行,並在轉錄保真度、音視頻同步、視覺質量和串流穩定性方面優於最近的聯合和音頻驅動基線。

來源

來源:Hugging Face / 論文來源