SwanSphere 串流空間音頻生成框架
研究論文提出 SwanSphere,一個統一的串流框架,用於從全景影片和文字提示生成高保真空間音頻。論文探討現有技術在生成品質與推論延遲之間的權衡,以及從多模態輸入捕捉精確空間資訊的困難。SwanSphere 的主要貢獻包括:引入因果自迴歸擴散變壓器架構以實現串流高品質空間音頻生成;設計空間視訊-音頻對比學習策略(SVAC)來對齊視訊編碼器與音頻領域,並採用多目標線上直接偏好優化(ODPO)方案,以增強空間感知和穩健的多模態空間音頻合成;為緩解空間音頻數據集的稀缺性,開發了自動標註管線以生成詳細的空間描述。實驗結果顯示,SwanSphere 在視訊到空間和文字到空間音頻生成任務中均達到優越性能,展示了在虛擬實境和多媒體應用中的潛力。展示可在 https://swanaigc.github.io 找到。
來源
來源:Hugging Face / 論文來源