返回事件流

音訊互動模型:統一串流音訊處理的線上大型音訊語言模型

研究論文提出音訊互動模型(Audio Interaction Model),旨在解決現有大型音訊語言模型的侷限。論文指出,音訊本質上是互動式模態,但當前模型多為離線或僅處理單一串流任務,如語音辨識或聊天。因此,研究者形式化了音訊互動模型為一個線上大型音訊語言模型,透過持續運作的感知-決定-迴應迴圈,即時聆聽聲音、環境和指令並快速反應。為實現此模型,論文引入Audio-Interaction統一串流模型,並提出SoundFlow框架,從資料建構、訓練到部署端對端實例化該迴圈。此外,研究者建構了StreamAudio-2M串流語料庫,包含260萬項目,涵蓋7種基本能力和28個子任務,以及Proactive-Sound-Bench評估主動音訊介入。在8個基準測試中,Audio-Interaction在主流音訊任務上保持競爭性能,同時解鎖了即時語音辨識、串流音訊指令跟隨和主動幫助等新能力,為AI音訊應用帶來進展。

來源:Hugging Face / 論文來源