低資源口音魯棒語音識別中的凸優化語言檢測
研究論文指出,全球化與多元文化的發展帶來了日益多樣的語音變異,但現有的口語對話系統在處理代表性不足的方言和口音時經常失敗,導致語言誤識別並引發下游任務的連鎖錯誤。針對低資源環境下方言變異的挑戰,論文提出了凸優化語言檢測(CLD)框架,將理論基礎的凸優化技術整合到語音對話系統中。該方法通過多GPU交替方向乘子法(ADMM)在JAX中高效實現,提供全局最優性保證和多項式時間內的快速訓練。理論上,論文證明了凸目標函數能誘導認證邊距穩定性並提供對特徵擾動的保證。實驗上,CLD框架展現了樣本效率和對輸入方言變異的魯棒性,在挑戰性的低資源環境中達到 97-98% 的準確率。此外,研究團隊已將相關開源套件發布在PyPI上,供社群使用與驗證。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Convex Low-resource Accent-Robust Language Detection in Speech Recognition