返回事件流

解耦殘差去噪擴散模型:統一高效圖像翻譯

根據Hugging Face上的研究論文,提出了解耦殘差去噪擴散模型(DRDD),用於解決圖像到圖像翻譯中的數據效率與統一性問題。論文指出,傳統擴散模型在注入高斯噪聲時,除了傳統的流形提升作用外,還能隱式對齊不同域的特徵分佈,實現領域和諧化。然而,現有模型在單一耦合擴散過程中同時去除噪聲與殘差,過早削弱了和諧化效果。為此,DRDD將擴散過程解耦為兩個順序且獨立的階段:第一階段是隨機噪聲擴散,專門負責領域和諧化與流形提升;第二階段是確定性殘差擴散,在固定噪聲域內學習語義映射。這種解耦設計確保了和諧化效果的持續保留,從而簡化了多樣化任務的統一映射學習。此外,噪聲擴散階段僅需使用大量未配對的目標域圖像訓練,大幅提升了數據效率。綜合理論與實驗分析顯示,DRDD與主流擴散模型高度兼容,即使在配對數據有限的情況下,也能提供穩健且統一的圖像翻譯性能。相關代碼已於GitHub上開源發布。

來源:Hugging Face / 論文來源