研究06/04 14:25

解耦殘差去噪擴散模型：統一高效圖像翻譯

根據Hugging Face上的研究論文，提出了解耦殘差去噪擴散模型（DRDD），用於解決圖像到圖像翻譯中的數據效率與統一性問題。論文指出，傳統擴散模型在注入高斯噪聲時，除了傳統的流形提升作用外，還能隱式對齊不同域的特徵分佈，實現領域和諧化。然而，現有模型在單一耦合擴散過程中同時去除噪聲與殘差，過早削弱了和諧化效果。為此，DRDD將擴散過程解耦為兩個順序且獨立的階段：第一階段是隨機噪聲擴散，專門負責領域和諧化與流形提升；第二階段是確定性殘差擴散，在固定噪聲域內學習語義映射。這種解耦設計確保了和諧化效果的持續保留，從而簡化了多樣化任務的統一映射學習。此外，噪聲擴散階段僅需使用大量未配對的目標域圖像訓練，大幅提升了數據效率。綜合理論與實驗分析顯示，DRDD與主流擴散模型高度兼容，即使在配對數據有限的情況下，也能提供穩健且統一的圖像翻譯性能。相關代碼已於GitHub上開源發布。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation