GGT-100K:用於可泛化現實世界影像修復的生成式地面實況
研究論文提出,現實世界影像修復因高品質配對訓練數據稀缺而面臨瓶頸。合成數據集雖豐富但常無法建模真實退化,而真實配對數據集則昂貴且難以獲取,導致模型在現實場景中泛化能力有限。為解決此問題,論文引入生成式地面實況(GGT)概念,利用生成式多模態基礎模型從低品質影像生成高品質目標。研究團隊系統評估了包括Nano-Banana-2和GPT-Image-2在內的九種先進模型,結果顯示Nano-Banana-2搭配基於視覺語言模型的自適應提示,在合成逼真且內容忠實的目標上表現最佳。他們進一步使用Nano-Banana-2構建GGT合成流程,通過多階段質量控制確保數據可靠性,並建立了GGT-100K數據集,包含103,707個訓練對和500個測試對,涵蓋多樣場景與複雜現實退化。實驗證明,GGT-100K能持續提升多種影像修復模型的泛化能力,特別是在微調生成模型時效果顯著。論文指出,生成式多模態基礎模型可作為實用的數據生成工具,GGT-100K有助於擴展影像修復模型的泛化邊界。
來源
來源:Hugging Face / 論文來源