研究06/01 11:06

GGT-100K：用於可泛化現實世界影像修復的生成式地面實況

研究論文提出，現實世界影像修復因高品質配對訓練數據稀缺而面臨瓶頸。合成數據集雖豐富但常無法建模真實退化，而真實配對數據集則昂貴且難以獲取，導致模型在現實場景中泛化能力有限。為解決此問題，論文引入生成式地面實況（GGT）概念，利用生成式多模態基礎模型從低品質影像生成高品質目標。研究團隊系統評估了包括Nano-Banana-2和GPT-Image-2在內的九種先進模型，結果顯示Nano-Banana-2搭配基於視覺語言模型的自適應提示，在合成逼真且內容忠實的目標上表現最佳。他們進一步使用Nano-Banana-2構建GGT合成流程，通過多階段質量控制確保數據可靠性，並建立了GGT-100K數據集，包含103,707個訓練對和500個測試對，涵蓋多樣場景與複雜現實退化。實驗證明，GGT-100K能持續提升多種影像修復模型的泛化能力，特別是在微調生成模型時效果顯著。論文指出，生成式多模態基礎模型可作為實用的數據生成工具，GGT-100K有助於擴展影像修復模型的泛化邊界。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration