返回事件流

Bootstrap Your Generator:使用流匹配的非配對視覺編輯

在 HuggingFace 上發布的研究論文中,作者提出 Bootstrap Your Generator(ByG)框架,這是一個通用的非配對訓練流匹配編輯模型方法。現代生成模型雖然對視覺內容有深入理解,但訓練圖像編輯通常依賴大規模配對數據集,這限制了可擴展性,尤其在視頻編輯中收集配對數據成本極高。ByG 利用基礎模型的知識,無需外部信號,通過從凍結模型中提取指令跟隨線索,並結合循環一致性來保持結構。為使訓練可行,作者提出一種梯度路由技術,將下游損失的梯度從乾淨預測路由到嘈雜訓練狀態。在挑戰性的數據稀缺圖像和視頻編輯場景中,ByG 展示了最先進的成果。廣泛評估和用戶研究表明,該方法能有效泛化到未見過的領域,並優越於在數百萬樣本上訓練的監督基線。分析進一步揭示,梯度路由彌合了訓練與推理之間的差距,而從基礎模型提取語義線索提供了穩健的訓練信號,從而消除了對外部獎勵模型的需求。

來源:Hugging Face / 論文來源