基於區域感知的雙模態直接偏好優化之組合文字到圖像生成
研究論文提出 BiDPO 框架,旨在解決文字到圖像模型在生成準確反映複雜組合提示圖像時的挑戰。這些提示涵蓋屬性綁定、物體關係和計數等元素。論文首先介紹一個精心設計的流程,建構大規模偏好數據集 BiComp,並實施嚴格的質量控制。接著,擴展 Diffusion DPO 以聯合優化圖像和文字偏好,實驗顯示這能極大提升模型遵循複雜文字提示的能力。為了進一步增強細粒度對齊,研究採用區域級引導方法,聚焦於與組合概念相關的區域。實驗結果表明,BiDPO 在多個基準測試中顯著提高組合保真度,一致優於先前方法。論文強調基於偏好的微調在複雜文字到圖像任務中的潛力,提供靈活且可擴展的替代方案。
來源
來源:Hugging Face / 論文來源