DecMem:解耦記憶架構實現分鐘級一致世界生成
研究論文探討了影片生成模型在可控世界模型中的近期進展,但指出在長時間推理中維持細粒度時空一致性仍是一項關鍵挑戰。傳統方法依賴顯式3D記憶或粗粒度幀級隱式建模,導致計算效率低下和注意力分散等問題。為此,論文提出 DecMem,一種解耦記憶架構,結合稀疏全域記憶以實現高效細粒度的全域歷史存取,以及錨定局部記憶來確保穩定且高品質的外推。透過系統分析注意力分散,DecMem 實現了精確且可擴展的長期記憶。廣泛實驗證明,DecMem 在生成長達分鐘級的影片時,顯著優於現有最先進方法,提供高保真度和一致性的可控生成能力,這項研究為遊戲、虛擬實境等應用帶來新的可能性。
來源
來源:Hugging Face / 論文來源