返回事件流

LongLive-RAG:通用檢索增強長影片生成框架

研究論文提出LongLive-RAG,這是一個通用的檢索增強框架,專為解決長影片生成中的累積錯誤和身份漂移問題而設計。自迴歸影片擴散雖然能進行可變長度合成,但在長時間生成中常出現誤差累積和身份漂移。現有方法通常採用滑動窗口注意力以提高效率,但這會導致不可逆的生成軌跡,一旦當前窗口積累錯誤,後續生成只能基於這個退化軌跡,進一步加劇漂移。LongLive-RAG將長影片生成重新定義為檢索增強生成問題,不依賴於最近的窗口,而是將先前生成的潛在表示視為可動態搜索的歷史記錄。在每個新區塊中,LongLive-RAG使用查詢嵌入來檢索相關的歷史潛在表示。這個輕量級檢索步驟僅增加少量開銷,讓生成器能基於非局部上下文進行條件生成,而不僅僅是最近窗口。為了使檢索更具區分性,論文引入了窗口時間增量損失,抑制冗餘的局部相似性,並鼓勵嵌入捕捉有意義的時間變化。這些組件共同幫助減少由滑動窗口注意力引起的錯誤累積。實驗在多個自迴歸骨幹和生成長度上進行,結果顯示改進了長影片質量,並在VBench-Long排名中獲得最佳平均值。據我們所知,在開放式自迴歸長影片生成方法中,LongLive-RAG是首個將自生成的潛在歷史定義為內容可尋址檢索記憶的框架。代碼已在GitHub上公開。

來源

來源:Hugging Face / 論文來源