光譜漸進思維流用於輕量級多模態推理
來自arXiv的研究論文提出了一種名為SpecFlow的輕量級多模態空間推理框架。傳統多模態推理常依賴長鏈的中間文字和視覺思考,但積累視覺標記和密集的跨模態注意力會導致顯著的計算和記憶體開銷。為解決此挑戰,SpecFlow透過在固定大小的離散餘弦空間中表示中間視覺思想,利用其強大的能量壓縮特性,在保留全局佈局和關係結構的同時,僅在需要更高空間精度時引入高頻細節。此外,透過無分類器引導,自回歸的文字思考可以引導視覺工作區的基於流的更新,而無需擴展上下文。這使得SpecFlow能夠維持一個有界的視覺工作區,其更新僅取決於當前視覺狀態和累積的文字軌跡,從而實現長時間推理,延遲和記憶體使用穩定,不受推理深度影響。實驗結果表明,SpecFlow在保持競爭性或優越的推理性能的同時,將計算和KV快取成本降低了高達2.1倍。
來源
來源:網頁來源