返回事件流

PhotoCraft:深度圖像搜索的層次化記憶系統

在深度圖像搜索領域,多步推理需要依賴時間、地點和事件關係等豐富上下文線索。然而,現有的基於大型語言模型(LLM)的代理通常缺乏持久記憶,無法維持長期上下文或跨任務遷移經驗,導致執行漂移和經驗孤立。為解決這些限制,研究論文提出 PhotoCraft,一個免訓練的層次化記憶系統,靈感源自人類認知。PhotoCraft 為多模態大型語言模型(MLLM)配備工作記憶、情節記憶和語義記憶,這些記憶在推理過程中被動態調用,以保持邏輯一致性和知識可遷移性,貫穿多步推理和答案生成。在 DISBench 基準測試上的大量實驗表明,PhotoCraft 在多種 MLLM 骨幹上持續改善上下文感知檢索效能,最高可達 18.5% 的增益,有效緩解了無記憶深度圖像搜索的關鍵瓶頸,為可靠且可泛化的多模態搜索代理提供了實踐路徑。

來源

來源:網頁來源