研究06/04 24:10

TVIR：打造深度研究代理實現文字視覺交錯報告生成

研究論文提出 TVIR（Text--Visual Interleaved Report Generation）框架，旨在解決現有深度研究代理在報告生成中過度文字中心、視覺元素可靠性與對齊評估不足的問題。論文介紹 TVIR-Bench，一個由專家策劃的基準測試，涵蓋 100 個多模態深度研究任務，要求視覺元素服務於具體分析子目標；同時提出 TVIR-Agent，一個分層多代理架構，作為強力基線，能構建大綱、檢索圖像、生成可追溯來源的圖表，並透過上下文感知的順序寫作組合報告。研究還開發了結合文字評估與視覺評估的雙路徑評估框架。實驗在九個深度研究系統上進行，結果顯示 TVIR-Agent 表現優異，強調了明確的多模態設計與評估對於證據驅動報告生成的重要性。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation