TVIR:打造深度研究代理實現文字視覺交錯報告生成
研究論文提出 TVIR(Text--Visual Interleaved Report Generation)框架,旨在解決現有深度研究代理在報告生成中過度文字中心、視覺元素可靠性與對齊評估不足的問題。論文介紹 TVIR-Bench,一個由專家策劃的基準測試,涵蓋 100 個多模態深度研究任務,要求視覺元素服務於具體分析子目標;同時提出 TVIR-Agent,一個分層多代理架構,作為強力基線,能構建大綱、檢索圖像、生成可追溯來源的圖表,並透過上下文感知的順序寫作組合報告。研究還開發了結合文字評估與視覺評估的雙路徑評估框架。實驗在九個深度研究系統上進行,結果顯示 TVIR-Agent 表現優異,強調了明確的多模態設計與評估對於證據驅動報告生成的重要性。
來源
來源:Hugging Face / 論文來源