StreamMA:多智能體推理的流式通訊系統
在多智能體推理領域,傳統系統常採用「生成-然後-傳輸」的範式,導致端對端延遲隨管線深度線性增長。針對此問題,HuggingFace 上出現的研究論文提出 StreamMA,這是一個多智能體推理系統,它能在生成每個推理步驟後立即串流傳輸給下游智能體,實現相鄰智能體的管道化,從而降低延遲。令人驚訝的是,這種管道化不僅減少延遲,還提升了效能,因為多步推理的品質不均勻,早期步驟比後期更可靠,使用這些可靠的早期步驟而非完整鏈條,可避免容易出錯的後期步驟誤導下游智能體。論文透過首個封閉形式的聯合分析,形式化了流式、串行和單一協議的優勢,推導出效能排序、加速上限和成本比率。在八個涵蓋數學、科學和程式的推理基準測試中,使用兩個前沿大型語言模型(Claude Opus 4.6 和 GPT-5.4)以及三種拓撲結構(鏈、樹、圖),StreamMA 平均優於基線 7.3 個百分點,在 HMMT 2026 上最高提升 22.4 個百分點。此外,研究發現了「步驟級別的縮放定律」:增加每個智能體的步驟能持續提升效能和效率,這是一個正交且可與智能體數量縮放組合的新縮放維度。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Streaming Communication in Multi-Agent Reasoning