研究06/05 24:07

StreamMA：多智能體推理的流式通訊系統

在多智能體推理領域，傳統系統常採用「生成-然後-傳輸」的範式，導致端對端延遲隨管線深度線性增長。針對此問題，HuggingFace 上出現的研究論文提出 StreamMA，這是一個多智能體推理系統，它能在生成每個推理步驟後立即串流傳輸給下游智能體，實現相鄰智能體的管道化，從而降低延遲。令人驚訝的是，這種管道化不僅減少延遲，還提升了效能，因為多步推理的品質不均勻，早期步驟比後期更可靠，使用這些可靠的早期步驟而非完整鏈條，可避免容易出錯的後期步驟誤導下游智能體。論文透過首個封閉形式的聯合分析，形式化了流式、串行和單一協議的優勢，推導出效能排序、加速上限和成本比率。在八個涵蓋數學、科學和程式的推理基準測試中，使用兩個前沿大型語言模型（Claude Opus 4.6 和 GPT-5.4）以及三種拓撲結構（鏈、樹、圖），StreamMA 平均優於基線 7.3 個百分點，在 HMMT 2026 上最高提升 22.4 個百分點。此外，研究發現了「步驟級別的縮放定律」：增加每個智能體的步驟能持續提升效能和效率，這是一個正交且可與智能體數量縮放組合的新縮放維度。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Streaming Communication in Multi-Agent Reasoning