研究05/31 17:48

StepFun 發布 Step 3.7 Flash：198B MoE 視覺語言模型

據媒體報導指出，StepFun 於2026年5月29日發布了 Step 3.7 Flash 模型。這是一個總參數達198B的稀疏專家混合（MoE）視覺語言模型，包含196B的語言骨幹和1.8B的視覺編碼器，支援原生圖像理解。相較於前代 Step 3.5 Flash，新模型在多個基準測試中表現提升，例如在 SWE-Bench Pro 上得分56.26%，比前代的51.3%提高約5個百分點，在 Terminal-Bench 2.1 上得分59.55%，高於前代的53.37%。模型引入了 Advisor Mode，這是一種優化成本的代理策略，能在特定時刻升級到更大模型，從而以較低成本維持高性能。此外，Step 3.7 Flash 支援多模態能力，包括視覺搜索工具和Python工具，用於處理高分辨率圖像和精細視覺任務，在 SimpleVQA 等測試中得分79.16%，與其他領先模型相當。在定價方面，輸入快取未命中每百萬令牌0.20美元，輸出每百萬令牌1.15美元。整體而言，這款模型旨在提升編碼代理和搜索工作流的效率和可靠性，適用於異構架構環境。

來源

來源：媒體報導

媒體報導StepFun Releases Step 3.7 Flash: A 198B MoE Vision-Language Model for Coding Agents and Search Workflows