StepFun 發布 Step 3.7 Flash:198B MoE 視覺語言模型
據媒體報導指出,StepFun 於2026年5月29日發布了 Step 3.7 Flash 模型。這是一個總參數達198B的稀疏專家混合(MoE)視覺語言模型,包含196B的語言骨幹和1.8B的視覺編碼器,支援原生圖像理解。相較於前代 Step 3.5 Flash,新模型在多個基準測試中表現提升,例如在 SWE-Bench Pro 上得分56.26%,比前代的51.3%提高約5個百分點,在 Terminal-Bench 2.1 上得分59.55%,高於前代的53.37%。模型引入了 Advisor Mode,這是一種優化成本的代理策略,能在特定時刻升級到更大模型,從而以較低成本維持高性能。此外,Step 3.7 Flash 支援多模態能力,包括視覺搜索工具和Python工具,用於處理高分辨率圖像和精細視覺任務,在 SimpleVQA 等測試中得分79.16%,與其他領先模型相當。在定價方面,輸入快取未命中每百萬令牌0.20美元,輸出每百萬令牌1.15美元。整體而言,這款模型旨在提升編碼代理和搜索工作流的效率和可靠性,適用於異構架構環境。
來源
來源:媒體報導