Google DeepMind 發布 Gemma 4 12B:無編碼器多模態模型,支援原生音訊並可在16GB筆電運行
媒體報導指出,Google DeepMind 近日正式發布了 Gemma 4 12B 模型,這是一款創新的無編碼器多模態模型。該模型摒棄了傳統的視覺和音訊編碼器,採用統一的解碼器架構,使影像和音訊數據直接流入大型語言骨幹,從而降低延遲並提升效率。官方公告表示,Gemma 4 12B 具備 120 億參數,支援文字、影像、視訊和原生音訊輸入,是首款中型 Gemma 模型支援音訊。硬體要求方面,模型可在配備 16 GB 記憶體的筆電上運行,包括 GPU 筆電和 Apple Silicon Mac,授權為 Apache 2.0,權重公開可下載。架構細節上,視覺處理使用一個輕量級的 35M 參數嵌入器,將影像分割為 48x48 像素塊進行線性投影;音訊處理則直接對 16 kHz 波形進行幀切割和投影,無需額外的特徵提取層。性能表現上,Google DeepMind 在發布說明中提到,該模型在標準基準測試中接近更大的 26B MoE 模型,但記憶體佔用減半。此外,模型已支援多種推理框架,如 llama.cpp、MLX、vLLM 等,並提供專用的多令牌預測起草模型以減少本地推理延遲。用戶可從 Hugging Face 和 Kaggle 下載 instruct 變體,用於多模態代理工作流。
來源:媒體報導