研究06/04 14:34

Google DeepMind 發布 Gemma 4 12B：無編碼器多模態模型，支援原生音訊並可在16GB筆電運行

媒體報導指出，Google DeepMind 近日正式發布了 Gemma 4 12B 模型，這是一款創新的無編碼器多模態模型。該模型摒棄了傳統的視覺和音訊編碼器，採用統一的解碼器架構，使影像和音訊數據直接流入大型語言骨幹，從而降低延遲並提升效率。官方公告表示，Gemma 4 12B 具備 120 億參數，支援文字、影像、視訊和原生音訊輸入，是首款中型 Gemma 模型支援音訊。硬體要求方面，模型可在配備 16 GB 記憶體的筆電上運行，包括 GPU 筆電和 Apple Silicon Mac，授權為 Apache 2.0，權重公開可下載。架構細節上，視覺處理使用一個輕量級的 35M 參數嵌入器，將影像分割為 48x48 像素塊進行線性投影；音訊處理則直接對 16 kHz 波形進行幀切割和投影，無需額外的特徵提取層。性能表現上，Google DeepMind 在發布說明中提到，該模型在標準基準測試中接近更大的 26B MoE 模型，但記憶體佔用減半。此外，模型已支援多種推理框架，如 llama.cpp、MLX、vLLM 等，並提供專用的多令牌預測起草模型以減少本地推理延遲。用戶可從 Hugging Face 和 Kaggle 下載 instruct 變體，用於多模態代理工作流。

來源：媒體報導

媒體報導Google DeepMind Releases Gemma 4 12B: An Encoder-Free Multimodal Model with Native audio that runs on a 16 GB laptop