2026-05-20 文章

Gemma 4:Google DeepMind 推出的全能多模态开源模型家族

Gemma 4:开启多模态开源新纪元

Google DeepMind 正式发布了 Gemma 4,这是一个强大的开源模型家族。与前代不同,Gemma 4 原生支持多模态输入,能够同时处理文本、图像,且在轻量级模型中原生支持音频输入。

Gemma 4 旨在通过多种尺寸(从端侧轻量级到服务器级)和两种架构(Dense 与 MoE)的组合,将前沿的 AI 能力民主化,使其能够部署在从手机、笔记本电脑到高性能服务器的各类环境中。

1. 模型阵容:灵活的部署选择

Gemma 4 提供了四种不同规模的模型,以适配不同的硬件环境:

稠密模型 (Dense Models)

  • E2B (2.3B 有效参数):极轻量级,支持文本、图像和音频,专为端侧设计。
  • E4B (4.5B 有效参数):轻量级,支持文本、图像和音频,平衡了性能与速度。
  • 31B Dense:旗舰级稠密模型,支持文本和图像,提供极强的推理能力。

专家混合模型 (MoE Model)

  • 26B A4B (3.8B 激活参数):采用 MoE 架构,虽然总参数量为 26B,但推理时仅激活 3.8B 参数。这意味着它能以接近 4B 模型的速度提供接近 31B 模型的性能,是高效推理的绝佳选择。

技术亮点:PLE (Per-Layer Embeddings) 在 E2B 和 E4B 模型中,Google 引入了层级嵌入(PLE)技术。这种设计允许每个解码层拥有自己的小型嵌入表,在不增加模型层数的情况下极大提高了参数效率,使其在移动设备上运行更加流畅。

2. 核心能力突破

🧠 原生推理模式 (Thinking Mode)

Gemma 4 家族的所有模型都被设计为高能力的推理者。通过配置思维模式 (Thinking Mode),模型可以在输出最终答案前进行逐步的内部思考(Chain-of-Thought),显著提升了处理复杂逻辑问题的准确度。

🖼️ 深度多模态理解

  • 视觉:支持可变宽高比和分辨率的图像输入,擅长对象检测、PDF 解析、UI 界面理解及高精度 OCR。
  • 视频:通过处理帧序列实现视频理解。
  • 音频 (仅 E2B/E4B):原生支持语音识别 (ASR) 和语音翻译。

💻 增强的代码与智能体能力

Gemma 4 在代码生成、补全和纠错方面有了显著提升,并原生支持函数调用 (Function Calling),这使其能够作为高度自主的智能体 (Autonomous Agents) 运行。

3. 架构与性能

混合注意力机制 (Hybrid Attention)

Gemma 4 采用了局部滑动窗口注意力 (SWA)全局注意力 (GA) 交替的机制。这种设计在保证长文本感知能力的同时,降低了内存占用并提升了处理速度。

性能表现

在各项权威基准测试中,Gemma 4 展现了极强的竞争力:

  • MMLU Pro:31B 模型达到 85.2%。
  • AIME 2026 (数学):31B 模型在无工具情况下达到 89.2%。
  • LiveCodeBench v6 (代码):31B 模型达到 80.0%,远超前代。
  • 上下文窗口:小模型支持 128K,中大模型支持高达 256K token。

4. 快速上手

Gemma 4 与 transformers 库完美集成。用户可以通过简单的配置开启推理模式:

# 开启思维模式生成
text = processor.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=True  # 关键:开启思考过程
)

资源链接: