Gemma 4：开启多模态开源新纪元

Google DeepMind 正式发布了 Gemma 4，这是一个强大的开源模型家族。与前代不同，Gemma 4 原生支持多模态输入，能够同时处理文本、图像，且在轻量级模型中原生支持音频输入。

Gemma 4 旨在通过多种尺寸（从端侧轻量级到服务器级）和两种架构（Dense 与 MoE）的组合，将前沿的 AI 能力民主化，使其能够部署在从手机、笔记本电脑到高性能服务器的各类环境中。

1. 模型阵容：灵活的部署选择

Gemma 4 提供了四种不同规模的模型，以适配不同的硬件环境：

稠密模型 (Dense Models)

E2B (2.3B 有效参数)：极轻量级，支持文本、图像和音频，专为端侧设计。
E4B (4.5B 有效参数)：轻量级，支持文本、图像和音频，平衡了性能与速度。
31B Dense：旗舰级稠密模型，支持文本和图像，提供极强的推理能力。

专家混合模型 (MoE Model)

26B A4B (3.8B 激活参数)：采用 MoE 架构，虽然总参数量为 26B，但推理时仅激活 3.8B 参数。这意味着它能以接近 4B 模型的速度提供接近 31B 模型的性能，是高效推理的绝佳选择。

技术亮点：PLE (Per-Layer Embeddings) 在 E2B 和 E4B 模型中，Google 引入了层级嵌入（PLE）技术。这种设计允许每个解码层拥有自己的小型嵌入表，在不增加模型层数的情况下极大提高了参数效率，使其在移动设备上运行更加流畅。

2. 核心能力突破

🧠 原生推理模式 (Thinking Mode)

Gemma 4 家族的所有模型都被设计为高能力的推理者。通过配置思维模式 (Thinking Mode)，模型可以在输出最终答案前进行逐步的内部思考（Chain-of-Thought），显著提升了处理复杂逻辑问题的准确度。

🖼️ 深度多模态理解

视觉：支持可变宽高比和分辨率的图像输入，擅长对象检测、PDF 解析、UI 界面理解及高精度 OCR。
视频：通过处理帧序列实现视频理解。
音频 (仅 E2B/E4B)：原生支持语音识别 (ASR) 和语音翻译。

💻 增强的代码与智能体能力

Gemma 4 在代码生成、补全和纠错方面有了显著提升，并原生支持函数调用 (Function Calling)，这使其能够作为高度自主的智能体 (Autonomous Agents) 运行。

3. 架构与性能

混合注意力机制 (Hybrid Attention)

Gemma 4 采用了局部滑动窗口注意力 (SWA) 与 全局注意力 (GA) 交替的机制。这种设计在保证长文本感知能力的同时，降低了内存占用并提升了处理速度。

性能表现

在各项权威基准测试中，Gemma 4 展现了极强的竞争力：

MMLU Pro：31B 模型达到 85.2%。
AIME 2026 (数学)：31B 模型在无工具情况下达到 89.2%。
LiveCodeBench v6 (代码)：31B 模型达到 80.0%，远超前代。
上下文窗口：小模型支持 128K，中大模型支持高达 256K token。

4. 快速上手

Gemma 4 与 transformers 库完美集成。用户可以通过简单的配置开启推理模式：

# 开启思维模式生成
text = processor.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=True  # 关键：开启思考过程
)

资源链接：

Gemma 4：Google DeepMind 推出的全能多模态开源模型家族