Gemma 4 开源实测：31B 打进全球前三，2B 手机离线跑 Agent

一句话定义

Gemma 4 是 Google DeepMind 基于 Gemini 3 同源技术打造的开源模型系列，四款尺寸（E2B/E4B/26B MoE/31B Dense），全部采用 Apache 2.0 协议，可商用、可修改、可内嵌产品。

核心数据

先看最关键的数字：

模型	有效参数	上下文窗口	Arena AI 排名	典型部署场景
E2B	2B	128K	-	手机 / IoT / 树莓派
E4B	4B	128K	-	移动端 / Jetson Nano
26B MoE	3.8B 激活	256K	开源第 6	低延迟 Agent / 快速推理
31B Dense	31B	256K	开源第 3	工作站 / 单卡 H100

Gemma 4 模型家族概览

为什么这个排名重要？ 31B Dense 的 Arena AI Elo 评分 1452，排在它前面的分别是 745B 的 GLM-5 和 1T 的 Kimi K2.5。Gemma 4 用 31B 的体量挤进了千亿参数级别的牌桌，参数效率极高。

相比前代的跨越

与 Gemma 3 27B 相比，Gemma 4 31B 在三个核心场景的提升幅度：

数学推理（AIME 2026）：20.8% -> 89.2%，提升 4 倍
代码能力（LiveCodeBench v6）：29.1% -> 80.0%，代际断层
Agent 工具调用（tau2-bench）：6.6% -> 86.4%，从不可用到标杆级

端侧能力：手机离线跑 Agent

E2B 和 E4B 是这次发布最值得关注的部分。

这两款模型与 Google Pixel 团队、高通、联发科深度合作优化，可在 Pixel 手机、树莓派、Jetson Orin Nano 上完全离线运行，延迟接近零。不是阉割版，是完整的多模态 Agent 能力：

原生支持图像和视频输入
原生音频输入（E2B/E4B 专属）
原生函数调用、JSON 结构化输出、系统指令
140+ 语言支持

E2B 在 Pixel 手机上运行演示

一个直观的对比：E2B 在科学知识基准 GPQA Diamond 上得分 43.4%，而上一代 Gemma 3 27B 是 42.4%。手机上的 2B 模型，追上了上一代 27B 的桌面模型。

Google 还发布了 Android 应用 Google AI Edge Gallery（Google Play 可下载），内置 Skills 体验区域，可以直接在手机上体验 Agent 模式。

架构亮点

Gemma 4 没有堆砌花哨概念，而是把几个经过验证的技术组合到最优状态：

逐层嵌入（PLE） -- E2B/E4B 专属。给每一层解码器配备独立的低维嵌入表，不增加层数但显著提升参数利用效率。

共享 KV 缓存 -- 最后 N 层复用前面层的 KV 张量，降低推理显存和计算量，长上下文生成尤其受益。

交替注意力机制 -- 局部滑动窗口 + 全局注意力交替使用，兼顾速度和深度感知。

本地部署指南

方式一：Ollama（最快上手）

# 安装 Ollama 后直接拉取
ollama run gemma4:31b

# 26B MoE 版本（更快）
ollama run gemma4:26b-moe

# 端侧小模型
ollama run gemma4:e4b

方式二：Hugging Face + Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "google/gemma-4-31B-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto"
)

模型权重已上架 Hugging Face、Kaggle、Ollama。发布当天即支持的主流框架：Transformers、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras。

硬件需求参考

模型	bfloat16 显存	量化后（4bit）显存
31B Dense	~62 GB（单卡 H100 80GB）	~18 GB（消费级 GPU）
26B MoE	~52 GB	~15 GB
E4B	~8 GB	~3 GB
E2B	~4 GB	~1.5 GB

Apache 2.0 的实质意义

这次不是"开放权重"，是真正的 Apache 2.0 开源：

商业使用、修改、再分发完全自由
内置专利保护机制
无自定义条款，无灰色地带
可以合法打包进硬件产品、行业设备

Hugging Face CEO Clément Delangue 称其为"一个重要的里程碑"。自 2024 年 2 月首代发布至今，Gemma 系列总下载量超 4 亿次，社区衍生变体超 10 万个。

Toolin's Take

适合谁：

需要本地部署、数据不出设备的企业（医疗、金融、工业）
想在端侧设备跑 Agent 的移动端开发者
需要高性价比开源基座做微调的 AI 工程师

不适合谁：

需要最强综合能力的用户（Claude Opus 4.6、GPT-5 仍然是天花板）
多模态复杂任务（Simon Willison 实测：小模型在复杂视觉生成上仍有不足）

核心优势： Apache 2.0 + 端侧多模态 + 参数效率。这三点的组合，目前市面上没有第二个。

限制： MoE 模型虽然只激活 3.8B 参数，但全部 26B 参数仍需加载到内存。端侧模型的实际多模态能力还在完善中。

相关链接：

Hugging Face 模型集合：https://huggingface.co/collections/google/gemma-4
官方技术博客：https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Google AI Edge Gallery：Google Play 搜索下载

一句话定义

核心数据

先看最关键的数字：

模型	有效参数	上下文窗口	Arena AI 排名	典型部署场景
E2B	2B	128K	-	手机 / IoT / 树莓派
E4B	4B	128K	-	移动端 / Jetson Nano
26B MoE	3.8B 激活	256K	开源第 6	低延迟 Agent / 快速推理
31B Dense	31B	256K	开源第 3	工作站 / 单卡 H100

Gemma 4 模型家族概览

相比前代的跨越

与 Gemma 3 27B 相比，Gemma 4 31B 在三个核心场景的提升幅度：

数学推理（AIME 2026）：20.8% -> 89.2%，提升 4 倍
代码能力（LiveCodeBench v6）：29.1% -> 80.0%，代际断层
Agent 工具调用（tau2-bench）：6.6% -> 86.4%，从不可用到标杆级

端侧能力：手机离线跑 Agent

E2B 和 E4B 是这次发布最值得关注的部分。

原生支持图像和视频输入
原生音频输入（E2B/E4B 专属）
原生函数调用、JSON 结构化输出、系统指令
140+ 语言支持

E2B 在 Pixel 手机上运行演示

一个直观的对比：E2B 在科学知识基准 GPQA Diamond 上得分 43.4%，而上一代 Gemma 3 27B 是 42.4%。手机上的 2B 模型，追上了上一代 27B 的桌面模型。

Google 还发布了 Android 应用 Google AI Edge Gallery（Google Play 可下载），内置 Skills 体验区域，可以直接在手机上体验 Agent 模式。

架构亮点

Gemma 4 没有堆砌花哨概念，而是把几个经过验证的技术组合到最优状态：

逐层嵌入（PLE） -- E2B/E4B 专属。给每一层解码器配备独立的低维嵌入表，不增加层数但显著提升参数利用效率。

共享 KV 缓存 -- 最后 N 层复用前面层的 KV 张量，降低推理显存和计算量，长上下文生成尤其受益。

交替注意力机制 -- 局部滑动窗口 + 全局注意力交替使用，兼顾速度和深度感知。

本地部署指南

方式一：Ollama（最快上手）

# 安装 Ollama 后直接拉取
ollama run gemma4:31b

# 26B MoE 版本（更快）
ollama run gemma4:26b-moe

# 端侧小模型
ollama run gemma4:e4b

方式二：Hugging Face + Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "google/gemma-4-31B-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto"
)

模型权重已上架 Hugging Face、Kaggle、Ollama。发布当天即支持的主流框架：Transformers、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras。

硬件需求参考

模型	bfloat16 显存	量化后（4bit）显存
31B Dense	~62 GB（单卡 H100 80GB）	~18 GB（消费级 GPU）
26B MoE	~52 GB	~15 GB
E4B	~8 GB	~3 GB
E2B	~4 GB	~1.5 GB

Apache 2.0 的实质意义

这次不是"开放权重"，是真正的 Apache 2.0 开源：

商业使用、修改、再分发完全自由
内置专利保护机制
无自定义条款，无灰色地带
可以合法打包进硬件产品、行业设备

Hugging Face CEO Clément Delangue 称其为"一个重要的里程碑"。自 2024 年 2 月首代发布至今，Gemma 系列总下载量超 4 亿次，社区衍生变体超 10 万个。

Toolin's Take

适合谁：

需要本地部署、数据不出设备的企业（医疗、金融、工业）
想在端侧设备跑 Agent 的移动端开发者
需要高性价比开源基座做微调的 AI 工程师

不适合谁：

需要最强综合能力的用户（Claude Opus 4.6、GPT-5 仍然是天花板）
多模态复杂任务（Simon Willison 实测：小模型在复杂视觉生成上仍有不足）

核心优势： Apache 2.0 + 端侧多模态 + 参数效率。这三点的组合，目前市面上没有第二个。

限制： MoE 模型虽然只激活 3.8B 参数，但全部 26B 参数仍需加载到内存。端侧模型的实际多模态能力还在完善中。

相关链接：

Hugging Face 模型集合：https://huggingface.co/collections/google/gemma-4
官方技术博客：https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Google AI Edge Gallery：Google Play 搜索下载

全部

AI教程

AI产品

AI资源

Gemma 4 开源实测：31B 打进全球前三，2B 手机离线跑 Agent

Gemma 4 开源实测：31B 打进全球前三，2B 手机离线跑 Agent

作者

分类

相关文章

Gemini Omni：用自然语言编辑视频的「世界模型」

用Agent跑通4个高频办公场景的实操方法

OpenAI Codex进阶指南：官方团队的7个使用技巧

Gemma 4 开源实测：31B 打进全球前三，2B 手机离线跑 Agent

Gemma 4 开源实测：31B 打进全球前三，2B 手机离线跑 Agent

作者

分类

相关文章

Gemini Omni：用自然语言编辑视频的「世界模型」

用Agent跑通4个高频办公场景的实操方法

OpenAI Codex进阶指南：官方团队的7个使用技巧