谷歌放大招！Gemma 4重磅开源：31B干翻600B巨型模型，手机离线跑Agent

文本是《AI咨询（共131篇）》专题的第 131 篇。阅读本文前，建议先阅读前面的文章：

2026 年开源 AI 的第一场地震，来自谷歌。

Gemma 4 正式开源。四个版本，全线 Apache 2.0，商用随便搞。最小的 20 亿参数能在手机上跑，最大的 31B 冲到了开源榜全球第三——谷歌说它在部分测试中打赢了参数量大自己 20 倍的模型。

谷歌重磅开源 Gemma 4：31B 参数干翻 600B 巨型模型，手机离线跑 Agent 成为现实

"单位参数智能"这个词，被谷歌 DeepMind 的研究员反复提起。翻译成人话就是：用更少的参数，干更多的活。

四款模型，从口袋到工作站全覆盖

这次谷歌没有只出一个"旗舰"然后让社区自己蒸馏，而是一步到位给了四个尺寸：

E2B，20 亿有效参数。目标设备是手机，6GB 内存就能跑。谷歌已经和 Pixel 团队、高通、联发科联合调优，离线运行，延迟接近零。

E4B，40 亿有效参数。树莓派、Jetson Nano 这类边缘设备的菜。IoT 场景终于有了一个真正能用的本地大模型。

26B MoE，总参数 260 亿，但推理时只激活 38 亿。这是性价比最离谱的一款——消费级显卡就能跑，知识储备却是 26B 级别的。Arena AI 榜单排名开源第六。

31B Dense，旗舰。开源榜全球第三，单张 GPU 可部署。面向 IDE、编程助手和复杂 Agent 工作流设计。

一个关键细节：E2B 和 E4B 里的"E"是 Effective（有效参数），不是模型实际大小。它们用了 PLE 技术，实际加载到内存的权重会比数字暗示的更大一些。26B MoE 也一样，虽然每个 token 只激活 38 亿参数，但 260 亿参数全部要载入显存。部署前别光看名字，实测为准。

不是"能聊天"，是"能干活"

Gemma 4 最大的变化不在跑分，在定位。

以前的开源模型，大多数还是"对话模型"——你问它答，一来一回。Gemma 4 的设计目标是 Agent，是能自主执行多步骤任务的 AI 智能体。

具体来说，这次原生内置了三个关键能力：

函数调用。模型可以直接生成结构化的函数调用请求，对接外部 API，不需要开发者再手写解析逻辑。

结构化 JSON 输出。Agent 工作流里最头疼的就是让模型输出格式稳定可靠，Gemma 4 把这个问题在模型层面解决了。

System Role 原生支持。以前很多开源模型对系统提示词的遵循度一般，Gemma 4 内置了 system role，对话结构更清晰，行为控制更精准。

这三个加在一起意味着什么？开发者可以直接用 Gemma 4 构建能订机票、查数据库、操作 API、控制智能家居的自主 Agent，而且全程可以在本地运行，数据不出设备。

多模态不是噱头，端侧音频是真亮点

全系列支持文本和图像输入，图像支持可变宽高比和不同分辨率，图表分析、OCR 都能做。

但真正让人眼前一亮的是 E2B 和 E4B——这两个端侧小模型额外支持原生视频和音频输入。

音频原生支持意味着什么？以前在手机上做语音交互，你得先跑一个 ASR（语音识别）模型把语音转成文字，再喂给语言模型。现在 E2B 可以直接"听"，省掉了一整个模块的延迟和资源开销。

对于移动端 AI 助手来说，这是一个质的变化。

上下文窗口：端侧 128K，大模型 256K

端侧模型（E2B/E4B）的上下文窗口是 128K，26B 和 31B 最高支持 256K。

256K 是什么概念？大约可以一次性塞入一整本中等篇幅的书，或者一个完整的中型代码库。对于编程助手和文档分析场景来说，这个长度已经非常够用了。

Apache 2.0：真正的无限制开源

Gemma 4 全系列采用 Apache 2.0 许可证。

这不是"开源但有限制"的那种开源。Apache 2.0 意味着：商用无限制，二次开发自由，没有用户数量门槛，不需要向谷歌报备。

对比之下，Meta 的 Llama 系列虽然也开放权重，但商业使用有月活限制条款。Gemma 4 的许可证更干净，对企业开发者来说少了一层法律顾虑。

生态支持：几乎所有主流框架都能用

模型已经可以通过 Hugging Face、Kaggle、Ollama 直接下载。

推理和微调支持的框架列表很长：vLLM、llama.cpp、MLX、LM Studio、Unsloth、Keras、SGLang、NVIDIA NIM 和 NeMo，基本上主流的都覆盖了。

硬件方面，NVIDIA 全线支持（从 Jetson Nano 到 Blackwell GPU），AMD GPU 通过 ROCm 支持，Google Cloud TPU 自然不在话下。

云端部署支持 Vertex AI、Cloud Run、GKE。Android 开发者可以在 AICore Developer Preview 中直接试用 Agent 工作流原型。

谷歌在下一盘什么棋？

Gemma 4 的发布，表面上是一次模型更新，实际上是谷歌在"本地 AI"赛道上的一次战略卡位。

想想看：当一个 20 亿参数的模型就能在手机上离线跑 Agent，当一个 31B 的模型在消费级 GPU 上就能提供工业级推理能力，很多原本"必须上云"的场景，边界就被打破了。

谷歌的算盘很清楚——用开源模型建立开发者生态，用端侧能力切入设备厂商的供应链，用 Apache 2.0 消除企业的采用顾虑。不只是要赢在云端，还要赢在每一台设备上。

Constellation Research 的分析师说得直白："谷歌正在扩大自己在 AI 领域的领先优势，不只靠 Gemini，也靠 Gemma 这样的开放模型。"

写在最后

开源 AI 的竞争已经进入了一个新阶段。

不再是比谁参数多，而是比谁在有限参数下更聪明。不再是比谁跑分高，而是比谁能真正跑在用户的设备上。不再是比谁"能聊天"，而是比谁"能干活"。

Gemma 4 给出了谷歌的答案。至于这个答案够不够好，每个开发者都可以自己下载、自己跑、自己判断。

这大概就是开源最好的地方。

欢迎关注一步API（https://yibuapi.com ），我们还会持续分享更多AI咨询、AI工具、实战经验、踩坑记录，助力你高效玩转AI开发、避开行业弯路。

谷歌重磅开源 Gemma 4：31B 参数干翻 600B 巨型模型，手机离线跑 Agent 成为现实

想了解更多细节、获取专属支持，可添加 客服微信：xuexiv5876 \ YibuDev，随时咨询交流～

谷歌重磅开源 Gemma 4：31B 参数干翻 600B 巨型模型，手机离线跑 Agent 成为现实

四款模型，从口袋到工作站全覆盖

不是"能聊天"，是"能干活"

多模态不是噱头，端侧音频是真亮点

上下文窗口：端侧 128K，大模型 256K

Apache 2.0：真正的无限制开源

生态支持：几乎所有主流框架都能用

谷歌在下一盘什么棋？

写在最后

还在部署OpenClaw？有人用AI当「赛博皇帝」，搭出全套数字化三省六部！

Glarity浏览器插件完整指南：免费开源AI网页摘要与翻译助手

【保姆级教程】手把手教你安装 OpenClaw并配置使用一步API

OpenRouter 全面封堵后：国内唯一稳定替代方案——一步API

Claude Code CLI 安装与配置完整教程 | 支持 Windows 与 macOS 的 AI 编程助手

详细教程：国内调用 Google Gemini 3.0 Pro API 接口（附 Python 示例）

为什么国内模型这么多，还是有很多人用国外的模型？

OpenClaw 完整配置教程（含第三方中转接入，从零到实操）

关于本站

帮助中心

网站索引

关注交流