当前位置:首页>文章>工具配置>谷歌重磅开源 Gemma 4:31B 参数干翻 600B 巨型模型,手机离线跑 Agent 成为现实

谷歌重磅开源 Gemma 4:31B 参数干翻 600B 巨型模型,手机离线跑 Agent 成为现实

文本是《AI咨询(共131篇)》专题的第 131 篇。阅读本文前,建议先阅读前面的文章:

2026 年开源 AI 的第一场地震,来自谷歌。

Gemma 4 正式开源。四个版本,全线 Apache 2.0,商用随便搞。最小的 20 亿参数能在手机上跑,最大的 31B 冲到了开源榜全球第三——谷歌说它在部分测试中打赢了参数量大自己 20 倍的模型。

谷歌重磅开源 Gemma 4:31B 参数干翻 600B 巨型模型,手机离线跑 Agent 成为现实

"单位参数智能"这个词,被谷歌 DeepMind 的研究员反复提起。翻译成人话就是:用更少的参数,干更多的活。


四款模型,从口袋到工作站全覆盖

这次谷歌没有只出一个"旗舰"然后让社区自己蒸馏,而是一步到位给了四个尺寸:

E2B,20 亿有效参数。目标设备是手机,6GB 内存就能跑。谷歌已经和 Pixel 团队、高通、联发科联合调优,离线运行,延迟接近零。

E4B,40 亿有效参数。树莓派、Jetson Nano 这类边缘设备的菜。IoT 场景终于有了一个真正能用的本地大模型。

26B MoE,总参数 260 亿,但推理时只激活 38 亿。这是性价比最离谱的一款——消费级显卡就能跑,知识储备却是 26B 级别的。Arena AI 榜单排名开源第六。

31B Dense,旗舰。开源榜全球第三,单张 GPU 可部署。面向 IDE、编程助手和复杂 Agent 工作流设计。

一个关键细节:E2B 和 E4B 里的"E"是 Effective(有效参数),不是模型实际大小。它们用了 PLE 技术,实际加载到内存的权重会比数字暗示的更大一些。26B MoE 也一样,虽然每个 token 只激活 38 亿参数,但 260 亿参数全部要载入显存。部署前别光看名字,实测为准。


不是"能聊天",是"能干活"

Gemma 4 最大的变化不在跑分,在定位。

以前的开源模型,大多数还是"对话模型"——你问它答,一来一回。Gemma 4 的设计目标是 Agent,是能自主执行多步骤任务的 AI 智能体。

具体来说,这次原生内置了三个关键能力:

函数调用。模型可以直接生成结构化的函数调用请求,对接外部 API,不需要开发者再手写解析逻辑。

结构化 JSON 输出。Agent 工作流里最头疼的就是让模型输出格式稳定可靠,Gemma 4 把这个问题在模型层面解决了。

System Role 原生支持。以前很多开源模型对系统提示词的遵循度一般,Gemma 4 内置了 system role,对话结构更清晰,行为控制更精准。

这三个加在一起意味着什么?开发者可以直接用 Gemma 4 构建能订机票、查数据库、操作 API、控制智能家居的自主 Agent,而且全程可以在本地运行,数据不出设备。


多模态不是噱头,端侧音频是真亮点

全系列支持文本和图像输入,图像支持可变宽高比和不同分辨率,图表分析、OCR 都能做。

但真正让人眼前一亮的是 E2B 和 E4B——这两个端侧小模型额外支持原生视频和音频输入。

音频原生支持意味着什么?以前在手机上做语音交互,你得先跑一个 ASR(语音识别)模型把语音转成文字,再喂给语言模型。现在 E2B 可以直接"听",省掉了一整个模块的延迟和资源开销。

对于移动端 AI 助手来说,这是一个质的变化。


上下文窗口:端侧 128K,大模型 256K

端侧模型(E2B/E4B)的上下文窗口是 128K,26B 和 31B 最高支持 256K。

256K 是什么概念?大约可以一次性塞入一整本中等篇幅的书,或者一个完整的中型代码库。对于编程助手和文档分析场景来说,这个长度已经非常够用了。


Apache 2.0:真正的无限制开源

Gemma 4 全系列采用 Apache 2.0 许可证。

这不是"开源但有限制"的那种开源。Apache 2.0 意味着:商用无限制,二次开发自由,没有用户数量门槛,不需要向谷歌报备。

对比之下,Meta 的 Llama 系列虽然也开放权重,但商业使用有月活限制条款。Gemma 4 的许可证更干净,对企业开发者来说少了一层法律顾虑。


生态支持:几乎所有主流框架都能用

模型已经可以通过 Hugging Face、Kaggle、Ollama 直接下载。

推理和微调支持的框架列表很长:vLLM、llama.cpp、MLX、LM Studio、Unsloth、Keras、SGLang、NVIDIA NIM 和 NeMo,基本上主流的都覆盖了。

硬件方面,NVIDIA 全线支持(从 Jetson Nano 到 Blackwell GPU),AMD GPU 通过 ROCm 支持,Google Cloud TPU 自然不在话下。

云端部署支持 Vertex AI、Cloud Run、GKE。Android 开发者可以在 AICore Developer Preview 中直接试用 Agent 工作流原型。


谷歌在下一盘什么棋?

Gemma 4 的发布,表面上是一次模型更新,实际上是谷歌在"本地 AI"赛道上的一次战略卡位。

想想看:当一个 20 亿参数的模型就能在手机上离线跑 Agent,当一个 31B 的模型在消费级 GPU 上就能提供工业级推理能力,很多原本"必须上云"的场景,边界就被打破了。

谷歌的算盘很清楚——用开源模型建立开发者生态,用端侧能力切入设备厂商的供应链,用 Apache 2.0 消除企业的采用顾虑。不只是要赢在云端,还要赢在每一台设备上。

Constellation Research 的分析师说得直白:"谷歌正在扩大自己在 AI 领域的领先优势,不只靠 Gemini,也靠 Gemma 这样的开放模型。"


写在最后

开源 AI 的竞争已经进入了一个新阶段。

不再是比谁参数多,而是比谁在有限参数下更聪明。不再是比谁跑分高,而是比谁能真正跑在用户的设备上。不再是比谁"能聊天",而是比谁"能干活"。

Gemma 4 给出了谷歌的答案。至于这个答案够不够好,每个开发者都可以自己下载、自己跑、自己判断。

这大概就是开源最好的地方。

欢迎关注一步API(https://yibuapi.com ),我们还会持续分享更多AI咨询、AI工具、实战经验、踩坑记录,助力你高效玩转AI开发、避开行业弯路。

谷歌重磅开源 Gemma 4:31B 参数干翻 600B 巨型模型,手机离线跑 Agent 成为现实

想了解更多细节、获取专属支持,可添加 客服微信:xuexiv5876 \ YibuDev,随时咨询交流~

工具配置

还在部署OpenClaw?有人用AI当「赛博皇帝」,搭出全套数字化三省六部!

2026-3-16 8:33:05

工具配置

Glarity浏览器插件完整指南:免费开源AI网页摘要与翻译助手

2025-8-6 9:33:50

搜索