谷歌发布120亿参数开源多模态模型,支持文本、图像、音频输入,仅需9GB显存即可在笔记本本地运行,Apache 2.0协议。


谷歌发布120亿参数开源多模态模型,支持文本、图像、音频输入,仅需9GB显存即可在笔记本本地运行,Apache 2.0协议。
如果你的笔记本电脑有 16GB 显存或统一内存(比如 M1/M2/M3 Pro 的 MacBook),你现在可以在上面运行一个能同时理解文字、图片和音频的 AI 模型。谷歌刚刚发布的 Gemma 4 12B 就是为此而生。
Gemma 4 12B 是谷歌 DeepMind 最新开源的多模态大模型,参数量 120 亿。它属于 Gemma 4 系列的一员,介于面向边缘设备的 E4B 和能力更强的 26B 混合专家模型(MoE)之间。
几个关键数据:

传统多模态模型需要独立的视觉编码器和音频编码器来处理非文本输入,这些编码器会带来额外的延迟和内存开销。Gemma 4 12B 采用了"无编码器"架构:
视觉处理:用一个仅 35M 参数的超轻量级嵌入模块替代了原本 27 层的视觉 Transformer。原始像素通过一次矩阵乘法和坐标查找,直接进入 LLM 主干网络。
音频处理:完全移除了音频编码器。16kHz 原始语音信号被切成 40 毫秒的片段,通过线性投影直接映射到与文本 token 相同的维度空间。

这意味着视觉、音频和文本共享同一套权重。做 LoRA 微调时,一次前向传递就能同时更新所有模态。
在 RTX 4090 上的实测对比(任务:纯手写 HTML5 Canvas 物理动效,不依赖任何第三方库):
| 指标 | Gemma 4 26B-A4B | Gemma 4 12B |
|---|---|---|
| 显存占用 | 15GB | 9GB |
| 生成 token 数 | 6.9k | 8.9k |
| 速度 | 138 tok/s | 80 tok/s |
| 任务完成度 | 全部通过 | 全部通过 |
12B 用不到一半的显存,打出了几乎同等的质量。对于 16GB 内存笔记本用户来说,这是一个理想的本地多模态模型。
ollama run gemma4:12b在 LM Studio 中搜索 "gemma-4-12b" 即可下载运行。
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve谷歌已经把 AI Edge Gallery 官方移植到 macOS 平台,针对 Apple Silicon GPU 做了底层优化。你可以在聊天气泡里直接执行 Python 代码并绘制图表,全程离线运行。

从零开始掌握 OpenAI Codex 桌面版,涵盖安装配置、界面解读、项目创建、技能与插件使用,以及手机远程控制的保姆级教程

月之暗面推出 Kimi Work Beta,面向知识工作者的通用型本地 Agent,支持 300 个子 Agent 并行协作、13 小时长程任务、浏览器操控和 Skill 安装

OpenSquilla 推出 Meta Skill 功能,一个 Skill 内嵌多个子 Skill,能端到端打通长程工作流,还能省 60-80% 的 Token 成本