| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 摘要 | ||
文档系统介绍了Google开源模型Gemma系列从1到4的进化历程,重点阐述了Gemma 4的本地部署实践与应用场景。Gemma 4提供E2B、E4B、26B-A4B、31B四个尺寸,支持多模态(图片、视频、音频)、256K上下文、MoE架构和工具调用,许可证改为Apache 2.0。本地部署可通过Ollama、LM Studio、llama.cpp等工具实现,并支持接入OpenClaw等本地Agent框架。端侧模型的黄金场景包括隐私文档处理、代码助手、嵌入式设备和移动端应用,以及学习研究。文档还提供了System Prompt定制和参数调优等进阶玩法。 | ||
| AI总结 | ||
Google 于 2024 年 2 月推出 Gemma 1(2B/7B,纯文本),作为其开源模型的初次尝试。2024 年 6 月的 Gemma 2(2B/9B/27B)性能显著提升,27B 版本填补了市场空白,但仍仅支持纯文本。2025 年 3 月的 Gemma 3(1B/4B/12B/27B)是转折点,首次加入多模态支持,并将上下文窗口扩展至 128K。2026 年 4 月发布的 Gemma 4 是集大成者,提供 E2B、E4B、26B-A4B 和 31B 四个尺寸,支持 256K 上下文,并采用 Apache 2.0 许可证。
**核心亮点**:26B-A4B 采用混合专家(MoE)架构,仅激活 3.8B 参数,在 LMArena 评测中得分约 1441,与全参数 31B 模型(约 1452 分)性能几乎持平,但推理成本降低近 8 倍。其性能已接近 GLM-5 和 Kimi K2.5 等更大参数量的模型。
**本地部署**:建议根据硬件条件选择流畅运行的版本,而非强行追求最大模型。推荐使用 Ollama 工具进行部署,其用法类似 Docker,通过 `pull` 和 `run` 命令即可操作。
**应用场景**:
- **端侧黄金场景**:本地文档问答、多模态理解(图片、视频帧、音频)、固定流程的 Agent 工作流(如自动整理邮件、生成日报)。这些场景需要隐私、免费和随时可用。
- **进阶玩法**:支持 Function Calling,可与 OpenClaw、Hermes 等本地 Agent 框架集成,实现无 API 费用、无速率限制的自动化任务。
- **特殊场景**:E2B 可在树莓派 5 上运行(7.6 tok/s),适用于嵌入式设备;Android 端可通过 AI Edge Gallery 直接运行,门槛最低。
- **学习价值**:Apache 2.0 协议允许自由修改、微调和商业部署,是学生和研究者理解大模型原理的免费实验平台。
**核心结论**:Gemma 4 的价值不在于比云端模型更聪明,而在于成为用户私有的、免费的、本地的 AI 后端。它不是最强的模型,但可能是用得最顺手的。 | ||
| 来源 | 花叔 | ||||
|---|---|---|---|---|---|
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
30 页请下载阅读 -
文档评分














Gemma 4 完全指南 - 从入门到本地部署