Gemma 4 完全指南 - 从入门到本地部署 - IT文库

语言	格式	评分
中文（简体）	.pdf	3
摘要
文档系统介绍了Google开源模型Gemma系列从1到4的进化历程，重点阐述了Gemma 4的本地部署实践与应用场景。Gemma 4提供E2B、E4B、26B-A4B、31B四个尺寸，支持多模态（图片、视频、音频）、256K上下文、MoE架构和工具调用，许可证改为Apache 2.0。本地部署可通过Ollama、LM Studio、llama.cpp等工具实现，并支持接入OpenClaw等本地Agent框架。端侧模型的黄金场景包括隐私文档处理、代码助手、嵌入式设备和移动端应用，以及学习研究。文档还提供了System Prompt定制和参数调优等进阶玩法。
AI总结
Google 于 2024 年 2 月推出 Gemma 1（2B/7B，纯文本），作为其开源模型的初次尝试。2024 年 6 月的 Gemma 2（2B/9B/27B）性能显著提升，27B 版本填补了市场空白，但仍仅支持纯文本。2025 年 3 月的 Gemma 3（1B/4B/12B/27B）是转折点，首次加入多模态支持，并将上下文窗口扩展至 128K。2026 年 4 月发布的 Gemma 4 是集大成者，提供 E2B、E4B、26B-A4B 和 31B 四个尺寸，支持 256K 上下文，并采用 Apache 2.0 许可证。核心亮点：26B-A4B 采用混合专家（MoE）架构，仅激活 3.8B 参数，在 LMArena 评测中得分约 1441，与全参数 31B 模型（约 1452 分）性能几乎持平，但推理成本降低近 8 倍。其性能已接近 GLM-5 和 Kimi K2.5 等更大参数量的模型。本地部署：建议根据硬件条件选择流畅运行的版本，而非强行追求最大模型。推荐使用 Ollama 工具进行部署，其用法类似 Docker，通过 `pull` 和 `run` 命令即可操作。应用场景： - 端侧黄金场景：本地文档问答、多模态理解（图片、视频帧、音频）、固定流程的 Agent 工作流（如自动整理邮件、生成日报）。这些场景需要隐私、免费和随时可用。 - 进阶玩法：支持 Function Calling，可与 OpenClaw、Hermes 等本地 Agent 框架集成，实现无 API 费用、无速率限制的自动化任务。 - 特殊场景：E2B 可在树莓派 5 上运行（7.6 tok/s），适用于嵌入式设备；Android 端可通过 AI Edge Gallery 直接运行，门槛最低。 - 学习价值：Apache 2.0 协议允许自由修改、微调和商业部署，是学生和研究者理解大模型原理的免费实验平台。核心结论：Gemma 4 的价值不在于比云端模型更聪明，而在于成为用户私有的、免费的、本地的 AI 后端。它不是最强的模型，但可能是用得最顺手的。

来源	花叔

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 30 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名