Gemma 3 简介：开发人员指南

作者： Jam 发布时间： March 13, 2025 分类：技术,视频 No Comments

自首次发布以来，Gemma 模型的下载量已超过 1 亿次，社区为各种用例创建了 60,000 多种变体。我们很高兴推出 Gemma 3，这是我们 Gemma 开放模型系列中功能最强大、最先进的版本，它建立在之前 Gemma 版本成功的基础上。我们听取了社区的反馈，并添加了最需要的功能，例如更长的上下文、多模态等等！

Gemma 有什么新功能？

Gemma 3 引入了多模态性，支持视觉语言输入和文本输出。它可以处理多达 128k 个标记的上下文窗口，理解 140 多种语言，并提供改进的数学、推理和聊天功能，包括结构化输出和函数调用。Gemma 3 有四种大小（1B、4B、12B 和 27B），既有预训练模型（可以根据您自己的用例和领域进行微调），也有通用指令调整版本。

比较图表 - Gemma 型号

Gemma 是如何建造的？

Gemma 的训练前和训练后流程通过结合提炼、强化学习和模型合并进行了优化。这种方法提高了数学、编码和指令遵循方面的性能。Gemma 3 使用新的标记器来更好地支持 140 多种语言，并在使用 JAX 框架的 Google TPU 上对 1B 的 2T 标记、4B 的 4T 标记、12B 的 12T 标记和 27B 的 14T 标记进行了训练。

对于后期训练，Gemma 3 使用 4 个组件：

从更大的指导模型提炼到 Gemma 3 预训练检查点。

通过人类反馈强化学习 (RLHF) 使模型预测与人类偏好保持一致。

强化学习机器反馈 (RLMF) 以增强数学推理。

通过执行反馈强化学习 (RLEF) 来提高编码能力。

这些更新显著提高了模型的数学、编码和指令遵循能力，使其成为 LMArena 中得分最高的开放式紧凑模型，得分为 1338。

图表显示了模型性能与尺寸的比较

Gemma 3 的指令版本使用与 Gemma 2 相同的对话框格式，因此您无需更新工具即可更新到最新版本以进行纯文本输入。对于图像输入，Gemma 3 允许指定与文本交错的图像。

多轮文本示例

<bos><start_of_turn>用户敲门<end_of_turn> <start_of_turn>模特谁在那里<end_of_turn> <start_of_turn>用户Gemma<end_of_turn> <start_of_turn>模特Gemma是谁？<end_of_turn>

交错图像示例

<bos><start_of_turn>用户图像 A：<start_of_image>图像 B：<start_of_image>标签 A：睡莲标签 B：<end_of_turn> <start_of_turn>模型沙漠 rote<end_of_turn>

多模态

Gemma 3 具有基于SigLIP的集成视觉编码器。Gemma 3 视觉模型在训练期间保持冻结状态，在不同尺寸（4B、12B 和 27B）下均相同。得益于此，Gemma 可以使用图像和视频作为输入，从而可以分析图像、回答有关图像的问题、比较图像、识别对象，甚至回复有关图像中文本的信息。尽管该模型最初是为处理 896x896 像素的图像而创建的，但新的自适应窗口算法可用于分割输入图像，从而使 Gemma 3 能够处理高分辨率和非正方形图像。

Gemma 3 多模态示例

输入：我需要暖和一下。按哪个按钮可以加热？

Gemma 3 多模态 - 输出示例

根据图片，可能调高温度的按钮是暖房（Danbou）。“暖房”在日语中是“加热”的意思。这是您按下以激活空调/气候控制系统上的加热功能的按钮。选择加热模式后，带有加号 (+) 的按钮可能会调节温度。

ShieldGemma 2

ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它输出关键安全类别的标签，从而实现对合成图像（来自图像生成模型）和自然图像（可能是 Gemma 3 等视觉语言模型的输入过滤器）的安全审核。了解有关ShieldGemma 2 的更多信息。

你在建什么？

Gemma 社区的创造力和Gemmaverse的爆炸式增长不断令我们惊叹。从研究实验室开创的新型微调技术（例如普林斯顿 NLP 开发的SimPO 方法，它无需参考模型即可直接针对人类偏好进行优化；INSAIT 为保加利亚语培训最先进的 LLM）到开发人员在全新模式下训练 Gemma，例如Nexa AI 使用 OmniAudio 进行训练。我们迫不及待地想看看您接下来会取得什么突破。

立即开始使用 Gemma 3

准备好今天探索 Gemma 3 的潜力了吗？方法如下：

直接实验：只需点击几下即可使用Google AI Studio试用 Gemma 3。

下载模型：在Hugging Face和Kaggle上查找模型权重。

学习和整合：深入了解我们的技术报告和综合文档，将 Gemma 快速集成到您的项目中，或者从我们的推理指南开始，或者尝试使用自定义数据集进行微调。

使用您最喜欢的开发工具：利用您喜欢的工具和框架，包括Hugging Face Transformers、Ollama、我们的新Gemma JAX 库、MaxText、LiteRT、Gemma.cpp、llama.cpp 和Unsloth。

按您的方式部署：Gemma 3 提供多种部署选项，包括Google GenAI API、Vertex AI、Cloud Run、Cloud TPU和Cloud GPU以及跨平台集成，让您可以灵活地选择最适合您用例的选项。

标签: Gemma 3

Jam's Blog II

JamLee.Life 心情演绎