Gemma 3 简介:开发人员指南

自首次发布以来,Gemma 模型的下载量已超过 1 亿次,社区为各种用例创建了 60,000 多种变体。我们很高兴推出 Gemma 3,这是我们 Gemma 开放模型系列中功能最强大、最先进的版本,它建立在之前 Gemma 版本成功的基础上。我们听取了社区的反馈,并添加了最需要的功能,例如更长的上下文、多模态等等!
Gemma 有什么新功能?
Gemma 3 引入了多模态性,支持视觉语言输入和文本输出。它可以处理多达 128k 个标记的上下文窗口,理解 140 多种语言,并提供改进的数学、推理和聊天功能,包括结构化输出和函数调用。Gemma 3 有四种大小(1B、4B、12B 和 27B),既有预训练模型(可以根据您自己的用例和领域进行微调),也有通用指令调整版本。

Gemma 是如何建造的?
Gemma 的训练前和训练后流程通过结合提炼、强化学习和模型合并进行了优化。这种方法提高了数学、编码和指令遵循方面的性能。Gemma 3 使用新的标记器来更好地支持 140 多种语言,并在使用 JAX 框架的 Google TPU 上对 1B 的 2T 标记、4B 的 4T 标记、12B 的 12T 标记和 27B 的 14T 标记进行了训练。
对于后期训练,Gemma 3 使用 4 个组件:
从更大的指导模型提炼到 Gemma 3 预训练检查点。
通过人类反馈强化学习 (RLHF) 使模型预测与人类偏好保持一致。
强化学习机器反馈 (RLMF) 以增强数学推理。
通过执行反馈强化学习 (RLEF) 来提高编码能力。
这些更新显著提高了模型的数学、编码和指令遵循能力,使其成为 LMArena 中得分最高的开放式紧凑模型,得分为 1338。

Gemma 3 的指令版本使用与 Gemma 2 相同的对话框格式,因此您无需更新工具即可更新到最新版本以进行纯文本输入。对于图像输入,Gemma 3 允许指定与文本交错的图像。
多轮文本示例
<bos><start_of_turn>用户敲门<end_of_turn> <start_of_turn>模特谁在那里<end_of_turn> <start_of_turn>用户Gemma<end_of_turn> <start_of_turn>模特Gemma是谁?<end_of_turn>
交错图像示例
<bos><start_of_turn>用户图像 A:<start_of_image>图像 B:<start_of_image>标签 A:睡莲标签 B:<end_of_turn> <start_of_turn>模型沙漠 rote<end_of_turn>
多模态
Gemma 3 具有基于的集成视觉编码器。Gemma 3 视觉模型在训练期间保持冻结状态,在不同尺寸(4B、12B 和 27B)下均相同。得益于此,Gemma 可以使用图像和视频作为输入,从而可以分析图像、回答有关图像的问题、比较图像、识别对象,甚至回复有关图像中文本的信息。尽管该模型最初是为处理 896x896 像素的图像而创建的,但新的自适应窗口算法可用于分割输入图像,从而使 Gemma 3 能够处理高分辨率和非正方形图像。

输入:我需要暖和一下。按哪个按钮可以加热?

根据图片,可能调高温度的按钮是暖房(Danbou)。“暖房”在日语中是“加热”的意思。这是您按下以激活空调/气候控制系统上的加热功能的按钮。选择加热模式后,带有加号 (+) 的按钮可能会调节温度。
ShieldGemma 2
ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它输出关键安全类别的标签,从而实现对合成图像(来自图像生成模型)和自然图像(可能是 Gemma 3 等视觉语言模型的输入过滤器)的安全审核。了解有关更多信息。
你在建什么?
Gemma 社区的创造力和的爆炸式增长不断令我们惊叹。从研究实验室开创的新型微调技术(例如普林斯顿 NLP 开发的,它无需参考模型即可直接针对人类偏好进行优化;INSAIT 为)到开发人员在全新模式下训练 Gemma,例如。我们迫不及待地想看看您接下来会取得什么突破。
立即开始使用 Gemma 3
准备好今天探索 Gemma 3 的潜力了吗?方法如下:
直接实验:只需点击几下即可使用
下载模型:在和上查找模型权重。
学习和整合:深入了解和,将 Gemma 快速集成到您的项目中,或者从我们的推理指南开始,或者尝试使用自定义数据集进行微调。
使用您最喜欢的开发工具:利用您喜欢的工具和框架,包括、、我们的新、、、、llama.cpp 和。
按您的方式部署:Gemma 3 提供多种部署选项,包括、、、和以及跨平台集成,让您可以灵活地选择最适合您用例的选项。