Gemma 2——谷歌发布轻量、低成本大模型产品

2024年6月28日,谷歌宣布面向全球研究人员和开发者发布 Gemma 2大语言模型。Gemma 2有90亿(9B)和270亿(27B)两种参数大小。与第一代相比,其性能更高、推理效率更高,并且内置了显著的安全改进。
Gemma 2-27B 的性能媲美两倍规模的主流模型,而且只需要一片英伟达 H100 Tensor Core GPU 或 TPU 主机就能实现这种性能,从而大大降低了部署成本。Gemma 2-9B 模型优于 Llama 3 8B 和其他类似规模的开源模型。谷歌还计划在未来几个月发布参数为26亿的 Gemma 2模型,更适合智能手机的人工智能应用场景。
Gemma 2的主要特点包括:
  • 性能优异:27B 版本在同规模级别中性能最佳,甚至比两倍于其尺寸的机型更具竞争力;9B 版本的性能在同类产品中也处于领先地位,超过了 Llama 3 8B 和其他同规模的开放模型。
  • 效率和成本:27B Gemma 2模型可在单个谷歌云 TPU 主机、英伟达 A100 80GB Tensor Core GPU 或英伟达 H100 Tensor Core GPU 上以全精度高效运行推理,在保持高性能的同时大幅降低成本,使得人工智能部署更容易实现,预算也更合理。
  • 跨硬件快速推理:经过优化,可在各种硬件(从功能强大的游戏笔记本电脑和高端台式机到基于云的设置)上以惊人的速度运行。
Gemma 2模型的训练数据量约为第一代的两倍,总计13万亿 Tokens(270亿模型)和8万亿 Tokens(90亿模型)的网页数据(主要是英语)、代码和数学数据。
Gemma 2与第一代使用相同的许可证,这是一个允许再分发、微调、商业用途和衍生作品的宽松许可证。
Gemma 2在技术方面有以下进展:
  • 滑动窗口注意力:每隔一层应用滑动窗口(局部-4096 Tokens),而中间层仍使用全局二次注意力(8192 Tokens),可在长上下文情况下提高质量,同时部分受益于滑动注意力的优势。
  • Logit 软上限:通过将 logits 缩放到固定范围来防止其过度增长,从而改进训练。在推理过程中不使用软上限机制时差异非常小,但对于稳定的微调运行,仍需启用软上限。
  • 知识蒸馏:利用较大的教师模型来训练较小的模型(适用于90亿模型)。90亿模型采用知识蒸馏,而270亿模型则是从头开始预训练的。为解决学生和教师之间的模型容量不匹配可能导致的训练-推理不匹配问题,Gemma 2团队采用了“在线蒸馏”,让学生能够准确地模拟教师的行为,同时最小化训练-推理不匹配。
  • 模型合并:将两个或多个大语言模型合并成一个新的模型。Gemma 2使用了 Warp 这一新型合并技术,分三个独特阶段进行合并,包括指数移动平均(EMA)、球形线性插值(SLERP)、向初始化线性插值(LITI)。
目前,Gemma 2已上线 Google AI Studio,开发者还可以通过数据科学社区 Kaggle 和开源平台 Hugging Face Models 下载其模型权重。谷歌还面向研究人员推出了 Gemma 2学术研究计划,向他们提供 Google Cloud 额度。
需注意的是,虽然 Gemma 2是开放模型,但谷歌并不会分享其源代码、训练数据等技术细节,且用户在应用时需遵守许可协议才能进行商业使用和分发。
阅读剩余
THE END