谷歌这次真的把家底掏光了!Gemma 4 炸场开源圈,31B 越级斩杀千亿模型

发表时间:2026-04-03 16:23


凌晨,谷歌 DeepMind 扔下了 2026 年开源圈第一颗核弹:Gemma 4 正式发布。


一口气放出 4 款全尺寸模型,从能塞进手机的 2B,到单卡就能跑满的 31B,全部与闭源旗舰 Gemini 3 同源打造。



时隔一年,Gemma 不仅完成了史诗级跃迁,更直接改写了整个开源大模型的游戏规则。


最炸的数字:

31B Dense 在 Arena AI 文本榜单拿下开源第三,Elo 评分 1452。


排在它前面的两个对手,一个 600 多亿参数,一个超过 1000 亿。Gemma 4 用 31B 的体量,硬生生挤进了千亿级的牌桌。


更离谱的是 26B MoE,总参数 252 亿,推理时仅激活 38 亿,Elo 直接打到 1441,排开源第六。



看一眼成绩单,这根本不是迭代,是对上一代的血脉压制。

  • 数学推理(AIME 2026):89.2% vs 21.2%,暴涨 68 个百分点

  • 编程能力(LiveCodeBench):80% vs 29.1%,代际级断层

  • 智能体能力(t2-bench):86.4% vs 6.6%,差距大到离谱

另外,在多语言推理、知识问答的基准测试中,Gemma 4均实现了40%性能飙升。



令人背脊发凉的是,这个 31B 的小模型,居然越级斩杀了体量是自己 20 倍的闭源模型。


现在一台 Mac Mini 就能跑 Gemma 4,甚至已经有人在手机上成功离线运行了。



Hugging Face CEO Clément Delangue 只用一句话评价:这是一个巨大的里程碑





01

四款模型打通端边云



Gemma 4 全家桶每个尺寸都提供基础版和指令微调版,精准覆盖所有使用场景:


  • E2B/E4B(端侧主力):与谷歌 Pixel、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano 上完全离线运行,延迟接近零。E4B 的性能甚至超过了上一代 Gemma 3 27B。


  • 26B MoE(速度之王):推理仅激活 38 亿参数,出 token 速度极快,是低延迟 Agent 场景的首选,量化后单张 24GB 显卡就能跑。



  • 31B Dense(性能天花板):开源模型综合实力第三,bfloat16 权重可塞进一张 80GB H100,4bit 量化后消费级显卡也能流畅运行。


值得一提的是,全系支持谷歌最新的 TurboQuant 压缩算法,在几乎不损失质量的前提下,进一步降低显存占用。




02

小模型打出大模型的实力



Gemma 4 没有明显短板,几乎在所有基准测试中都实现了对前代的碾压:


  • 数学与科学:31B AIME 2026 得分 89.2%(前代 20.8%),GPQA Diamond 科学知识 84.3%,接近人类博士水平。


  • 编程能力:31B LiveCodeBench v6 拿到 80%,Codeforces Elo 2150,相当于专业紫名选手;26B MoE 也有 77.1%,秒杀绝大多数同级别模型。


  • 多模态:31B MMMU Pro 多模态推理 76.9%,26B 73.8%,远超前代的 49.7%。


  • 长上下文:31B 支持 256K 上下文,MRCR v2 128K 针测试 66.4%,是前代的 5 倍。


哪怕是最小的 E4B,AIME 也能拿到 42.5%,LiveCodeBench 52%—— 这个成绩放在一年前,是旗舰级大模型才有的水平。



03

每一个参数都物尽其用



Gemma 4 没有堆砌花哨的新概念,而是把经过验证的技术组合到了极致,谷歌甚至主动砍掉了 Altup 等 “效果不确定” 的组件。


  • 逐层嵌入(PLE)

    传统 Transformer 就像出门前把一天要用的所有东西都塞进一个背包,嵌入层负担极重。PLE 则是给每一层都配一个专属的低维信号通道,每到一个地方,就有人递给你当下最需要的工具。额外开销极小,但每一层都获得了专属的调节能力,这是小模型能跑出大模型效果的核心秘诀。


  • 共享 KV 缓存

    最后 N 层不再自己计算 Key 和 Value,直接复用前面层的 KV 张量。推理时显存占用和计算量大幅下降,对长上下文生成和端侧部署尤其友好,谷歌称对质量的影响 “微乎其微”。


  • 交替注意力机制

    模型交替使用局部滑动窗口注意力和全局全上下文注意力,小模型用 512 token 窗口,大模型用 1024。既保证了局部建模的效率,又通过全局层拉长了上下文覆盖范围。





04

一个模型 搞定看图、听声、读视频



Gemma 4 全系支持图像和视频输入,E2B 和 E4B 还额外兼容音频,真正做到了全模态统一。


  • 视觉理解:支持可变宽高比(不再强制裁切),图像 token 预算五档可调,从快速分类到高精度 OCR 自由切换。给一张网页截图,能直接以 JSON 格式返回按钮的精确坐标。


  • 视频理解:能准确描述视频内容,识别字幕和品牌 logo;E4B 还能同时提取音轨信息,理解歌词和对白。


  • 音频转写:E4B 的英文转写几乎完美,标点和断句都很自然。


  • 原生函数调用:从训练阶段就内置了工具调用能力,能自动处理多轮多工具的 Agent 工作流,不需要任何复杂的提示工程。





05

Apache 2.0



这次发布最大的非技术新闻,是Gemma 4 首次采用 Apache 2.0 开源协议。


之前的 Gemma 系列用的是谷歌自定义许可证,有各种限制和归属要求,企业法务需要逐条审查才能商用。


而 Apache 2.0 一步到位:

✅ 无任何自定义条款

✅ 无商用限制

✅ 可自由修改、分发、打包进产品

✅ 无灰色地带


自 Gemma 初代发布以来,累计下载量已超过 4 亿次,社区衍生版本超过 10 万个。Apache 2.0 的加持下,这个数字必然会迎来爆发式增长。


Gemma 4 的发布,让谷歌的双线策略彻底成型。顶层是Gemini 系列闭源模型,占据性能天花板,通过 API 变现;底层则是Gemma 系列开源模型,用同源技术喂养开发者生态,抢占本地部署、端侧推理、Agent 开发的入口。


一个做收入,一个做生态,彼此不冲突,反而互相放大。


对开发者来说,现在的选择已经无比清晰:

  • 31B 的体量,能跑出接近千亿参数的效果;

  • Apache 2.0 随便用,没有任何法律风险;

  • 从手机到服务器全覆盖,微调工具链完整。



谷歌用 Gemma 4 证明了,参数效率这条路,才是开源模型的未来,31B 打赢 20 倍体量的对手,2B 塞进手机口袋。


开源大模型的比赛,从今天起,进入了全新的时代。



Nebula Data 星雲數據,总部位于新加坡,在雅加达、广州、上海、香港设有分支机构。公司自主研发 Nebula Lab 一站式 AI 内容生成与模型聚合平台,搭载企业级 AI Agent,聚合全球通用大模型与行业垂直模型;同步推出 Nebula AIoT 硬件生态体系(含智能交互终端、物联网网关等产品),形成 “云 - 边 - 端” 全链路智能解决方案,为电商、制造、零售等多领域客户提供从云端算力支撑、AI 智能决策到终端场景落地的一体化服务;同时提供全球 AIDC(AI 智算中心)+ 低延迟网络服务,以技术底座赋能企业拥抱 AI、链接物理世界,拓展全球业务。