下载客户端

登录

+1

谷歌史上最强推理模型全面屠榜！击败DeepSeek断层第一，“人类最后考试”暴碾OpenAI，免费…

关注

2025-03-26 14:09

北京

来源：澎湃新闻·澎湃号·湃客

原创陈骏达智东西

谷歌发布新一代思考模型，斩获多项基准测试冠军。

作者 | 陈骏达

编辑 | 心缘

智东西3月26日报道，今天，谷歌发布了Gemini 2.5思考模型家族的第一个成员——Gemini 2.5 Pro实验版本。这一模型在多项基准测试中全面超越OpenAI o3-mini，Claude 3.7 Sonnet、Grok-3和DeepSeek-R1，一经亮相便在大模型竞技场获得1443分，凭借39分的大幅优势，获得断层第一。

不过，谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比。此外，在智能体编程评估基准SWE-bench verified上，其得分要低于Claude 3.7 Sonnet。

Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外，还在常见的编程、数学和科学基准测试中处于领先地位，包括Humanity’s Last Exam（人类最后考试）这一难度超高的基准测试，与OpenAI o3-mini相比，其得分提升了近5%，提升比例达34%。这款模型现已支持100万tokens上下文窗口，并将很快拓展至200万tokens。

目前，Gemini 2.5 Pro已上线面向开发者的谷歌AI Studio平台，并很快会在谷歌的在线AI开发平台Vertex AI上线。普通用户若要体验这款新模型，需要具备Gemini Advanced订阅账号。

未来几周，谷歌还将推出模型的定价，允许用户使用具有更高速率的2.5 Pro进行大规模商用。

博客地址：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro

体验链接：

https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

01.

谷歌大秀新模型编程能力，

一句话生成互动式图表

Gemini 2.5 Pro发布后，谷歌DeepMind在其YouTube账号上发布了多个演示视频，主要展现了其编程能力与其他领域能力的结合。

例如，Gemini 2.5 Pro可以根据用户提出的简单指令，在p5.js中探索曼德博集合。这要求大模型具备较好的数学、编程和可视化能力。最终，较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等。

Gemini 2.5 Pro还能根据提示词，创建互动式的图表。下方案例中，它便将过去几十年的人均GDP数据与健康数据结合，在一张图表内呈现了数百个国家过去几十年的变化，从而揭示财富与健康之间的关系。

对于一些更为日常的任务，如游戏开发，Gemini 2.5 Pro也能在指定特定编程语言的情况下，给出兼具审美和可玩性的游戏。下方的这一恐龙小游戏与Chrome内自带的游戏画风颇为接近。

02.

获得多项SOTA成绩，

将支持200万tokens长上下文

谷歌称，Gemini 2.5 Pro在一系列需要高级推理能力的基准测试中获得了最佳表现，包括GPQA和AIME 2025。参与测试时，Gemini 2.5 Pro没有使用多数投票等token消耗量巨大的测试时计算技巧。

Gemini 2.5 Pro在Humanity's Last Exam中获得了18.8%的最佳得分，且并未调用工具。这一测试集由数百位人类专家设计，包含了人类最前沿深奥的知识和推理。

高级编程能力方面，Gemini 2.5 Pro在2.0版本的基础上实现了较大提升，新模型擅长创建美观的Web应用和智能体编程方面表现突出，同时擅长代码转换与编辑任务。

在行业标准的智能体编程评估基准SWE-bench verified上，Gemini 2.5 Pro采用定制智能体配置取得了63.8%的得分，不过这一得分仍然低于Claude 3.7 Sonnet。

与Gemini模型家族的其他成员一样，Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口。目前，其支持100万tokens的上下文窗口，并很快将升级至200万tokens，让该模型能够解析海量数据集，处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题。

03.

结语：编程成为AI玩家角力新前线

本次Gemini 2.5 Pro的发布，与昨日DeepSeek-V3新版本的发布相隔不到30个小时。与DeepSeek-V3一样，谷歌也选择提升了Gemini在编程、审美、数学等方面的能力，并将其作为模型的亮点重点展示，放出的6个演示视频均为AI编程相关。

AI编程能力的提升，既能给普通用户带来直观的感知变化，也有望在生产场景中带来明显的效益提升。这一领域或将在未来很长一段时间内，成为大模型厂商们竞相角力的方向。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

原标题：《谷歌史上最强推理模型全面屠榜！击败DeepSeek断层第一，“人类最后考试”暴碾OpenAI，免费可用》

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

+1

0

收藏

相关推荐

“航母哥”向黄旭华故居捐赠一艘12米长核潜艇模型

长20cm！史上最大、最贵的人类粪便，为何价值3万美元？还被安置在博物馆里？

基辛格遗作出版，留下最后警告：AI对人类或是终极威胁

评论（0）

加载中

废墟中搭起生命之桥
第13次中日韩经贸部长会议举行
2024中国正能量网络精品揭晓

微盘股遭遇“倒春寒”，日历效应下基金经理策略升级
消费贷“低息潮”将退，多家银行4月起上调利率

上海市举办F1的赛车场
由海尔集团投资制作的国产动画片，主角是一对不同肤色的兄弟

澎湃AI晚新闻丨2025年3月30日

于东来：企业家要有能干会玩的生命状态，曾劝许多零售业的朋友稳健发展但没人听

中央网信办：依法严厉打击严重违法违规行为，持续增强网络执法震慑

查看更多

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

© 2014-2025 上海东方报业有限公司

反馈