下载客户端

谷歌推出AI模型Gemini，语言理解首次超越人类专家

2023-12-08 12:15

来源：澎湃新闻·澎湃号·湃客

在一段视频中，一个男子做出后仰并躲避的慢动作，AI马上猜出：这是表演《黑客帝国》中“子弹时间”的场景。当人类拿起画笔在一张纸上勾勒出一只鸭子，并为它涂上了蓝色。这次AI说道：“这可不是鸭子常见的颜色。”

三个空杯并排放在桌子上，一张蓝色纸团被塞进其中一个杯子里，在人类一番眼花缭乱的操作后，AI准确地猜出：“纸团在最左边的杯子里！”

“喂”给AI一张手写的物理题，它不仅能看懂，而且还能分辨手写答案的对错，并且给出解释出一步一步解决问题的细节。

上传食材图像和语音输入，AI不仅可以指导你做菜，还能在不同阶段提出相应的建议。

↑

这些片段，是Google演示其在12月6日

最新出炉的AI大模型Gemini的场景

“我们离新一代人工智能模型的愿景越来越近了。”进行完一系列视频演示后，Google DeepMind产品副总裁Eli Collins（伊莱·柯林斯）对媒体说，这是Google迄今为止功能最强大、最通用的大模型。

和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。在灵活度上，从数据中心到移动设备上，它都能够运行。

值得一提的是

在MMLU（大规模多任务语言理解）测试中

Gemini Ultra以90.0%的高分

首次超过了人类专家

Gemini被视作是Google在AI大模型领域放出的“大招”。多年前，Google凭借AlphaGo的惊艳表现在全球掀起了一波AI浪潮。但这一次，在OpenAI的ChatGPT所引发的AI新浪潮中，Google面临不小的压力。眼下，Google迫切需要一款现象级AI产品，证明自己在人工智能领域的实力。

Gemini的各种能力

据界面新闻，Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型，包括三种不同套件，分别是Gemini Ultra,Gemini Pro和Gemini Nano。

其中Ultra的能力最强，复杂度最高，能够处理最为困难的多模态任务；Pro能力稍弱，是一个可扩展至多任务的模型；Nano则是一款可以在手机端侧运行的模型。这说明，Gemini的触达范围很广，可以下探至数据中心，也可以上行至移动设备端侧。

Gemini模型经过海量数据训练，可以很好识别和理解文本、图像、音频等内容，并可以回答复杂主题相关的问题。所以，非常擅长解释数学和物理等复杂学科的推理任务。

Gemini可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval，这是评估编码任务性能的重要行业标准。

谷歌还基于Gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比，AlphaCode 2的性能提升了至少50%以上。

Gemini的多模态功能，使其能在视觉理解、文本生成等方面有非常强的功能。例如，从数十万字的小说中整理出重要观点，从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。

据澎湃新闻，谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯（Demis Hassabis）在发布会上正面谈及GPT-4与Gemini的对比，“我们对系统进行了非常彻底的分析，并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型，从广泛的整体测试（如多任务语言理解基准测试）到比较两个模型生成Python代码的能力。”哈萨比斯略带微笑地表示，“我认为我们在32项基准中的30项中大幅领先。”

应用于智能手机

从发布日起，Gemini可开始应用于Bard和Pixel 8 Pro智能手机，并将很快与谷歌服务中的其他产品集成，包括Chrome、搜索和广告等。

目前，谷歌计划通过谷歌云将Gemini授权给客户，供他们在自己的应用程序中使用。12月13日开始，开发者和企业客户可以通过谷歌AI Studio或谷歌Cloud Vertex AI中的Gemini API（应用程序编程接口）访问Gemini Pro，安卓开发人员可以使用Gemini Nano完成构建。

据介绍，Gemini Ultra是第一个在MMLU（大规模多任务语言理解）方面超越人类专家的模型，该模型综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力，谷歌在一篇博客文章中表示，它可以理解复杂主题中的细微差别和推理。

而据CNBC报道，谷歌高管们在新闻发布会上表示Gemini Pro的表现优于GPT-3.5，但回避了与GPT-4相比如何的问题。对于谷歌是否计划对Bard Advanced的访问收费，Bard总经理萧茜茜（Sissie Hsiao）表示，谷歌专注于创造良好的体验，目前还没有任何相关盈利的细节。

谷歌最强TPU与AI超级计算机

与新模型一起亮相的，还有新版本的TPU芯片TPU v5p，旨在减少训练大语言模型相关的时间投入。TPU是谷歌为神经网络设计的专用芯片，经过优化可加快机器学习模型的训练和推断速度，谷歌于2016年起开始推出第一代TPU。

据谷歌介绍，与TPU v4相比，TPU v5p的浮点运算性能提升了两倍，在高带宽内存方面提高了3倍。使用谷歌的600 GB/s芯片间互连，可以将8960个v5p加速器耦合在一个Pod（通常指一个包含多个芯片的集群或模块）中，从而更快或更高精度地训练模型。作为参考，该值比TPU v5e大35倍，是TPU v4的两倍多。

谷歌称，TPU v5p是其迄今为止最强大的，能够提供459 teraFLOPS（每秒可执行459万亿次浮点运算）的bfloat16（16位浮点数格式）性能或918 teraOPS（每秒可执行918万亿次整数运算）的Int8（执行8位整数）性能，支持95GB的高带宽内存，能够以2.76 TB/s的速度传输数据。

谷歌表示，所有这些意味着TPU v5p可以比TPU v4更快地训练大型语言模型，如训练GPT-3（1750亿参数）这样的大语言模型速度比TPU v4快2.8倍。

除了新硬件之外，谷歌还引入了“人工智能超级计算机”的概念。谷歌云将其描述为一种超级计算架构，包括一个集成系统，具有开放软件、性能优化硬件、机器学习框架和灵活的消费模型。

谷歌计算和机器学习基础设施部门副总裁马克·洛迈尔（Mark Lohmeyer）在博客文章中解释道，“传统方法通常通过零碎的组件级增强来解决要求苛刻的人工智能工作负载，这可能会导致效率低下和瓶颈。”“相比之下，人工智能超级计算机采用系统级协同设计来提高人工智能训练、调整和服务的效率和生产力。”这可以理解为，与单独看待每个部分相比，这种合并将提高生产力和效率。换句话说，超级计算机是一个系统，其中任何可能导致性能低下的变量（硬件或软件）都受到控制和优化。

本文综合自第一财经、界面新闻、澎湃新闻、每日经济新闻等

原标题：《绝地反击！谷歌推出AI模型Gemini：语言理解首次超越人类专家，听说看写样样精通》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报