下载客户端

微软高管透露将于下周推出GPT-4，为包含视频的多模态模型

澎湃新闻记者邵文

2023-03-10 12:30

来源：澎湃新闻

∙ 未来2% >

·微软德国公司的首席技术官安德烈亚斯·布劳恩透露，“我们将在下周推出GPT-4，它将是一个多模态模型，会提供完全不同的可能性——例如视频。”这项技术已经发展到基本上“适用于所有语言”，也就是说“可以用德语提问，然后用意大利语得到答案”。

微软德国公司的首席技术官安德烈亚斯·布劳恩（Andreas Braun）在“AI in Focus - Digital Kickoff”活动中。

“我们将在下周推出GPT-4，它将是一个多模态模型，会提供完全不同的可能性——例如视频。”当地时间3月9日，微软德国公司的首席技术官安德烈亚斯·布劳恩（Andreas Braun）在一场名为“AI in Focus - Digital Kickoff”的活动中透露。

据德国科技媒体“heise在线”报道，布劳恩称LLM（Large Language Model，大型语言模型）为“游戏规则改变者”，它们教机器理解自然语言，然后机器以统计学方式理解以前只能由人类阅读和理解的内容。与此同时，这项技术已经发展到基本上“适用于所有语言”，也就是说“可以用德语提问，然后用意大利语得到答案。借助多模态，微软（和OpenAI）将使模型变得全面”。

GPT是Generative Pre-training Transformer（生成式预训练Transformer）的缩写。人工智能研究机构、ChatGPT的创造者OpenAI于2018年推出具有1.17亿个参数的GPT-1模型，2019年推出具有15亿个参数的GPT-2，2020年推出有1750亿个参数的GPT-3。ChatGPT是OpenAI对GPT-3模型微调后开发出来的对话机器人。

微软德国公司CEO玛丽安·贾尼克（Marianne Janik）。

在上述活动中，微软德国公司CEO玛丽安·贾尼克（Marianne Janik）谈到了人工智能对企业的颠覆性影响。贾尼克认为，当前的人工智能发展和ChatGPT是“iPhone时刻”。她说，这不是要替代工作，而是要以不同于以往的方式完成重复性任务。

贾尼克强调，这将需要“许多专家来利用AI创造价值”。传统的工作正在发生变化，由于新的可能性的丰富，令人兴奋的新职业正在出现。她建议企业成立内部“能力中心”，培训员工使用人工智能并将想法整合到项目中。

此外，贾尼克强调，微软不会使用客户的数据来训练模型。然而，根据ChatGPT的政策，这不会或至少不会适用于他们的研究合作伙伴OpenAI。

微软的两位AI技术专家克莱门斯·希伯（Clemens Sieber）和霍尔格·肯恩（Holger Kenn）提供了关于AI实际使用的一些信息。

肯恩解释了什么是多模态人工智能，它不仅可以将文本相应地变成图像，还可以变成音乐和视频。

微软过去几天接连发布了展示多模态语言大模型Kosmos-1和Visual ChatGPT的论文，显然非常支持多模态，希望能够做到使感知与LLM保持一致，让单个AI模型看文字图片，也能说话。

希伯则用用例说明了今天已经成为可能的事情，例如可以把电话呼叫的语音直接记录成文本。根据希伯的说法，这可以为微软在荷兰的一家大型客户每天节省500个工作小时。该项目的原型是在两个小时内创建的，一位开发人员在两周内完成了该项目。据他介绍，3个最常见的用例是回答只有员工才能访问的公司信息、AI辅助文档处理和在呼叫中心处理口语的半自动化。

微软将在太平洋时间3月16日上午8点举办一场特别活动，详细介绍“人工智能工作的未来”，并展示其类似ChatGPT的人工智能将如何在Teams、Word和Outlook等Office应用程序中工作。

科技媒体The Information今年早些时候曾报道过，来自OpenAI的GPT模型已经在Outlook中进行了测试，其以建议回复电子邮件和Word文档集成来改善用户写作的功能。微软3月6日在Microsoft Dynamics 365和客户关系管理软件Viva Sales中推出了全新的生成式CoPilot AI体验，可以帮助编写给客户的电子邮件回复。