- +1
OpenAI最大竞争对手Anthropic发布新模型
能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。
10月22日,美国人工智能初创公司Anthropic宣布推出升级版的Claude 3.5 Sonnet模型,升级后的Claude 3.5大语言模型,Anthropic声称会达到“仿佛一个人在电脑前工作”的效果。
它能够通过新的“计算机使用”(Computer Use)API,与任何桌面应用程序交互,模仿键盘输入、鼠标点击和移动等操作。Anthropic将其称为“下一代AI自我学习算法”,并相信这项技术有望在未来自动化经济中占有很大一部分。
“我们并非为Claude设计特定的工具来完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。”Anthropic表示。
为了实现该功能,Anthropic在工具使用和多模态方面做了很多前期工作。操作计算机需要理解和解释图像的能力——即屏幕截图。同时,还需要推理何时以及如何执行特定操作。通过训练,Claude学会了将用户的文本指令转化为一系列逻辑步骤,然后在电脑上执行。
例如,它可以帮助用户找到去金门大桥观看日出的最佳地点,查看驾车时间和日出时间,并在日历中安排活动;还可以自动编写网站代码,修复编程错误,甚至在用户构建应用程序时实时评估其性能。
尽管市场上已有其他能够自动化桌面任务的AI代理,如Relay、Induced AI和Automat,但Anthropic声称,新的Claude 3.5 Sonnet模型在性能和稳健性上领先于其他竞争对手。根据SWE-bench Verified基准测试,Claude 3.5 Sonnet在编码任务上得分从33.4%提升至49.0%,超过了所有公开可用的模型,包括OpenAI的旗舰模型o1-preview。
此外,Claude 3.5 Sonnet在TAU-bench测试中也表现出色,在零售领域的得分从62.6%提高到69.2%,在更具挑战性的航空领域则从36.0%跃升至46.0%。即使没有经过专门的训练,升级后的Claude 3.5 Sonnet在遇到障碍时还能自我纠错和重试,并能完成需要数十甚至数百步的目标。
不过,Claude的计算机使用功能目前仍有一定局限。例如,它在滚动、拖动、缩放等基本操作上还有困难,由于其通过截图并拼接的方式“观察”屏幕,可能会错过短暂出现的动作或通知。
安全问题也是一大关注点。此前的研究表明,即使是无法使用桌面应用程序的模型,如OpenAI的GPT-4o,在遭受“越狱”攻击时,也可能执行有害的多步骤行为,例如从暗网购买假护照。
Anthropic表示,他们采取了多项措施来防止滥用,例如不在训练中使用用户的截图和提示词,防止模型在训练期间访问网络,并开发了分类器,引导Claude避免高风险的行为,如在社交媒体上发帖、创建账户以及与政府网站交互。
“没有万无一失的方法,我们将持续评估和改进安全措施,以平衡Claude的能力和负责任的使用。”Anthropic强调。据悉,多家知名公司已经开始探索Claude的新功能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。
Anthropic由前OpenAI成员Dario Amodei和Daniela Amodei创立,旨在开发安全、可靠的AI模型,其Claude系列大语言模型被广泛认为是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争对手。此次Claude 3.5 Sonnet在关键性能指标上实现领先,展示了Anthropic在人工智能领域同样具有领先实力。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司