下载客户端

机器人装上OpenAI大模型：合作仅13天，能思考会识别，动作流畅

澎湃新闻记者胡含嫣

2024-03-14 20:50

来源：澎湃新闻

澎湃新闻编辑赵子易(02:02)

装载OpenAI大模型的人形机器人已经出现。

当地时间3月13日，在宣布与AI（人工智能）新锐巨头OpenAI展开合作的13天后，AI机器人初创企业Figure发布了旗下全尺寸人形机器人Figure 01的最新演示视频，该机器人装有OpenAI提供的视觉语言模型（VLM）。视频显示，Figure 01可以在执行任务时实现与人类的互动。

来源：Figure视频截图

根据Figure的介绍，这段时长2分33秒的展示视频“连贯地录制”于3月9日，以原速播放，显示出Figure 01已经能够实现“语音到语音的推理”和“端到端的神经网络”。

在视频中，外表颇具科技感的Figure 01站在一张放有盘子、苹果和水杯的桌子后面，旁边还放着一个装了盘子和水杯的碗架。一个主持人站在Figure 01的面前，问它能够看见什么。在停顿几秒钟后，Figure 01用一个很像真人的声音，详细描述了桌子上的东西和站在桌前的主持人。

而当主持人询问Figure 01“我可以吃点什么吗”，机器人以非常流畅的动作拿起了桌上的苹果，将其递给主持人，并在清理主持人用一个篮子倒在桌上的垃圾的同时，向主持人解释自己的“思考”过程：“我给你苹果，因为它是这张桌子上唯一可以吃的东西。”

来源：Figure视频截图

随后，机器人又在主持人十分模糊的提示下，准确地将桌上的盘子和水杯放进了一旁的碗架。在视频的最后，Figure用 “完全掌握技能、快速、灵巧操作”来形容Figure 01。

在X（原推特）平台上，Figure在转发该视频时写道：“有了OpenAI，Figure 01现在可以与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure神经网络提供快速、低级、灵巧的机器人动作。”

对于本视频，Figure的CEO布雷特·阿德科克（Brett Adcock）在X平台上进行了更多解释：“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型（VLM），Figure的神经网络也通过机器人的摄像头以10赫兹的频率接收图像。然后，神经网络以200赫兹的速度输出具有24个自由度的动作……除了构建领先的AI，Figure还垂直整合了基本所有的方面。”

不过，Figure尚未明确表示Figure 01使用的VLM是否为GPT-4的相关版本，还是一个截然不同的模型。阿德科克也没有提到任何关于Figure 01推出时间的信息。

去年10月，Figure放出了Figure 01双足站立行走的演示视频。今年1月7日，Figure发布了Figure 01使用胶囊咖啡机制作咖啡的视频，当时的Figure 01还动作缓慢。而在Figure发布本次视频后，由于机器人的动作过于流畅，不少网友对视频的真实度产生了质疑，认为其经过剪辑处理。

然而，阿德科克坚称，该视频属于真实拍摄：“正如你从视频中看到的，机器人的速度已经得到显著提升，开始接近人类的速度……我们的目标是训练一个世界模型，使其能够操作达到十亿单位水平的人型机器人。”

资料显示，Figure AI由阿德科克创办于2022年，公司目标是为人类“在全球范围内部署自动人形工作者”，正在研发的人形机器人Figure 01身高1.5米，体重60公斤。

近期，随着机器人概念持续走红，对标特斯拉Optimus机器人的Figure受到了广泛关注。今年2月，Figure在最新一轮融资中获得了来自AI芯片龙头英伟达、亚马逊创始人杰夫·贝索斯（Jeff Bezos）、科技巨头微软以及其他几家大型科技公司的投资，在本轮融资中累计筹得约6.75亿美元，公司估值达到26亿美元。

责任编辑：王杰

图片编辑：蒋立冬

校对：张亮亮

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#Figure #OpenAI #AI #人工智能 #机器人