澎湃Logo
下载客户端

登录

  • +1

机器人装上OpenAI大模型:合作仅13天,能思考会识别,动作流畅

澎湃新闻记者 胡含嫣
2024-03-14 20:50
来源:澎湃新闻
10%公司 >
字号
澎湃新闻编辑 赵子易(02:02)
装载OpenAI大模型的人形机器人已经出现。

当地时间3月13日,在宣布与AI(人工智能)新锐巨头OpenAI展开合作的13天后,AI机器人初创企业Figure发布了旗下全尺寸人形机器人Figure 01的最新演示视频,该机器人装有OpenAI提供的视觉语言模型(VLM)。视频显示,Figure 01可以在执行任务时实现与人类的互动。

来源:Figure视频截图

根据Figure的介绍,这段时长2分33秒的展示视频“连贯地录制”于3月9日,以原速播放,显示出Figure 01已经能够实现“语音到语音的推理”和“端到端的神经网络”。

在视频中,外表颇具科技感的Figure 01站在一张放有盘子、苹果和水杯的桌子后面,旁边还放着一个装了盘子和水杯的碗架。一个主持人站在Figure 01的面前,问它能够看见什么。在停顿几秒钟后,Figure 01用一个很像真人的声音,详细描述了桌子上的东西和站在桌前的主持人。

而当主持人询问Figure 01“我可以吃点什么吗”,机器人以非常流畅的动作拿起了桌上的苹果,将其递给主持人,并在清理主持人用一个篮子倒在桌上的垃圾的同时,向主持人解释自己的“思考”过程:“我给你苹果,因为它是这张桌子上唯一可以吃的东西。”

来源:Figure视频截图

随后,机器人又在主持人十分模糊的提示下,准确地将桌上的盘子和水杯放进了一旁的碗架。在视频的最后,Figure用 “完全掌握技能、快速、灵巧操作”来形容Figure 01。

在X(原推特)平台上,Figure在转发该视频时写道:“有了OpenAI,Figure 01现在可以与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure神经网络提供快速、低级、灵巧的机器人动作。”

对于本视频,Figure的CEO布雷特·阿德科克(Brett Adcock)在X平台上进行了更多解释:“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型(VLM),Figure的神经网络也通过机器人的摄像头以10赫兹的频率接收图像。然后,神经网络以200赫兹的速度输出具有24个自由度的动作……除了构建领先的AI,Figure还垂直整合了基本所有的方面。”

不过,Figure尚未明确表示Figure 01使用的VLM是否为GPT-4的相关版本,还是一个截然不同的模型。阿德科克也没有提到任何关于Figure 01推出时间的信息。

去年10月,Figure放出了Figure 01双足站立行走的演示视频。今年1月7日,Figure发布了Figure 01使用胶囊咖啡机制作咖啡的视频,当时的Figure 01还动作缓慢。而在Figure发布本次视频后,由于机器人的动作过于流畅,不少网友对视频的真实度产生了质疑,认为其经过剪辑处理。

然而,阿德科克坚称,该视频属于真实拍摄:“正如你从视频中看到的,机器人的速度已经得到显著提升,开始接近人类的速度……我们的目标是训练一个世界模型,使其能够操作达到十亿单位水平的人型机器人。”

资料显示,Figure AI由阿德科克创办于2022年,公司目标是为人类“在全球范围内部署自动人形工作者”,正在研发的人形机器人Figure 01身高1.5米,体重60公斤。

近期,随着机器人概念持续走红,对标特斯拉Optimus机器人的Figure受到了广泛关注。今年2月,Figure在最新一轮融资中获得了来自AI芯片龙头英伟达、亚马逊创始人杰夫·贝索斯(Jeff Bezos)、科技巨头微软以及其他几家大型科技公司的投资,在本轮融资中累计筹得约6.75亿美元,公司估值达到26亿美元。

    责任编辑:王杰
    图片编辑:蒋立冬
    校对:张亮亮
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈