- +1
Bing抢先ChatGPT发布识图功能
微软悄悄上新了。日前,有网友发现自己的Bing Chat账号新增了一个上传图片的入口。根据用户上传的图片,Bing Chat就能识图回答问题。
早在3月份,OpenAI在发布GPT-4时,特别提出了GPT-4较GPT-3.5最大的亮点是图像输入功能,即GPT-4支持图片输入,可以看懂梗图、看懂物理题,还能看懂论文。不过当时,该多模态功能尚处于研究预览阶段,还不能公开。
如今,微软似乎要抢先ChatGPT一步发布识图功能。在上个月Bing的大更新日志中,微软就提到了会为使用GPT-4模型的Bing Chat加入多模态支持。
那么,“长了眼睛”的Bing Chat到底是怎么样的呢?
首先,针对看梗图功能,Bing Chat根据网友上传的一幅关于机器学习的梗图漫画,或者一张在汽车上烫衣服的梗图,就能准确地答出图中的内容和笑点,基本上可以说是Get到了点位。其次,在识图精确度的评测方面,网友上传了《任天堂大乱斗》游戏的角色图,同一张图上有排列着非常多的角色,Bing Chat对其进行了一一辨认后,从12个角色中认出了7个。结果而论,Bing Chat在二次元问题上还有待进一步提升。再者,在根据手绘图编程网页方面,Bing Chat对于网友给出的手画“试题”,基本能够搭出网页的雏形。
在大语言模型升级的过程中,在文字理解和表达能力的基础上,学习了视觉识别后的Bing Chat将具有更多的功能,给人类的使用带来更大的方便。而曾经一些难以用语言表达的内容,现在都可以通过图片进行解决。甚至,具备了图像识别功能的AI还可以在教育、医疗等领域发挥更大的作用和价值。比如,在教育领域,Bing Chat 将可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题。这将在很大程度上解决教育资源不均衡的问题。在医疗领域,用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间。AI应用在社会生活中的价值将由此得到最大化的实现。
由Bing Chat带来的前景功能,无疑令人兴奋的。但是,从目前的小范围测试功能到完全向公众开放识图功能,确保公众不会因为误信Bing Chat的回答而出现安全问题,微软还需要做大量的限制和调试,可谓任重道远。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司