- +1
新模型接连炸场,机器视觉再迎高光时刻
年初,由人工智能研究实验室Open AI发布的ChatGPT在全球掀起了一股人工智能新浪潮,推出仅两个月,活跃用户数量就突破了1亿,成为历史上用户增长速度最快的消费级应用程序。这场AI热潮中,Meta显得比较安静,甚至有点不符合其元宇宙玩家的身份。但近日,它却爆出了大动作,引起业内轰动,Meta推出Segment Anything工具,该模型可以用于分割图像中的一切对象,包括训练数据中没有的内容,交互方面,SAM可使用点击、框选、文字等各种输入提示,指定要在图像中分割的内容。对于视频中物体,它也能准确识别并快速标记物品的种类、名字、大小,并自动用ID为这些物品进行记录和分类。
如果说此前势如破竹的GPT-4 已经做到“回答一切”,SAM的目标在于精准“分割一切”,英伟达人工智能科学家Jim Fan将Meta的这项研究称作计算机视觉领域的“GPT-3时刻”。它的推出,多家券商均认为必然会颠覆机器视觉领域,“AI视觉”“AR”“VR”则成为高频关键词,工业自动化、自动驾驶、安防等领域都是其商用方向。
机器视觉产业链迎爆发风口
机器视觉可分为上游(硬件、算法软件)、中游(视觉系统、视觉装备集成)和下游终端应用。上游涉及的行业范围较为宽广,主要包括光源、工业镜头、工业相机、图像采集卡和软件及算法平台等环节;中游是机器视觉产业链最核心的环节,由视觉系统和视觉装备集成构成;下游为应用领域,广泛应用到电子、半导体、机器人、汽车、医疗等各行各业。
在智能化、自动化产业推动下,中国机器视觉市场规模持续增长。随着机器视觉硬件方案的不断成熟和运算能力的提升,以及软件在各种应用解决方案、3D算法、深度学习能力的不断完善,机器视觉在电子产业应用的广度和深度都在提高,并加快向新能源锂电、光伏等其他领域渗透,在AI、自动驾驶、人脸识别等新兴技术兴起的带动下,我国机器视觉市场规模将继续保持较高的增速。2021年中国机器视觉市场规模138.16亿元,同比增长46.79%。预计2023年中国机器视觉市场规模将达225.56亿元。
高工机器人产业研究所(GGII)预测,至2027年我国机器视觉市场规模将达到565.65亿元,其中2D视觉市场规模将达到407.15亿元,3D视觉市场规模将达到158.5亿元。目前我国机器视觉在工业场景中的总体渗透率仍旧在10%以下,对比工业场景庞大的体量而言,机器视觉行业仍有较大发展空间。
从应用领域来看,GGII数据显示,2022年3C电子行业是机器视觉应用最多的领域,占比达25%,且已连续多年应用占比第一;其次是汽车、半导体、锂电池等行业。从细分场景应用来看,机器视觉在工业领域中的应用主要为检测、识别、测量以及定位等。在工业领域,机器视觉相对人眼视觉存在显著优势,机器视觉拥有精度高、速度快、适应性强、可靠性高、效率高等人工视觉无法比拟的优势,在我国人工成本增加、数字化转型、制造业效率和质量要求提高的大背景下,正在逐步替代人工。
SAM为机器视觉开辟了新的可能性
图像分割技术并非是新鲜事,但SAM能识别出训练数据集中不存在的物体,或许将会引发新一轮AI视觉应用潮。
SAM三种分割图像部分的方法:一是“悬停和点击(Hover&Click)”,当用户把鼠标放在想要分割出的部分上并点击时,SAM会自动提取出该部分;二是“方框(Boxing)”,用户将自己想要的部分框定出来,SAM会识别其中的物体并将其与背景进行分割;三是“全选(Everything)”,在这种模式下SAM会自动识别图像内的所有物体。
图像分割是机器视觉中的一项重要任务,其有助于识别和确认图像中的不同物体,把它们从背景中分离出来,这在自动驾驶(检测其他汽车、行人和障碍物)、医学成像(提取特定结构或潜在病灶)等应用中特别重要。SAM模型则建立了一个可以接受文本提示、基于海量数据训练而获得泛化能力的图像分割大模型,必将在机器视觉的应用领域里发放异彩,并带给机器视觉产业链质的改变。
Meta AI也给出了一些行业应用的例子:
自动驾驶:分割道路上的车辆、行人、交通标志等;
医疗影像:分割器官、肿瘤、血管等;
机器人:分割手臂能够抓取的物体、障碍物等;
虚拟现实:分割人体、头发、衣服等;
电子商务:分割商品、背景、标签等。
因此,SAM有望赋能众多垂直领域,释放AI强大潜力。从应用角度看,SAM可与其他系统灵活集成,获取输入提示,例如,从AR/VR中获取视线范围来选择对象、用文本输入检测界定对象等。目前,Meta公司内部已开始使用SAM,对其网站的图片、审核、Facebook和Instagram用户推荐内容等进行标记,同时,其官网也展示了SAM在VR/AR、智慧农业等领域的颠覆性应用畅想。此外,在自动驾驶领域,SAM有利于检测行人、汽车、障碍物等,提升智能汽车算法数据标注的效率,使算法迭代加速;在工业视觉领域,零部件在工业生产线包装过程中存在检测速度慢、自动化检测水平低下、检测准确率不高等问题,SAM可有效改善这些问题;在医疗领域,SAM可对医学影像进行分割标注,帮助医生进行病理分析和诊断;在数据标注领域,SAM可提高注释图像效率,新注释数据则可反过来用于更新SA,迭代改善模型和数据集。我们认为,SAM将赋能自动驾驶、工业视觉、医疗、数据标注等众多行业领域,相关领域标的将因此充分收益。可以说,SAM是一个令人兴奋的新技术,它为机器视觉开辟了新的可能性。
最后
SAM大幅降低计算机识别门槛,机器视觉通用场景应用有望加速推广,多模态技术的应用也有望进一步提速,在机器视觉领域具备技术储备和应用场景的公司必将迎来新一轮发展空间。
同时需要强调,相较于传统的图像识别解决方案,SAM更加偏向于LLM模型的模式,即通过海量的预先训练与扩大模型参数,来使得模型获得自主识别和学习能力,最终实现图像“AGI”,训练过程中需要的计算能力,通信能力和存储能力相较于文字模型更多,因此,海量的算力基建也是机器视觉蓬勃发展的前提之一。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司