- +1
机器学习大牛吴恩达:调优数据比调优模型更重要
9月14日,在线上举行的亚马逊云科技中国峰会上,亚马逊云科技人工智能与机器学习副总裁Swami Sivasubramanian对话人工智能教育公司DeepLearning.AI创始人吴恩达(Andrew Ng),讨论机器学习的未来、下一代机器学习从业者需要掌握的基本技能以及如何弥合机器学习中概念验证与生产之间的差距。
左为吴恩达,右为Swami Sivasubramanian
吴恩达是人工智能教育公司DeepLearning.AI的创始人,工业人工智能平台公司Landing AI的创始人兼CEO ,在线学习供应商Coursera的联合创始人兼董事长。吴恩达曾在谷歌工作,是谷歌大脑深度学习项目的创始人和负责人,曾任百度人工智能首席科学家。他还是斯坦福大学计算机科学的兼职教授,领导着一个关于人工智能、机器学习和深度学习的研究小组。
吴恩达在现场分享了将机器学习从概念验证带入生产的技巧,快速赢得第一个项目以获得推进动力的重要性,以及确保负责制定和执行机器学习策略的高管获得有关该技术的充分教育的建议。
"我看到组织所犯的第一个错误是启动时间太长或计划时间太长。CIO(Chief Information Officer,首席信息官)说‘我的数据一团糟,我的digital silo(数字筒仓)需要完全清理。'然而事实上,基本上每个人的silos(库)中都有凌乱的数据,”吴恩达说。
吴恩达认为,启动一个小型试点项目以获得快速胜利非常重要。“几乎每家公司都已经有足够的数据开始着手,我发现直接加入进来,快速赢得一个较小的项目,并利用从中学到的知识随着时间的推移,发展成越来越大的项目的这些公司发展情况更好。”
那么如何为机器学习项目制定关键绩效指标呢?对此,吴恩达的回答是,“如果你是第一次从事一个项目,一个全新的应用程序,很难为AI团队制定成功的目标指标。作为团队正在开展的项目,很难建立一些合理的基线绩效水平。我认为你只需要快速构建第一个原型系统(prototype system),了解可能的情况。
更进一步,很多公司起步时往往发现数据是不够的,而数据是机器学习的燃料,这时候该怎么办?吴恩达提出,“我的典型建议是直接进入并开始使用小数据集做一些事情,然后通常会收集到更多数据。我发现对于许多实际应用程序而言,与以模型为中心的方法(您持有数据修复并尝试改进代码)相比,持有代码修复并迭代改进数据更有用。这是Mops(机器学习操作,Machine Learning Operations)的新生部分,我认为目前还没有人真正拥有出色的工具。”
MLOps是AI领域中一个相对较新的概念,旨在确保模型输出质量的同时,加快机器学习模型的开发和生产部署,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。MLOps基于可提高工作流效率的DevOps(用于促进开发应用程序/软件工程、技术运营和质量保障部门之间的沟通、协作与整合)原理和做法演变而来。
机器学习的进步是模型带来的还是数据带来的一直存在巨大争议,吴恩达在2021年4月18日生日当天发布的一个视频中表示,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作。MLOps则是保证数据质量在整个的机器学习工程中是高质量、一致的重要工具,对此,吴恩达做了进一步解释。
“在实验室中训练AI模型然后发表论文并产生良好结果令人兴奋。但是当人们审视机器学习项目的生命周期时,需要做的不仅仅是训练模型,还需要审视项目的范围,决定做什么,不做什么,还有收集数据并确保数据的高质量等等。然后将其推向生产,审视其解决任何性能或公平问题的表现,”由此,吴恩达认为,如果能够构建这样的工具,那么就可以授权更多人构建、部署、维护和有效使用机器学习系统。
“AI系统不仅仅是代码(code),而是代码加数据(data)。对于代码,我们有一个DevOps纪律。在数据方面,为了管理项目中持续的高质量数据流,MLOps需要更加迭代。他们需要共同努力,”吴恩达表示。
最后,对于刚毕业的工程师,吴恩达给出了自己的建议,“我发现人工智能领域表现最好的是‘T型’人才——拥有广泛的技术知识基础以及真正在某些领域深耕。课程作业往往是个人获得广泛的技术知识基础的一种非常有效的方式。然后超过某个点,为了获得更深入的知识,你必须跳进去做项目工作。我们都想建立一个能造福许多人,创造巨大的经济的项目。社区也很重要,我认为我们都是由周围的人塑造的,所以找志同道合的人互相分享知识。”
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司