澎湃Logo
下载客户端

登录

  • +1

孙莹 | 从信息碎片到知识织锦

2024-12-16 14:31
来源:澎湃新闻·澎湃号·政务
字号

在数据驱动的时代,人工智能(AI)正以前所未有的速度改变着世界:从大数据智能推荐到自动驾驶,从金融风控到医疗诊断,AI的应用无处不在。然而,随着AI模型变得越来越复杂,它们的决策过程也变得更加难以理解,这催生了一个新的研究领域——可解释性人工智能。

▲孙莹

传统的深度学习模型,如神经网络,往往被视为“黑盒”。这意味着虽然它们可以基于大量数据做出准确预测,但用户却很难洞察其内部的工作原理。这种不透明性在许多场景下是不可接受的,特别是在医疗、法律和金融等行业,决策的可解释性和公正性至关重要。因而,香港科技大学(广州)人工智能学域助理教授孙莹在信息庞杂的数字宇宙中探索多年,最终锚定了数据挖掘与可解释性人工智能的研究方向,她仿若艺术家开始拿起自己的调色盘,在数据织就的精密网络上勾勒出一幅幅精致的知识织锦,让状似枯燥无趣的代码讲述出令人着迷的故事。

智慧的“矿工”

想象一下,当数以亿计的用户纷纷在社交媒体上点赞、评论或是浏览网页时,会产生多少数据?手下鼠标的每一次点击都如同一颗种子,落入数据的深渊,而这些种子又会在层层叠叠代码交织的滋养下,迅速生长,汇聚成错综复杂的逻辑链。如果没有相关研究者加以梳理、分析,这些逻辑链将永远如同混沌的海洋,无法展现其真正价值。所幸,年少的孙莹对此“开悟”得很早,几乎可以说,她如同一个被计算机学选中的孩子。

眉眼清秀、声音爽朗,这是孙莹留给外界所有人的第一印象。语气语调轻快利落,仿佛能把所有事都在短时间内条分缕析地“摆平”一样,这是她为人处世的个人风格。而这份干练与她的成长环境与家庭教育是分不开的。从小,孙莹便时常被爸妈和老师说“投错胎了,生了个男孩”。明明顶着一张淡雅清丽的脸,也取了个剔透似水的名字,孙莹却偏偏不热爱也不擅长收拾自己,除了潜心钻研计算机相关知识,对周遭其他不感兴趣。

早在幼儿园时期,孙莹就喜欢到母亲的单位去“鼓捣”电脑,几岁的孩子还什么都不懂,但那个满载数据的“魔盒”就在冥冥之中成了最吸引她的游戏。到小学三年级时,她已经可以熟练操作电脑,并在一脚刚迈入初中校门时就开始接触编程兴趣班。对于她来说,跟计算机打交道比跟人打交道要简单,也更能激发探索欲。“我就是现在大家口中常说的那种‘社恐’人。”她时常如此评价自己。中学时期,这一性格特点暴露得越来越明显,打游戏、编程、下棋……孙莹总在课余时间享受着独处的乐趣,但这并不意味着自我与封闭。相反,在朋友眼中,她是个爽朗大气的人,且是个即便有爱好消遣也不会耽误学习的“学霸”,“理工科极强”“年级第一”等标签一直被她挂在身上。

站在选择人生路径的路口,对许多人而言难做决定的高考报志愿却并没有花费孙莹太多的精力,早早就奠定了对计算机学兴趣的她只需要简单地动动笔,就能让曾经的梦想初步照进现实。而事实也的确如此——2013年进入北京理工大学软件工程专业,2022年博士毕业于中国科学院计算技术研究所,孙莹的求学路径一直与计算机息息相关。“对我而言,这一直是一个可以让人安静思考的专业。”她概括道。

或许正因入读了自己的兴趣专业,在为期数年的求学岁月里,孙莹一直不觉得有难以应付的吃力困境出现,“再难再累我也甘之若饴”。在这样的信念下,她不仅将国家奖学金从本科到博士一路拿了下去,还被班上同学冠以“孙大神”的称呼。2016年,她与学院其他两位同学组成了“大鳄鱼爱洗澡队”,成功入围了ACM国际大学生程序设计竞赛世界总决赛,更凿实了自己在班里的“封神之路”。毕竟,在许多人眼中,在电子信息等相关领域在我国尚未腾飞的年代,大赛奖项还几乎是少数男性的“统治区”,孙莹却能以女性学生身份从容自信地立身于其中,背后的付出远不是一句“挺努力”便能概括的。所以在那一年留下的纪念照片里,她笑得格外灿烂明媚。

但与此同时,孙莹很明白,荣誉终究只属于过去。所以,当冲向世界平台的激情与欣喜逐渐褪去,她很快又恢复到一个人泡图书馆阅读文献、一个人做研究的平静生活,而时间也在这样日复一日的知识摄入中流逝得极快,前往中国科学院计算技术研究所(简称“计算所”)硕博连读的机遇很快便来到了眼前。

对孙莹而言,在计算所深造,同时进入百度集团开展实习的经历使她受益颇深。因为这段走出“象牙塔”的日子让她真正有了一种“天将降大任于斯人也”的感觉,以致使她迫使自己尽快成熟,从单纯的计算机学理论世界中走出,脚踏实地、真情实感地接触精密运转的人类社会,洞察群众的真正需求,甚至,还开始锤炼自己在管理方面的素养。

说来也巧,孙莹进入百度集团的时候恰逢百度人才智库疾速发展的改革时期,当如此重任落在一位初出茅庐的青涩研究者身上,会发生什么?在后续几年里,孙莹用持续的努力交上了这份答卷。

百度人才智库简称“百度TIC”,是百度在2015年组建的专注于“AI+人才管理计算”方向的数据科学团队,旨在通过人工智能和大数据分析手段辅助现代企业的人才管理,推动企业人才管理从经验导向型向数智化导向型的变革,通过智能预测、异常诊断、文本挖掘、社交网络分析、机器学习等数字化技术为人才管理者提供智能化决策建议。通俗来讲,“AI+人才管理计算”能快速评估一位求职者过往的经历、技能与产出,来匹配合适的薪酬,这将会使企业决策更加透明高效,不再以主观评价的方式选人用人;同时也有助于求职者查漏补缺,知晓现在专业对口的劳动力市场上,自己需要提升哪些有针对性的技能,才能获得更好的竞争力。

这个系统就是孙莹几年工作的重中之重。她要做的便是让一切评价标准都尽量客观、可量化:什么样的技能在当时的市场上能够赢得更多分值,什么样的经历和职位能更加匹配……AI都能在短时间内迅速寻觅到与岗位最匹配的人。这份对人才资源大有助益的工作最终还发布在了《自然》(Nature)的子刊上。

“当模型效果不达预期,虽然表面上看不出,但她其实内心会非常在意”“即便是一处微小的优化也会让她反复琢磨上好几天”“宁愿耽误一个月,也不会轻易放过任何一个问题”……这些是曾经的合作者对孙莹的描述与评价,足可见她对于科研的执着与坚持。而这份“能坐冷板凳”的沉着和不焦躁的性子,是内向性格的另一面——专注力带给她的,是天赐的礼物,让她能沉下心去撰写博士论文,并最终凭借《面向人才评估的可解释神经网络算法研究》入选中国计算机学会博士学位论文激励计划。

塑造明日世界

2022年,27岁的孙莹正式加入香港科技大学(广州)人工智能学域,成为一名不折不扣的青年助理教授。与此同时,她要面临的行政琐事越来越多,学生时代不想交际、独挑大梁式的工作模式不再适用于现阶段的职业发展,带组做课题和多人协作越来越频繁,人际关系沟通的压力与教学工作的压力一度令她束手。但是,本着“从事更多底层技术研究”的务实念头,向着“做出推动世界研究”的高远目标,山高路远,孙莹只能风雨兼程。

心中“社恐”就努力和大量同行、学生接触,敞开心扉;同时约束自己不再使用类似“不就是这样做”的否定口吻与别人展开对话;在课堂上,孙莹也开始尝试多种教学形式,并与生活联系,插入现实实例以引发同学们的学习兴趣……她做得越多,前路就越明朗,科研的灵感也在逐渐释放自我的过程中得到了升华,国家自然科学基金青年基金项目与广东省级面上项目,也接踵而至。

在国家自然科学基金青年基金项目“基于高表达自归因结构的可解释神经网络研究”中,孙莹选择从神经网络自身可解释性的角度出发,从神经网络内部特征作用与解释性对表达性的约束作用两个方面,开展高表达自归因神经网络结构研究。虽然项目还在如火如荼地进行之中,但其带来的积极成果已具雏形:首先,孙莹协同研究团队将合作博弈理论引入网络结构设计,明确量化因果关系感知的归因值,并基于线性插值和局部原型学习,进一步开展高维输入的概念信息提取,将自归因扩展到概念层,同时保证复杂输入上的高表达特征提取能力。最终,基于概念符号的透明信息变换过程将有望成为现实。

从研究方法上讲,此项目是融合了事后解释算法、经典机器学习算法、黑盒神经网络优势的“集大成之作”。探索逻辑透明的高表达白盒神经网络结构极有望实现符号化、符合人类认知的神经网络模型,这不仅意味着人工智能高解释性与高准确性的融合共存,也将赋能更多的可信人工智能决策。

▲团队合影

如果说国家自然科学基金青年基金项目研究是孙莹顺应时代发展趋势,“塑造明日世界”的奋力一搏,那么广东省面上项目“基于神经网络的可解释图结构学习算法研究”则是其筑梦路上的又一力作。“图结构学习旨在从数据中推断节点之间的连接关系和拓扑结构,是人工智能研究的基础问题之一。传统图结构学习方法大多基于先验知识和规则提取而难以考虑非线性的复杂关联,深度学习技术等人工智能技术却可以弥补,即从数据中自动提取复杂特征和关联。但是,随着人工智能可信性问题的涌现,神经网络可解释性的缺乏极大限制其在图结构学习中的应用。”孙莹将自己的立项考量娓娓道来,并表示,自己和团队正在以复杂关联结构挖掘和图结构可解释性建模两方面关键的科学问题为切入点,力争赋能下游图任务中的可信人工智能决策。

数据挖掘师的工作,仿若古老织锦的制作过程——从杂乱无章又乱中有序的“线”中理出一条脉络,再用统计学和机器学习的工具作为“梭子”,在算法的织机上来回穿梭,织出一幅包含知识、信息的精美图画。可以说,在此项工作的进程之中,既饱含着对过往的反思,也考验从业者对当下社会的洞察。他们既如同数据泛滥时代下的灯塔,也如全新时代的知识工匠,用自己的智慧和手段,将冰冷的数据转化成可靠的依据,使每位决策者得以避免在浩瀚的数据海洋中迷失方向。

专家简介

孙莹,香港科技大学(广州)人工智能学域助理教授,2017年本科毕业于北京理工大学,2022年毕业于中国科学院计算技术研究所。主要从事的研究方向为可解释人工智能、数据挖掘及其在社会科学等相关领域的交叉应用。近5年来,孙莹在《自然·通讯》(Nature Communications)、《自然·城市》(Nature Cities)、《IEEE知识与数据工程汇刊》(IEEE Transactions on Knowledge and Data Engineering)、《ACM智能系统与技术汇刊》(ACM Transactions on Intelligent Systems and Technology)及“ACM SIGKDD知识发现与数据挖掘会议”(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)等学术期刊和会议发表论文30余篇,并申请国内外专利十余项,多项科研成果实现了产品应用转化,被《中国日报》、光明网等权威媒体广泛报道。另外,她曾获中国计算机学会(CCF)博士学位论文激励计划,中国科学院朱李月华奖,华为最佳创新合作奖、火花奖,百度奖学金全球20强,3次国家奖学金,国际大学生程序设计竞赛(ACM-ICPC)亚洲区域赛季军、世界总决赛入围等荣誉。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈