- +1
用数据说话就是用事实说话 | 专访沈浩
说起数据新闻,你可能会想到数据图表、炫酷的可视化效果;可能会想到一些工具,比如Excel、Python、Tableau等等;也可能一头雾水。数据新闻在中国还年轻,但行业从业者、学术研究者、个人创作者们,已经围绕着它做了不少探索。
这一次,中国传媒大学新闻学院“白杨数新观察”团队和澎湃新闻“湃客·有数”共同推出系列访谈“数据新闻访谈录”。
我们抱着观察记录、答疑解惑的想法,采访了国内外十多位在数据新闻领域有创见、有思想的学者、媒体人及学子,阐释数据新闻的新理念新发展,介绍数据新闻教育的经验、方法和路径,分享数据新闻作品的创作过程,在数据新闻的业务实践前沿、行业发展前景、教学体系现状等话题中进行思维碰撞。
输入同一个问题,诞生于不同背景的 ChatGPT、文心一言等人工智能给出的回答不同,这是为什么?输入给人工智能学习的数据,其背后是否隐藏了不同的价值取向,输出反馈给人类时是否会隐含偏差和误导?这对我们的认知又将产生怎样的影响?对于以上问题,沈浩表示,人们应当对数据抱有信心——数据依旧是最有事实的东西,在大量数据中挖掘出的隐藏在数据中的模式、趋势和相关性,几乎不可能造假。而数据新闻,就是用数据去呈现真实。
沈浩,男,传播学博士。中国传媒大学新闻学院教授、博士生导师,中国传媒大学媒体融合与传播国家重点实验室媒体大数据中心首席科学家,中国市场信息调查业协会副会长。
2003 年,沈浩开始研究数据挖掘相关领域,后投身于空间信息分析和大数据领域。从大数据和人工智能,到区块链,再到元宇宙和虚拟数字人,沈浩一直在追寻科技的前沿。2013 年,在其引导下,数据新闻专业成立。
从专业上讲,沈浩从“最理科”干到了“最文科”。毕业于北京师范大学数学系的他更偏好用数学的方式解决社科,特别是新闻方面的问题。
Q1:在跨专业过程中,不同学科的逻辑思维体系是否有很大的差别,您又是如何将它们融合再运用的?
沈浩:我可以说是从“最理科”干到了“最文科”。微博刚出来的时候,我经常在微博发一些数据相关内容,网上会有一些人会和我杠,质疑我一个新闻学老师怎么会懂大数据、人工智能呢?文科、理科的思维方式是普遍存在的,尽管我不喜欢这样的二分。
近几年我愈发认识到数学的重要性,会向文科生灌输数学思维方式和脑句,这在解决实际问题中很有作用。虽然我现在可能有些走极端,就是说我更偏好用数学的方式解决社科问题,特别是新闻方面的问题,我越来越重视大数据智能技术对传统新闻变革的影响,因为我们本身就是做传播研究方法的,做方法需要定性定量。
不过,数据新闻做的是产品,是有组织的团队创新。新闻报道的思路和深度的数据挖掘过程需要共同讨论和仔细考量,靠一个人不能完成这么工作量大的任务。
Q2:您刚刚提到数据新闻的生产是需要团队的,为什么当下中国没有形成高度专业化的数据新闻团队形式?
沈浩:我们是有意识在带领学生形成团队去做数据新闻生产的,但是互联网或者说新媒体中传播效率不如预期。
当数据新闻起来的时候,除了探讨数据技术要求,我们还需探讨这种数据报道形态。这种形态是一种产品,既然是产品,那就跟传统的新闻宣传报道是不一样的。产品是有成本的,我们需要去考虑这个产品能不能卖得出去,它的受众是什么,以此来衡量能不能做。如此庞大繁杂的过程,决定我们的数据新闻不是一个人能做出来的——我们需要 News room。国外就有很多这种 News room,News room 里有一些编码程序员,还有数据科学家。境外的数据新闻主要是揭露造假腐败国际政府阴暗面的维度,我们对这维度不擅长,于是我们更加偏向于人文关怀,还有社会重大事件,比如青岛爆炸、深圳垮塌事件、周老虎事件,就是对已经确认的腐败通过天眼查去做。
然而,数据新闻选题是最重要的,我们做的是一种新的深度报道,新闻的生产已经发生了根本的改变,现在的数据新闻已经不是以前狭义的数据新闻了。数据新闻传入的时候,当时还没有人工智能,只有大数据,但同学处理不了大数据,只能处理小数据,只是在可视化方面玩得好一点。
Q3:您刚刚提到现在挖的都是小数据,没有真正应用到大数据。那作为一个学生,或是从业者,应该怎么利用大数据让新闻更好地实现叙事作用呢?
沈浩:为什么说“大数据才有数据新闻,小数据没有数据新闻”?这样说可能有点绝对,但其中还是有些道理的。新闻要有 5W1H 要素,但小数据没有这些要素。大数据是边生产边应用、边应用边生产,有时效性。而小数据是实证的,例如 45 天出一份报告,没有时效性。真正的大数据新闻应当是具有时效性的深度报道。大数据挖出来的东西不是靠直觉发现的,甚至是违背直觉的东西,是事先不知道的,缺乏相关理论的。大数据运用的技术更像是类似知识图谱或关系图谱,关系图和空间地理天生有可视化的效果,于是我们就有挖掘的能力。
目前来讲,希望学习新闻的同学们能在数据选题和叙事上有特色,努力开辟报道角度和叙事方式的独特性;并且了解数据新闻生产的过程,同时与写代码的、具有可视化表现能力的人通力合作。
Q4:数据的标准化过程中会不会存在倾向性,如何保证标准化后的数据的代表性呢?
沈浩:这是一个很技术的问题。为什么要标准化呢?其实主要是针对特定的分析,数据的量纲不一样,所以我们需要标准化。标准化是数据处理,或者叫数据预处理的工作。这里边包括三个方面。
第一个方面,就是我们在分析中把变量进行标准化。把量纲一致化之后,就可以进行相应的处理。在标准化的过程中可以产生“转换”,比如说数据过去不服从正态分布,我们通过一种标准化的方式,那么就可以使它显示出正态分布的形态。
第二个方面,就是在像排名这样的问题上。排名是技术,发布是艺术。排名的过程中,数据可能来自于不同的指标和不同的权重,那么为了能够加权,指标应该都是标准化的,但是在这个过程中如何标准化?是否会影响权重?这是很明显的。
第三个方面,就是标准化的预处理模式。比如去除异常值,这个算不算标准化呢?这就看广义的标准化概念。异常值的清洗,包括两个变量的相关性。如果两个变量具有相关性的话,那我们其实可以只用一个变量就可以了。所以标准化过程,其实也是一个数据消解的过程。
Q5:由数据分析得出的结论可信度高吗?评估标准是什么呢?它能够如实反映真实情况吗?
沈浩:我刚才说了一句话,其实内涵比较深,就是“排名是技术,发布是艺术”。也就是说,什么样的排名、用哪些变量,是人在决定。但如何排、如何标准化,其实也是一个重要的人为因素。在这个过程中,一个合格的数据分析人员应该秉承客观的理念,循着符合数理逻辑的过程。这不是篡改数据,而是改变算法。像传统的回归、因子分析、主成分分析,甚至包括现在我们的深度学习技术、比如最近的火的 ChatGPT,所有输入给计算机学习的数据都是需要经过标准化的。
那么标准化的过程会不会带来所说的“偏向”呢?这就是看到底是算法的偏,还是人为的、有意或者无意的偏,这二者是截然不同的。如果探讨人的原因,人有意篡改数据,希望模型怎么样,那又是另一个问题,这事情就变得复杂了。所以我们只能谈算法,这种算法会不会比另一种算法更有欺骗性?我们在模型训练的时候,一般都有 training data 和 testing data 以及 validation,经历不同的数据的分区和不同的标准化以后,算法是要经过不断验证的,以保证最后能够实现对新数据的应用,这是算法的问题,而不是人类在这里考虑的因素。
Q6:《数据如何误导了我们》一书中认为,“阐释数据背后意义的权利”为国家所掌控,您认为这和实际情况相符吗?当前数据新闻是否承担起了“展现真实情况”的责任?
沈浩:除了上帝,都应该用数据说话,数据是最有事实的东西,用数据说话就是用事实说话。
在大量的数据中挖掘出的隐藏在数据中的模式、趋势和相关性,几乎不可能造假。在这种情况下,我们需要去思考数据的价值是什么,数据能否揭示商业和社会发展规律的问题。
到了大数据时代,数据已经不仅仅是我们的一门学科,而且成为国家掌控的重要的信息来源。我们经常谈信息战、舆论战,实际上信息战就是数据战。
新闻是新近报道的事实。数据新闻从数据中挖掘,它一定是事实。事实是否是真相,是否符合社会伦理,这里面涉及到价值的问题。我们说数据呈现了真相,但是受众如何理解,这需要我们去了解和判断。当然结论一定是数据新闻通过数据展现真实,这是不可或缺的要件。否则你做出来的数据新闻可能就是假的,会误导别人。
然而,这些概念、我们讨论的语境都是普世价值范围内的。如果我们要打的是舆论战、认知战,那我们也知道,“造假”也是一种新闻。这种 disinformation、misinformation,像 BBC、纽约时报,他们那些东西尽管呈现了所谓的客观真实,但是他的用意可能对我们来讲就是敌意。
我们还是需要有数据支撑的,至少比没有数据更好。但是用数据说谎、统计的谎言——数据所带来的偏,这些其实一直伴随着数据和统计的发展。我们可以看一看 ChatGPT。ChatGPT 是一个由全人类的数据生成的一个知识信息机器人。但是我们同样会思考,ChatGPT 后边有没有价值观的问题?文心一言是不是也有这样的问题呢?这些东西其实都是不可或缺的话题,也是需要我们去深入研究的。
Q7:您认为数据新闻为传统新闻注入了怎样的新鲜血液?
沈浩:未来的新闻是数据分析。今天的数据新闻是让新闻更具有科技感,图像、语言文字、声音都可以进行智能处理,所以有“有图像无真相”的事情。现在做新闻的人,都变成了事实审核师。对开源的情报信息可视化技术、对事实进行追查和核实,都将带来数据新闻一种新的功能体现——新闻真实。尤其针对 disinformation(虚假信息),针对舆论战和信息战,对故意传播的新闻进行审核,这是数据新闻的能力和方向,这是第一点。
第二点,数据新闻在智能媒体出现后,可能会借助智能媒体快速生成新闻的新的表达形式,生产出既具有数据新闻的特色,同时又有更好的表达形式和传播能力的新闻产品,来测绘社会,使受众感知。
第三点,现在的武器在媒介化,媒介在武器化,对于国际上的传播,我们如何通过数据对敌,加强我们用数据说话外宣的能力,这是很重要的内容。
我作为一位 30 多年教龄的老教师,没办法跟上年轻人的节奏,这些东西都是年轻人的事业。我从数学到新闻又离开新闻,每天在写代码还有学新的东西。学生的创意完全超过老师,对于全新的东西,学生和老师都在共同成长。
采写 / 文知知 黄灿 宋京豫 董雨荷
编辑 / 徐心远 贾司瑒
统筹 / 詹新惠 汪惠怡 湃客·有数
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司