- +1
统计学三要素:问题、数据和方法
众所周知,统计学是一门以数据为研究对象的方法论科学。比较一致的观点是,统计学是关于如何收集和分析数据的科学与艺术。如果把威廉.配第的《政治算术》作为统计学的起源,那么它已有近350年的历史。
在统计学产生之初,有两大学派:一是提出统计学名称的德国国势学派,确定了统计学的研究范围(国家显著事项)和研究思维(归纳思维);二是拥有统计学之实的英国政治算术学派,确定了用数据说话的定量研究方法。两者的融合,才产生了真正意义上的统计学。
那么,为什么会产生统计学这样一门学科呢?这就得从统计的社会需求谈起。
自古以来,人类就懂得利用数据来认识世界。在原始社会,人类为了最基本的生存,以结绳、串珠、刻线等方式进行计数。在奴隶社会,统治阶级为了对内统治和对外战争,需要征兵纳税,开始了人口、土地和财产的统计。
例如,据晋人皇甫谧的《帝王世纪》记载,中国公元前2000多年的夏朝分为九州,人口13553928人,土地24388024顷。差不多同一时期的古希腊、罗马等奴隶制国家,也有相应的人口、财产和世袭领地的统计。
到了封建社会,封建君主和精明的政治家日益意识到统计数据对于治国强邦的重要性,统计范围逐步扩大,但统计方法依然很不完善。到了资本主义社会,随着社会生产力的迅速发展和社公分工的愈益精细,需要更丰富、更全面、更科学的统计数据来系统反映经济社会发展成果,统计得到了很大的发展,逐渐出现了专业的统计机构和研究组织,统计方法得到了迅速完善和发展。二战以后,随着电子计算技术的推广应用,世界各国的统计能力都迅速提升,作用更加明显。
人类利用数据的目的是为了通过数据反映事物的分布型态与结构、变化规律与趋势、相互关系与影响,来帮助自己客观认识事物的本质特征,正所谓凡事做到心中有数。
特别是欧洲文艺复兴以后,一些科学家通过特意设计的调查、观察或实验等方式获取数据去研究自然现象和社会现象的内在规律和本质特征,例如人的身高分布的平均特征和回归现象,天文观测误差的钟型分布特征,现象发展的周期变化特征等,都是通过科学数据分析发现的。
然而,用数据认识世界、用数据研究现象的过程不是一帆风顺的,因为我们始终要面对如下三个问题:需要什么样的数据?如何获取这些数据?如何分析和应用这些数据?
问题是导向,数据是核心,方法是关键,数据跟着问题走,方法围着数据转。当然,这里所指的问题是现实问题而不是抽象的问题,这里所指的数据也是现实的数据,是数、量和计量单位相统一的有根据的数。这也正是统计学与数据之区别之处。
为了理解上述的统计学三要素,我们先来看一看配第的《政治算术》。他写这本书的目的是为当时的统治阶级出谋划策,所要探讨的问题是英国是否具备取代荷兰和法国的经济实力、能否成为最强大的殖民主义国家。
为了使结论可信,他采用数字、重量和尺度来说明问题。在分析论证中,他所使用的数据是所能收集的三国的实际数据,以及根据实际数据进行推算的有关数据,所采用的方法是分组、推算、比较和图表等如今常用的统计方法。
尽管现在看来,配第所使用的数据和方法都很简单,但在当时情况下已经属于开创性的研究,做到了问题、数据和方法的有机结合,从而成为经典之作。正因为如此,马克思称赞其为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。
但很多情况下,用数据说话,做到问题、数据和方法的高度一致,得出令人信服的结论并非易事。统计学历史上有名的皮尔逊争论就是一个生动的例子。
皮尔逊是伟大的统计学家,在他的指导下,艾瑟尔·M.埃尔德顿于1910年借助高尔顿实验室发表了题为“初探父母酗酒对后代的体格及能力的影响”的46页小册子,目的是想看看“酗酒环境对儿童有害”的假定能否在统计分析的检视下站得住脚。当时禁酒运动的一个普遍论点是,父母酗酒对儿童造成的伤害是饮酒的主要危害之一。
显然,这项研究需要被调查家庭的父母饮酒倾向和孩子身心健康特征的数据。最终,他们使用了两个来源的数据——爱丁堡慈善组织协会的报告和曼彻斯特一所接收“心理障碍”孩子的特殊学校的数据集,这两组数据都不针对包括酗酒在内的特定问题而收集,各有大约600户家庭,但都不够完整。
研究者对爱丁堡慈善组织协会报告中的家庭父母的饮酒习惯进行了分组,并用父母的工资水平间接地代表他们的身体与智力状况。运用相关分析法,研究报告通过大量图表对以上数据进行了详细的分析,给出了各种各样的交叉列表。
研究结论是:父母的饮酒嗜好似乎与后代的任何可度量的健康和智力指标完全不相关,因为父母饮酒与孩子的身高、体重和智力(由老师主观评定)之间的估计相关性都很小(在-0.05到0.07之间)。在给出孩子年龄的情况下,其偏相关性也不高。
小册子发表后,引起了巨大的争议,尤其以著名经济学家马歇尔和凯恩斯对小册子的质疑最为激烈。双方争论的焦点是两个来源的数据是否具有代表性,如何解读酗酒者与不酗酒者工资微弱差异背后的身体与智力状况。
根据同样的数据,竟然得出相反的结论。长达10个月的争论留下了一系列值得思考的问题:小册子的数据是否具有一般意义?是否符合生物统计的范围?是否可以获得其他更充分合理的数据来否定或进一步支持研究结论?如何对数据进行分组?如何选用数据(例如用工资水平来代表身体与智力)?如何解读数据和读懂数据(例如对同一工资水平数据的解读得出相反的结论)?正因为如此,皮尔逊最终强调“请把数据摆到桌面上来”。
可见,数据上对问题(怎么切入),下接方法(怎么分析),最终是如何解读(怎么回答问题),如果这三者即问题、数据和方法不能浑然一体,势必引起歧义。
在人类探求未知的过程中,比“父母酗酒是否影响后代身心健康”复杂得多的问题比比皆是。研究这些问题的惟一途径依然是用数据说话,基本原则是先彻底理解所要研究问题的实质是什么,然后按照内在逻辑关系获取真正所需的数据并且理解和读懂这些数据,最后再根据数据的类型和特点选用最合适的统计方法进行分析。
切不可脱离问题乱用数据,也不可不顾现实硬造数据,更不可没有读懂数据就搬用方法。但遗憾的是,在现实中很多所谓的统计分析根本没有遵循这一原则,没有明白问题就搞分析,没有读懂数据就建模型。
更有甚者,找不到需要的数据就随意选用替代数据,为了套用模型去硬凑数据甚至篡改数据,导致最后的结论离题千里,毫无意义。真正科学的统计分析,对于同样的问题、同样的数据(真实的),可以重复得出同样的结论。
任何“问题、数据和方法”相隔离的分析,哪怕某一方面出现一丁点纰漏,都得不出正确的结论。我们要坚决杜绝先有模型和结论、再反过来选择数据的做法,这是反科学的行为。
最后需要指出,现实社会是动态发展变化的,而且决定发展变化的因素在不同阶段都不一样,所以反映现象本质特征的统计指标也不一样,数据分析的方法自然也要变化。纵观历史,统计学因所要研究问题本质的改变和数据型态的变化而发展,今后也必将如此,但追求问题、数据和方法的有机统一始终是其不变的目标。
(作者: 李金昌 浙江财经大学)
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司